前两年B站代码泄露的事,有不少人解读过疑似B站推荐的核心算法。
视频的推荐指数=硬币×0.4+收藏×0.3+弹幕×0.4+评论×0.4+播放×0.25+点赞×0.4+分享×0.6,一天内的新发布视频推荐指数提高1.5倍。
看到网友对这个推荐指数进行了验证,但是数据量很小,于是我也来进行下验证(以下数据采集时间为2021.08.18)。
首先,我爬取了B站科技区头部默认的160个热门视频的数据。画出了散点图,横轴代表播放量,纵轴代表推荐总数。在以下所有的数据中,由于评论数据是ajax动态加载数据,略麻烦,就没有爬取。我的这个推荐指数就不包含评论因素。这点缺失不会对结果造成明显影响。
散点图的关系相当漂亮,严格在一条斜线附近,说明热门视频的播放量与推荐指数的关系非常明确。
热门视频的数据是视频最后的稳定数据。那么对于数据增长中的较新视频,是不是也服从这一规律呢?
由于较新视频的各项数据较低,我于是选取了最新发布的1000条数据,发布日期为最近两日的。得到以下图。依然是一条斜率几乎一样的斜率。
不过上图大部分数据都在阅读量5000以下,看得还不清晰,于是我剔除了阅读量5000以上的数据。
由于网传的推荐指数包含对24小时内发布视频加权1.5倍的影响。我于是将这1000条数据分为两组,前500条数据大多是最新发布24小时的视频,后500条数据大多是24-48小时内发布的视频。
下图为前500条数据。两图斜率几乎一致,且散点和斜线都非常接近。各幅图的斜率基本都在0.29,预计如果添加上评论因素,斜率会在0.30。
得出这样的数据还不能使我放心,因为在推荐指数中,播放量与推荐指数的单独关系中,斜率是0.25,这些互动动作的权重只占20%呀。于是我测算了推荐指数中剔除播放量因素的数据,得到以下图。
当推荐指数不包含播放量因素时,推荐指数和播放量的关系并不是一条直线。
通过以上数据研究得出以下结论:
有网友对几个账号视频的完播率进行统计,也说明了播放量与完播率关系不大。但数据中完播率均高于17%。
这涉及到一个问题。B站的播放量统计,并不是点击了视频就计算播放。
B站的播放量数据,要求同一个账号,一段时间内,多次观看一个视频,都只计算1次播放量,且观看一个视频要达到一定时长比例,观看时长太低,也不计算播放量。
这个计算规则接近于和微信公众号的阅读量计算规则一样严格。可以理解为B站视频的播放量,就是实实在在的这个视频被多少个人观看了。
从上图的数据来看,这个计算播放量有效的播放比例小于17%,预计在10%-17%之间。
为什么B站推荐视频时不考虑完播率呢?因为如果完播率明显影响视频的播放量,则短视频就会有明显优势,中长视频获得的流量就会明显减少,让用户不再愿意生产中长视频。抖音的推荐算法会考虑完播率,所以使得博主不愿意生产长视频。
为什么B站不对新视频进行一定的推流测试呢?其他平台的推荐算法对新内容进行推流测试,根据的是打开率,完播率等数据,打开率根据的是头图、标题。对于中长视频而言,这些不是判断视频是否受欢迎的标志,互动才是。
B站没有推流测试,意味着新用户发布的新视频,如果没有初始互动,则可能播放量为0。除非通过搜索观看视频的用户把这个视频顶起来了。
有一定粉丝量的UP主的视频不容易被埋没,粉丝量低的UP主的优质视频有可能被埋没。粉丝量低的UP主为了让视频不被埋没,需要前期拉人给视频创造人气。
B站的推荐指数算法是怎么发挥作用的呢?
在视频冷启动阶段,推荐指数促使UP主要给新视频带来初始流量,获得人气。
当视频的互动数据好时,播放量<10/3×推荐指数,则获得推荐,从而播放量上涨,直到播放量=10/3×推荐指数。
当视频播放量过高时,播放量>10/3×推荐指数,则不获得推荐,直到互动数据赶上来。
所以,刷播放量的策略在B站上不起作用。只会让视频的真实流量更少。
对于B站而言,粉丝量是重要的,高粘度的粉丝是重要的。这个推荐算法也解释了为何B站的大UP主商业价值高于小红书高于知乎。
总结一下:B站推荐内容的核心逻辑就是遵循推荐指数=硬币×0.4+收藏×0.3+弹幕×0.4+评论×0.4+播放×0.25+点赞×0.4+分享×0.6。播放量=10/3×推荐指数。
在视频冷启动的阶段,要努力提升以下指标:硬币数、收藏数、弹幕数、评论数、点赞数、分享数。视频完播率的最低标准要控制在17%以上。