不过好在前面说的都是传统的调研方式,新的获取数据方式,也就是所谓大数据,其实是根据用户实际行为获得的。对刚才提到的淘宝京东来说,根据该用户的消费记录,基本就能够知道他们大致属于什么收入阶层,根据他们的购物记录,也能还原出大致的人的性格、喜好和生活环境。
既然是通过用户的行为得到的数据来做判断,不是拿调查问卷或者访谈作为根据,那总不会出问题了吧?
当然也不是。这就涉及到数据分析环节中的陷阱了。同样的数据,不同的人会有不同的看法,不同的算法也会得到截然不同的结论。
数据(Data)是客观存在的,但是信息(information)则是我们分析出的。而知识(knowledge)是从信息中提炼出的、归纳总结出的(原腾讯副总裁吴军老师和台积电张忠谋都提过这样的概念)。
它们分属三种层次,我们应当时刻清楚当前面对的,究竟是哪一个。
我目前所在的即时物流平台,做的是配送的业务。一方的用户是不同的渠道商,像饿了么、鲜花店等;另一方的用户则是众包配送员。可以理解为我们是做双方的撮合平台。
有段时间我们就遇到一个问题:A 渠道商的订单总是配送不出去,或者超时,或者干脆时间太久被取消。这个渠道的订单取消率和超时率都居高不下,同时配送这些订单的配送员数量一直很少。
我们对这些数据初步的判断就是:这是 A 渠道商的配送员不够。由于我们对 A 渠道商的配送服务有一定要求,所以对应的配送员要经过培训。我们的结论就是:让更多的配送员接受培训,增加对应配送员。
看起来逻辑没什么问题,但我们在即将行动时发现了另一份数据:A 渠道商的订单转单率特别高。所谓转单,就是配送员认为自己某种原因无法完成配送,于是把自己手中的订单转出去。
这下真实的原因露出水面。并非是配送员不够,而是配送员对接 A 渠道商的订单积极性不高,甚至有些反感。被转出的单子自然就容易超时乃至取消。
问题的本质也就是,我们应当提高 A 渠道商订单在配送员方面的满意度和收入。而不是冒然增多配送员。
「看似是这样的」和「真的是这样的」中间的差别可能非常巨大。
再比如,看这两张图,用户活跃量几乎一样(彩色图块的外边线),应该都是比较乐观的增长。
但仔细看,就会知道,虽然第一张图里的用户活跃量也不低,但是用户的周留存剧烈下降,甚至为 0,而图二中每天的活跃用户,在一定时间后就逐步稳定了下来。也就是说,在后期的日活中,有大量的是留存老用户,不像图一基本都是新用户。
这是一种很好地通过数据分析活跃用户与留存用户关系的方式。而如果只看到了活跃用户的数据,就不会得到正确的结论。
还有个经典例子就是沃尔德对美国空军战机的分析,这里就不做赘述了,参考:百度百科「幸存者偏差」中关于二战飞机的例子,前后解释有些矛盾,是怎么回事? (https://www.zhihu.com/question/21949175)