荣振环老师推荐,移动互联网必读图书《大数据时代》
作者:荣振环
身边很多朋友看过大数据时代,听说过大数据的概念,但当我问他们到底什么是大数据。很多人却说不出一个一二三来。
我一个朋友和我讲,大数据就经常挂在我们嘴边,但真让我解释什么是大数据,我还真说不出来。
这让我想起来,曾经有人问学贯中西的钱钟书老先生,什么是文化。
钱老的回答是,“你不问我文化是什么的时候,我还知道文化是什么;你问我文化是什么,我反而不知道文化是什么了。”
大数据也一样,我们不被问起的时候,好像知道什么是大数据,当被问到的时候,大数据到底是什么。
我个人理解,大数据就是我们人类的很多行为都可以数据化,变成沉淀下来的大样本量数据,能够为我们利用。
《大数据时代》确实是关于大数据很好的一本书,它重点告诉我们大数据的“三个不是,三个而是”。
1)不是随机样本,而是全体数据;
2)不是精确性,而是混杂性;
3)不是因果关系,而是相关关系。
不是随机样本,而是全体数据
在大数据时代,“样本=全部”——不是随即样本,而是全部数据。《大数据时代》也对传统意义上的统计学构成了冲击。
在这样一个有足够强大的数据搜集和数据处理能力的时代,样本不再是万分之一,而转变成了“样本=全部”,样本,就是万分之一万,技术使得我们进入全样本时代。
比如,数据应用的一个经典案例就是谷歌预测流感。
通过分析大量用户的搜索记录,比如“咳嗽”“发烧”等特定词条,谷歌公司能准确预测美国冬季流感传播趋势。和官方机构相比,谷歌能提前一两周预测流感暴发,预测结果与官方数据的相关性高达97%。2009年甲型H1N1流感暴发时,“谷歌流感趋势”系统大显身手。这种分析很简单,就是基于谷歌庞大搜索记录的样本数据。
每天30亿条搜索指令,足够的数据资源,就形成的精准预测。这就是大数据的力量。
试想,这种基于数据的预测,不需要分发口腔试纸或者联系医生,只需看一下统计数据即可。
这一种前所未有的方式,海量的数据分析,便于我们获取巨大的价值的产品和服务,或产生深刻的洞见。
不是精确性,而是混杂性
不是精确性——而是混杂性。数据量的显著增大也必然会让我们付出一些代价——一些不准确的数据会混入数据库,结果也可能不准确。这就是大数据时代的另一种思维——“不是精确性,而是混杂性”。
对“小数据”而言,最重要的要求就是减少错误。而在大数据的采集里,在技术尚未达到完美无缺之前,混乱是无可避的。虽然我们得到的信息不再那么准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变的更为划算。
举个我们身边的例子,我们很多人上过豆瓣,豆瓣电影的评分还是相对比较客观的。
但是,当影片刚上映时并不是那么客观,比如某些影片刚上映时,来了好多偏方雇佣的水军和五毛党,全部给五颗星,一下子拉高影片的总体评分,后期,随着观影样本人数越来越多,这部影片的评分才趋于理性。
大数据时代,我们不要求所有数据的精确,而是容忍混杂,当混杂遇到足够多的量,也许就会得到因量汇聚而产生的精确。
不是因果关系,而是相关关系。
大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。
人们经常谈到的例子是:沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买尿布。这样的发现就让超市将尿布和啤酒摆放在一起出售,从而提高利润。
还有一个更有趣的例子是美国的塔吉特,这家零售超市居然比一个父亲更早知道他女儿怀孕。
曾经有一位男性顾客到一家塔吉特店中投诉,商店竟然给他还在读书的女儿寄婴儿用品的优惠券。
这家全美第二大零售商,会搞出如此大的乌龙?但经过这位父亲与女儿进一步沟通,才发现自己女儿真的已经怀孕了。
一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢?
每位顾客初次到塔吉特刷卡消费时,都会获得一组顾客识别编号,内含顾客姓名、信用卡卡号及电子邮件等个人资料。
日后凡是顾客在塔吉特消费,计算机系统就会自动记录消费内容、时间等信息。再加上从其他管道取得的统计资料,塔吉特便能形成一个庞大数据库,运用于分析顾客喜好与需求。
塔吉特的统计师们通过对孕妇的消费习惯进行一次次的测试和数据分析,得出了一些非常有用的结论:孕妇在怀孕头三个月过后会购买大量无味的润肤露;有时在头20周,孕妇会补充如钙、镁、锌等营养素;许多顾客都会购买肥皂和棉球,但当有女性除了购买洗手液和毛巾以外,还突然开始大量采购无味肥皂和特大包装的棉球时,说明她们的预产期要来了。
在塔吉特的数据库资料里,统计师们根据顾客内在需求数据,精准地选出其中的25种商品,对这25种商品进行同步分析,基本上可以判断出哪些顾客是孕妇,甚至还可以进一步估算出她们的预产期,在最恰当的时候给她们寄去最符合她们需要的优惠券,满足她们最实际的需求。
依靠分析消费者数据,塔吉特的年营收从2002年的440亿美元扩大到2010年的670亿美元。这家成立于1961年的零售商能有今天的成功,数据分析功不可没。
另外一个例子是亚马逊。
现在,当我们上网购物时,经常会有一个栏目向我们推荐其他的商品,如今看起来已经司空见惯。
但这个创意,你知道是怎么来的吗?
这种根据以往的购物习惯和爱好向用户推荐的方式来源于亚马逊的创举。
1994年杰夫·贝索斯(Jeff Bezos)创办了这家后来更名为“亚马逊(Amazon.com)的电子商务公司。
最初,亚马逊的内容都是由人工完成的。亚马逊聘请了一个由20人组成的书评团队,他们写书评、推荐新书,在亚马逊的网页上推荐有意思的新书,对亚马逊书籍的销量大有帮助。《华尔街日报》曾热情地称他们是全美最有影响力的书评家。
随着亚马逊的书越来越多,这样的人工操作自然越来越显得乏力低效。不久,贝索斯决定尝试更有创造性的做法,根据用户的习惯来为其推荐商品,也就是我们现在熟悉的个性化推荐。
就是我们比较熟悉的“看过此产品的顾客,还看过这些产品。”
在亚马逊的带领下,越来越多的公司开始使用这种个性化推荐系统,推动了电子商务的发展。而这种基于海量数据的推荐,也是大数据早期运用的一种形式。
现在,你可以自己做一个测试,你在百度搜索一些关键词,你就浏览一些网页时就会看到相应的广告信息。
这就是大数据,没有告诉百度你为什么需要这个,只是告诉百度你确实是需要这个。
即,不是因果关系,而是相关关系,大数据不告诉为什么,而告诉是什么。
总体而言,大数据时代透露出三个特征——更多、更杂与更好。它面向未来,要做的事情是关于“预测”。
当你有了大数据,只要找到一个关联物并监控他,我们就预测未来。
更多精彩书评,敬请关注微信公共平台“荣振环微书评”:这是中国最为睿智的移动互联、营销与品牌、新技术、新思维的微书评。微信号:rongzhenhuan.
荣振环图书推荐,每日推荐一本好书。让你“好读书、读好书、读书好”。好书活用,智慧伴侣。中间穿插微品牌策略、微营销策略、微文化智慧。让你学到即能用到。每日一书,人生不输。
欢迎朋友们把好书分享给你的朋友,传递书香,共享智慧。