财务管理

0

大数据:一些看法

头像
张迅

五年前,一种新型H1N1流感病毒在短短几周内迅速蔓延。传统的信息收集和病例汇总往往会有一到两周的延迟,对于一种飞速传播的疾病,信息滞后两周的后果是致命的。与此同时,谷歌的科学家们在世界著名的科研杂志《自然》上发表了一篇著名的文章。无需一条医学检查的结果,他们通过分析人们的搜索记录来判断这些人是否患上流感,预测流感在全美范围内的传播,并且相比于北美疾病控制中心,他们追踪疫情更快更及时。

很快,谷歌数据小组的成功成为了一个新兴的科学,技术,商业的领域的象征:大数据。人们预见,这是一种前所未有的方式,在海量数据的背后,是巨大的信息价值和洞察力。

Data science is a rocket science, be prepared!

根据Mayer-Schönberger的《大数据时代---生活,工作与思维的大变革》,大数据意味着:更多,随着数据处理技术已经发生了翻天覆地的变化,随机样本将不再重要,样本即等于总体;更咋,接受混乱,接受不准确性,纷杂的数据越多越好;更好,趾高气扬的因果关系将光芒不再,卑微的相关关系将被充分利用,知道“是什么”就够了,没必要知道“为什么”。

似乎一切迹象都表明,大数据是未来——麦肯锡推测通过大数据整合,从数不清的诊断记录,到医疗保险再到智能跑步app上的数据,平均每个美国人每年能省下1000美元的医疗花费;数据科学申请大热,哥伦比亚大学和纽约大学的数据科学硕士项目在一年内录取率骤减;马云说:我们正从信息时代迈向数据时代……

但是,最近一篇发表在FT Magazine的流行文章《Big data:are we making a big mistake?》给大数据泼了一盆冷水。文章指出:在连续准确地预测几个冬天的流感突发之后,这个理论上免费且迅速的模型失效了!滞后的北美疾病控制中心的数据显示谷歌的模型不再准确。

质疑声来了:如果你不知道相关性背后是什么,那么你也不知道什么时候相关性会消失。谷歌的科学家也许不知道,也从没打算弄清楚是什么让那几个搜索关键词和流感扯上关系。相比于因果关系,他们更关心的是相关关系。

另外一个受攻击的方面是全数据模式“样本=总体”,大数据的质疑者们举了一个美国历史上著名的选举案例:1936年,共和党人Alfred Landon和Franklin Delano Roosevelt竞选总统,著名杂志Literary Digest声称他们的1000万民意测验,相当于四分之一的选民数,显示Landon将以绝对优势胜选。而最后的结果是,罗斯福以61%的支持率毫无悬念战胜了只有37%支持率的Landon。样本大小并不重要,重要的是随机性。统计学家们证明了:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增长关系不大。

大数据就像未成年人性行为: 每个人都讨论它,没人知道怎么搞,每个人都以为其他人在搞,所以每个人都宣称他们在搞

自统计学创立以来,200多年的时间内统计学家一直在试图寻找数据背后的秘密,也一直在避免陷入数据分析的陷阱。

毕竟统计不是数学,数据的背后不光是单纯的数字,更重要的是insight!

无论大数据是不是未来,它都为我们提供了一个新的工具,新的资源,新的思路。说大数据无用等同于说相比于一栋平房,你不能把更多的人放进一个一百层的摩天大楼里。如果你想建造用一栋平房一样的方法建造一幢摩天大楼,结果是在第十层的时候大楼就会坍塌。大数据来了,挑战也是——不要忘了,一个错误导致摩天大楼的倒塌带来的后果比平房的毁坏要严重的多。



本文转自 简书,原文链接:https://zhuanlan.zhihu.com/p/19733402,如需转载请自行联系原作者
头像
丢弃