技术天地

0

大数据思维

头像
小财

书接上回,我们阐述了什么是大数据。那么今天我们主要介绍大数据带给了我们什么?我认为大数据带给我们最有价值的东西就是大数据思维。因为思维决定一切。那么什么是大数据思维呢?

第一由样本到全量思维;第二由精确到模糊思维;第三由因果到关联思维。接下来,我们需要对这三个思维进行深度剖析,才可能深度理解并转化为自己的思维。

样本到全量

以前我们进行数据分析时通常是用样本数据进行研究,样本是指从总体数据中按随机抽取的原则采集的部分数据,所以至今样本思维还是很常见的。究其本质我们很容易发现样本分析是因为传统的手段很难进行大规模的全量分析,因为成本会很高并且效率低下。例如,我们小的时候经常看到几年来一次大规模的人口普查,需要大量基层人员挨家挨户的入户登记,工作周期长、效率低下。登记完成后,一个阶段内分析人员都是基于样本思维在做分析和推测。而到了大数据时代,很多信息已经实时数据化、联网化,加上新的大数据技术可以快速高效的处理海量数据。我们花费更低的成本、更低的代价很容易就能做到全量分析。样本分析是以点带面、以偏概全的思维,而全量分析真正反映了全部数据的客观事实。

精准到模糊

传统数据分析的时候由于数据量小,分析人员可以对数据做精准分析,甚至细化到单条记录。并且出现异常的时候,还能对单条数据做异常原因等深究工作。但等到了大数据时代,随着数据的爆发,已经很难让分析人员能够关注更多细节。精准性思维是建立在少量数据的基础上,基于精准得出的规律,在海量数据面前也会产生变异甚至突变。所以在大数据时代我们分析更强调大概率事件,也即所谓的模糊性。这不是说我们要抛弃严谨的精准思维,而是说我们应该增加大数据下的模糊思维。最典型的案例莫过于Google预测流感一样,Google通过大家的搜索记录,预测某个地区发生流感的可能性就是一种模糊思维,他不可能绝对精准,但概率会很高。

因果到关联

我们每个人开始上学的时候,语文课上学的句式中就有一个因为什么所以什么,典型的因果关系。从小的数学课上,学了大量的公式,通过公式的推理和证明,也是一直在强调因果关系。至此我们每个人在看到问题和现象的时候,总是不断问自己因为什么。所以可见因果思维在我们每个人脑中已经形成了很深的烙印。但学习数据挖掘的人都知道一个“啤酒与尿布”的故事。故事的内容是这样,沃尔玛的工作人员在按周期统计产品的销售信息时发现一个奇怪的现象:每逢周末,某一连锁超市啤酒和尿片的销量都很大。为了搞清楚这个原因,他们派出工作人员进行调查。通过观察和走访后了解到,在美国有孩子的家庭中,太太经常嘱咐丈夫下班后要为孩子买尿片,而丈夫们在买完尿片以后又顺手带回了假期看球赛时自己爱喝的啤酒,因此啤酒和尿片销量一起增长。搞清原因后,沃尔玛的工作人员打破常规,尝试将啤酒和尿片摆在一起,结果使得啤酒和尿片的销量双双激增,为商家带来了大量的利润。通过这个故事我们可以看出本来商品中尿布与啤酒两个风马牛不相及的东西,关联在一起销量增加了。数据挖掘中一个算法叫关联规则分析,就是来挖掘数据关联的特征。通过数据的挖掘我们能够看到数据的关联现象,但我们不一定知道他的因果关系。因为关联关系体现了数据思维视角看现象,而因果关系体现了从业务视角看现象。

通过以上的内容我们不难看出,大数据时代的到来,给我们带来了思维的改变。但这种思维的改变绝对不是抛弃已有的思维,而是应该学习新的思维,掌握它。让它成为你的思维库里的又一项武器。只有你的思维升级了,你才可能在这个时代透过数据看世界,比别人看得更加清晰。



本文转自 知乎,原文链接:https://zhuanlan.zhihu.com/p/23971154,如需转载请自行联系原作者
头像
丢弃

你的回复

如果只是评论问题或者答案,请使用评论工具。 您可以随时 修改您的答案 - 不需要重复回复相同的问题。 另外, 请别忘了去评价 - 这可以帮助选择最优的问题和答案!