技术天地

0

今天,谈谈大数据。(2)

头像
小财

本文责编/作者:

(@小油)

修正:@Akira(at不出来我也很绝望啊)


回顾上一章:

  • 大数据,不是一个“新概念”,却是火起来的“新玩意”
  • 数据决定生死,分析能力也决定生死,这是一句真话

总的来说,上一章,我们讲的是“大数据的概念”与“大数据的发展形成”。

阅读提示:本文涉及主观的观念,为的是培养一种基础的认识,并不是严谨的概论。关于大数据的事情,多是见仁见智。

大数据的特点

说到大数据的特点,我们就不得不来说一下由IBM提出的经典的“5V特点”:

  • Volume(大量)
  • Velocity(高速)
  • Variety(多样)
  • Value(低价值密度)
  • Veracity(真实性)

(本文斜体字,均摘自百度百科)

这个“5V特点”,我们要从哪里入手呢?我觉得,首先要从互联网已经固有的两个特点入手:

Volume(大量) Velocity(高速)。

  • 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
  • 速度(Velocity):指获得数据的速度。

这两个很好理解。我们把大数据和传统的问卷调查进行一个对比,就能发现大数据在数据大小上的优势。大数据的收集和整理源于每一次点击操作、每一次浏览操作;而问卷调查是让用户告诉你,理论上来说不可能会获得特别多的数据,至少没有大数据这个庞大的“数据库”多。而大数据每次收入的是微量的数据,所以速度快,但是整理出来就有庞大的数量,所以称之为“大数据”。问卷调查短则几分钟,慢则半小时,视要收集的数据的大小和复杂程度而定。我们这里还提及了“数据的价值”和“潜在的信息”,这个在后文分析。

然后,我们再说说大数据所特有的真正的“特点”:Variety(多样)Value(低价值密度)Veracity(真实性)。

  • 种类(Variety):数据类型的多样性;
  • 价值(Value):合理运用大数据,以低成本创造高价值;
  • 真实性(Veracity):数据的质量。
  • 复杂性(Complexity):数据量巨大,来源多渠道(注:复杂性不属于“5V特点”,但我们放在这里,方便大家理解)

这里所说的多样,其实指的就是大数据的数据采集点较多;前文也说过,你每一次触发的操作,都有可能进入大数据这个庞大的“数据库”。有了多种多样的数据,才方便更好的描绘用户画像嘛。大数据的三个特性:大量、多样、复杂性,其实都是合而为一的!我们一直都在强调一个问题:大数据是无价的!大数据所代表的是一类人,一种人,而不仅仅是一个人。一个人的信息可能很渺小,但是一群人的数据就很重要了。掌握了大数据,就能够掌握市场的趋势,社会潮流的趋势;尤其对于在线购物行业,就能够知道你要买多大的衣服,你要买什么,你是肥宅还是数码爱好者,是个职场精英还是个全职妈妈,又再根据这些种类,这些标签,给你量身定制推荐内容。这就是“低成本创造高价值”:因为已经有了一定的数据基础,所以不需要使用过多的资源,过大的人力就可以给你提供准确友善的体验,从而促进经济效益层次上的转化。至于真实性,前文已经有所提及:既然用户会在我的网站上有所行动,有所行为,有所表现,为什么我要刻意地去追问他,而不把他的行为记录下来,再进行分析呢?人不是都那么地“诚实地对待别人”,但是为了自己的事情,人并不需要“自欺欺人”。如果你喜欢迷彩军装,你总不会特地去买一套特别小气的服装去迷惑系统吧?大数据从用户行为的层面上,就保障了数据的真实性,高质量;这也是“有些话我不说,但是行动上会表达”的道理。


大数据的缺点

说完人们老生常谈的“5V特点”,我们其实不难发现,这概括的都是大数据的优点!对于,一件事物,我们总要一分为二地看待。大数据和他的老前辈——问卷调查,都有一个逃脱不掉的弊端。

可变性、多变性。

这个又要和前文的复杂性联系在一起了。因为数据很复杂,来源很多,所以导致大数据和与其相关联的用户画像常常不稳定。有可能你昨天见到的年轻人还在高呼“李泽言是我老公”,今天他们就在念叨“我的崽崽怎么还没回家”了。这时候也会导致推荐内容和营销策略的剧变。这些变化总有可能会废了一些具有时代潮流特征的数据:因为新的时代、新的潮流又来了!可是也有一些观点认为,这种数据是废不得的:正是因为从他们喜欢什么的角度着手,才能预测下一次的潮流将会是什么,以做好应变准备。

总而言之,可变性和多变性妨碍了处理和有效地管理数据的过程

大数据是一个庞大的数据库,所以数据量如果不够,连大数据的数据库都无法构成。这又是和问卷调查都有的同一个弊端:

如果样本量不足,对结果、判断和用户画像会有验证的影响。

假如说你把一位堪比“陈独秀”一样秀气、特别的年轻人,丢在几千个年轻人里面,你很可能认不出他;假如把他放在十个年轻人,甚至五个年轻人里面,他就很扎眼了,堪比“蒂花之秀”。这个时候系统可能就认为:年轻人有一些特点,都会和他的差不多。(要是系统没有见过年轻人的话)

但是实际上这么特殊的人只是少数,应该特殊地隔出来处理,而不应该把他直接放到数据大流里面,任他“污染数据”!

回到问卷调查,如果你只知道一个人的心声,那肯定是不足够的;只有把数据整合在一起,才能得到趋势。

大数据还有别的缺点,并且,我们所说的“如果样本量不足,对结果、判断和用户画像会有验证的影响”这个缺点实际上是不构成的:没有庞大的数据量,连大数据都无法组成。这里就不再做赘述,请读者朋友们自己斟酌。

(注:①相关文献参考请看后记)

(未完待续……)


后记

(整个系列都没写好,你写后记干嘛)

实际上,作者的观点并不完善,还请读者们理解。事物的正确答案不止一个,至于大数据相关的问题,还有很多争议,这里我只说到了一些基础的内容,只是为了让大家有一个简单的理解。未来的天空还很广阔,等着我们去自由探索。有任何意见、建议,或者是讨论问题,欢迎在评论区发表。

今天美工不在家,不要吐槽为什么今天没有图片了

工作室官网:www.ingee.online

视频连载(主要):space.bilibili.com/8560

直播间(主要):live.bilibili.com/33768

“大数据的缺点”部分文献参考:

《白话大数据与机器学习》/高扬



本文转自 知乎,原文链接:https://zhuanlan.zhihu.com/p/33384607,如需转载请自行联系原作者
头像
丢弃

你的回复

如果只是评论问题或者答案,请使用评论工具。 您可以随时 修改您的答案 - 不需要重复回复相同的问题。 另外, 请别忘了去评价 - 这可以帮助选择最优的问题和答案!