老姨:“哎呀,听说你们挺忙的,你是做什么工作呀?”
序员:“我是程序员,做大数据的。”
老姨:“噢,大数据是做什么的呀?”
序员:“em...,老姨,你看看那包子好像熟了,我闻见香味了”
这可能是大数据从业人员会遇到的一个场景,亲人朋友们可能听说过这个词,但大数据到底是什么,可能从业者自己都说不清楚。这篇文章尝试着来解释一下大数据是个啥,希望咱老姨看了能明白。
大数据是很大的数据
在理解大数据之前,首先看下什么是数据。数据就是由计算机执行操作的数量、字符或符号,可以以电信号的形式存储和传输,并且记录在磁、光或机械记录介质上。
那什么是大数据呢?大数据依然是数据,但是有一个很大的量,同时还随着时间以指数速度在增长。简单来说,大数据就是数据量很大、很复杂的数据,不能使用传统的数据管理工具来有效的存储和处理。
大数据有多大?
上面说了大数据的概念,但现实生活中有哪些大数据的例子呢,以及具体有多大,我们下面看下。
为了能对后面内容的数据单位有一个大体的概念,我们可以先了解一下各数据单位。
- 1B (Byte 字节)=8b (bit 位)
- 1KB (Kilobyte 千字节)=1024B
- 1MB (Megabyte 兆字节 简称“兆”)=1024KB
- 1GB (Gigabyte 吉字节 又称“千兆”)=1024MB
- 1TB (Trillionbyte 万亿字节 太字节)=1024GB
- 1PB(Petabyte 千万亿字节 拍字节)=1024TB
- 1EB(Exabyte 百亿亿字节 艾字节)=1024PB
- 1ZB (Zettabyte 十万亿亿字节 泽字节)=1024EB
- 1YB (Yottabyte 一亿亿亿字节 尧字节)=1024ZB
前两年大家的手机流量基本都是 MB 为单位的,目前可能上升到了几 GB,这样大家有个直观的概念。
2025年全球每天产生的数据量将达到491EB
据IDC发布《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB增长到175ZB,相当于每天产生491EB的数据。
那么175ZB的数据到底有多大呢?1ZB相当于1.1万亿GB。如果把175ZB全部存在DVD光盘中,那么DVD叠加起来的高度将是地球和月球距离的23倍(月地最近距离约39.3万公里),或者绕地球222圈(一圈约为四万公里)。目前美国的平均网速为25Mb/秒,一个人要下载完这175ZB的数据,需要18亿年。
无处不在的社交数据
智能手机让人们的社交生活彻底数字化,每天在社交网络上花费的时间越来越多,产生的数据量也相应地不断增长。
据Facebook统计,Facebook每天产生4PB的数据,包含100亿条消息,以及3.5亿张照片和1亿小时的视频浏览。此外,在Instagram上,用户每天要分享9500万张照片和视频;Twitter用户每天要发送5亿条信息。
大数据只是大吗?
大数据最显著的特点肯定是大,但又不仅仅如此,大数据有如下几个特点:
- Volume:数据量,这是大数据的首要特点,数据是否能称为大数据,最关键的因素就是数据量。
- Variety:多样化,由于大数据的来源多种多样,因此多样化也是大数据的一个特点,数据格式可以是结构化、非结构化、和半结构化的。数据内容可以是 email、照片、视频、文件、音频、传感器数据(位置,高度等)等等。
- Velocity:速度,表示数据产生的速度,数据生成到速度越来越快、对后续处理的要求和使用的时效性期待也越来越高,因此速度也是大数据的一个特点。
- Veracity:数据的真实性,这是大数据一个扩展的特点,表示数据的质量和价值。
大数据最开始有 Volume、Variety、Velocity 三个特点,号称 3V 特性,后面有扩展出了 Veracity 这个特点,因此大数据并不只是大。
大数据有啥用?
其实我们日常生活中有很多使用大数据的例子,只是可能大家没有觉察到。我列举几个:
【第一个故事:大数据解救了每一个“地理白痴”】 李小茗是个“地理白痴”,所以他下载了一个高德地图。没有安装导航的原因,是因为这一产品付费,且占据了超过3G的内存。只要花一点流量,李小茗就能在地图上查看自己所处的位置,以及周围的建筑。
点评:虽然李小茗不知道什么是大数据,但每个在他地图屏幕上跳出来的坐标,实际上都是由大数据堆成的。
【第二个故事:搜狗热词里的商机】 王建锋是某综合类网站的编辑,基于访问量的考核是这个编辑每天都要面对的事情。但在每年的评比中,他都号称是PV王。原来他的秘密就是只做热点新闻。王建锋养成了看百度搜索风云榜和搜狗热搜榜的习惯,所以,他会优先挑选热情榜上的新闻事件来编辑整理,关注的人自然多。
点评:搜狗拥有输入法,搜索引擎,那些在输入法和搜索引擎上反复出现的热词,就是搜狗热搜榜的来源。通过对海量词汇的对比,找出哪些是网民关注的。这就是大数据的应用。
【第三个故事,阿里云知道谁需要贷款】 这是阿里人讲述的一个故事。每天,海量的交易和数据在阿里的平台上跑着,阿里通过对商户最近100天的数据分析,就能知道哪些商户可能存在资金问题,此时的阿里贷款平台就有可能出马,同潜在的贷款对象进行沟通。
点评:通常来说,数据比文字更真实,更能反映一个公司的正常运营情况。通过海量的分析得出企业的经营情况,这就是大数据的应用。
此外各个领域还有很多类似的应用和例子:
- 交通类: 路径规划如外卖,滴滴,无人车无人机
- 电商类:商品推荐,优惠券投放如京东东券
- 医疗类:病历结构化,疾病诊断(图片增强),药效预测
- 金融类:智能投顾,信用卡异常检测
- 电信类: 用户流失预测
大数据是不是过时了?
前几年听大数据还挺多的,这两年感觉提的不是太多了呀,大数据是不是已经过时了?
个人觉得,作为噱头和商业概念,大数据可能过时了,不止大数据, AI 和 区块链,现在都提的不多了,这些终究会过时。但是作为一项技术,我觉得大数据才刚刚进入稳定发展期,随着 5G 和 物联网、无人驾驶等技术的应用和发展,数据只会越来越大、越来越快、越来越复杂,大数据的价值也会越来越明显。
就像空气和水一样,我们需要它,但不会每天注意它,大数据也一样,将来它会成为像自然资源一样重要的东西,利万物而不争。
文章原创发表于我的公众号,欢迎关注,第一时间获取关于新技术、大数据相关信息。
本文转自 知乎,原文链接:https://zhuanlan.zhihu.com/p/100643312,如需转载请自行联系原作者