大数据定义
大数据自提出至今得到广泛关注,其并无统一 的定义,由于大数据是相对概念,因此目前的定义都是对大数据的定性描述,并未明确定量指标。
维基百科中指出,大数据是指利用常用软件工具捕 获、管理和处理数据所耗时间超过可容忍时间限制的数据集;
全球著名的管理咨询公司 McKinsey 则将数据规模超出传统数据库管理软件的获取、存 储、管理以及分析能力的数据集称为大数据;
研 究机构 Gartner 将大数据归纳为需要新处理模式才 能增强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;
徐宗本院士 则在第 462 次香山科学会议上的报告中,将大数据定义为“不能够集中存储、并且难以在可接受时间 内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集”。
虽然以上关于大数据定义的定义方式、角度以 及侧重点不同,但是所传递的信息基本一致,即大数据归根结底是一种数据集,其特性是通过与传统的数据管理以及处理技术对比来突显,并且在不同需求下,其要求的时间处理范围具有差异性,最重要的一点是大数据的价值并非数据本身,而是由 数据所反映的“大决策”、“大知识”、“大问题”等。
大数据特征
大数 据应具有 4V 特性,即
- Volume( 数据量大)
- Velocity ( 数据处理速度快)
- Variety ( 数据具有多样性)
- Value( 数据价值密度低)
在此基础上,也有人增加了两个V,即
- Valence(连接)
- Veracity(真实)
大数据的表现形式
结构化数据:关系数据库表
半结构化数据:XML,HTML,JSON
非结构化数据:视频,音频,图片,文本
大数据的处理方式
交互式
Adhoc Query,又称即席查询,指用户根据临时需求定义的查询
批处理
流处理
批流一体
本文转自 知乎,原文链接:https://zhuanlan.zhihu.com/p/520194458,如需转载请自行联系原作者