什么是大数据?
维基百科上说:大数据指的是网络公司日常运营所产生的和积累用户网络行为所获得的海量数据。大数据不是一种新技术,也不是一种新产品,而是一种新现象。大数据具有以下特点:
- 数据体量巨大;大型数据集的数据量可以达到TB级,甚至PB级。
- 数据类别繁多;数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括半结构化和非结构化数据。
- 价值密度低;以视频为例,在连续不间断监控过程中,可能有用的数据仅仅1~2秒。
- 处理速度快;大大数据处理中包含大量在线或实时数据分析处理的需求。
大数据的处理流程,是指在合适工具的辅助下,对广泛异构的数据进行抽取和集成,对结果按照一定的标准统一存储,然后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。总结来说,分为数据获取与集成、数据分析以及数据解释。由于现代大数据的上述四个特点,决定了大数据处理流程的每一步都要发展和调整,才能得到满意的结果。
大数据分析研究
随着大数据热的兴起,数据分析与数据挖掘的技术日益成熟,统计学、数据分析的技术手段被引入到大数据处理过程中。
首先,统计学的理论被引入到大数据处理领域。由于大数据的规模大,经过数据清洗的有效数据通常符合统计规律,因此信度系数检验、关联性分析、数据离散度分析、聚类分析、主成分分析等被广泛应用到大数据处理的过程中。
其次,除了传统的数据分析技术之外,遗传算法、神经网络、语义网络、分布式数据库管理等处理技术已经成熟。
第三,专业的数据挖掘软件、数据推送技术快速发展。
数据量大、数据类型多、价值密度低和处理速度快是现代数据的四个特点,所以现在也被称为大数据时代。
数据分析的算法日益成熟,统计学、数据分析的技术手段被引入到大数据处理过程中,起到重要的作用。数据统计分析是数据分析的常规手段,信度系数检验、关联性分析、数据的离散性分析、聚类分析等被广泛运用。除此之外,遗传算法、神经网络、语义分析、分布式数据库管理等数据处理技术也已经成熟。专业的数据挖掘软件、数据推送技术快速发展。这些都为数据分析成为人们的基本技能提供客观的有力条件。
数据类型
数据分析的前提是需要明确等待分析数据的特点和形态,根据数据本质的属性,确定一个有效的数据分析策略。从不同的视角,数据有不同的类型,下面介绍最常用的两种数据分类方式。
首先,数据被分为总体数据与样本数据。如果能够直接获取全部的数据,当然最好,但是,由于各种客观原因,研究者无法或不便于获取全体研究对象的整体数据。于是基于某一规则抽取具有代表性的一些数据,以这些数据作为研究样本并开展研究。
其次,数据可以被分为定类数据、定序数据和定距数据。数据的类型很多,这样的分类方式在用分析软件进行数据分析时起到举足轻重的作用。例如,某个学校的学生数据表,“姓名”、“性别”和“班级”是字符串类型,而“语文”、“数学”等成绩则是数值型。在数据分析软件中,要求待处理的数据最好是数值型数据。为此,常常需要对字符型数据进行数值化编码,以便根据其特点采取有效的数据分析策略。数值型数据主要分为三种不同的类型:
定类数据,是指负责对个案实施分类的数值型数据,这类数据只能取整数型数值,而且其取值的大小没有实际意义,也不能进行取均值、计算方差等运算。例如,对性别进行数值化转码,以数值1代表男生,数值2代表女生;还有在同性恋里,0和1分别代表不同角色,嘿嘿!
定序数据,是指依据某个属性对个案进行分级标记的数值型数据。比如,在问卷调查里,用1代表“很不满意”、2代表“不满意”、3代表“一般”、4代表“满意”、5代表“很满意”。这里的数值1~5代表5个等级。
定距数据,是指根据取值范围为连续取值的数值数据。例如,考试成绩、学生身高等都是连续数值。定距数据的取值即可以是整数,也可以是实数。
数据描述统计量
数据分析可以分成两个阶段:数据描述和数据推断。数据可以从三个方面进行描述,数据的集中趋势,数据的离散程度及数据的分布情况,描述它们的统计量有很多,均值、残差、离差、方差或标准差、众数、中位数等。
样本数据描述
实际工作中,获取全部数据往往无法实现,只能抽样获取有代表性的样本数据进行分析,以了解总体情况。样本数据统计量在“统计基础”中也已介绍,下面对几个重点内容进行说明。
自由度概念:自由度是指针对具有n个样本的序列,允许自由取值的样本个数。例如,在50名学生的语文成绩表中,若已经知道这50名学生的语文平均分,那么语文成绩可以自由取值的学生就只有49名。很多数据分析中,有n个个案且均值已知,其自由度为n-1,这就是常见的n-1方法。如果除了均值以外,还另外掌握k个其他变量,那么自由度就变为n-k-1。
样本方差及标准差:已经介绍过,样本方差是总体方差的无偏估计,自由度为n-1。但是样本标准差(自由度n-1)是总体的稍有偏估计,偏差程度与样本容量n有关,具体内容可回顾:总体标准差的估计方法及精度。
标准误与标准差的区别:标准误也称为标准误差,它的计算公式如下:
我们常常使用标准差来衡量数据围绕均值波动的程度,但标准差的结果并不是放映波动强度的直接值。标准误才是真正反映整个序列偏离均值程度的准确数据。
差异系数:尽管样本的标准差能够从一定程度上放映数据序列的离散程度,但是会发现,均值相差很大(基数相差很大或量级不同)的两个序列,即使标准差的值相同,其波动程度并不相同。例如,一个序列以“百元”作为工资数据单位,一个序列以“元”作为单位,即使标准差相同,它们的波动程度也不同。差异系数可以解决这个问题,公式为:
差异系数可以有效的判定数据序列的稳定性水平。
数据分布形态
在数据分析中,数据的分布形态对分析方法、分析结果的衡量都具有重要意义。常见的数据分布形态有正态分布、均匀分布、指数分布、泊松分布等,其中正态分布最常见与有价值。这部分内容也已介绍过,回顾请前往“统计基础导航页”。
数据分析策略
数据分析除了上面介绍得数据统计描述意外,还包括数据差异显著性检验、相关性分析、回归分析、聚类分析、降维分析等内容,这些属于数据推断的范畴。将以上这些分析归纳起来可以分为两个类别:其一是对数据的描述与检验;其二是基于数据建模并依据模型对未来数据实施判定或评价。
数据分类方法
我们在运用很多专业的统计数据分析软件时,都会要求对数据进行分类,分为定类数据,定序数据,定距数据和定比数据。
定类数据
在将问卷获得的数据输入SPSS后,一个问卷项目就是一个变量,变量名称可以由研究者自定,如性别。性别这个变量共有两个答案,分别表示不同的性别类别,如1表示男,2表示女;或者用0表示男,1表示女。这些数字没有数学意义上的大小之分,而只是一种编码,代表研究对象分属不同的类别或范畴。这类数据称为定类数据。与之相对应的变量称为定类变量。区分定类数据很重要,因为在SPSS数据处理时要求对每个变量的种类进行定义,否则就无法进行分析。因为定类变量代表对象类别和范畴,因而数据分析时它们往往被当做分组变量或因素变量来处理,定类数据之间的关系是“是”和“否”或者“等于”或“不等于”的关系。
定序数据
定序数据就是对变量从高到低或从大到小进行排列的次序。所以,定序数据不仅具有分类的作用,还有大小之分,存在量的关系。也就是说,定序数据之间不仅有“等于”和不等于的关系,还有大于或小于的关系。比如,受教育程度就是一个定序变量,可以分为小学、初中、高中、大学、研究生五个等级。分别用1~5五个数值表示,这些编码不仅表示受教育程度的不同,还表示受教育程度的高低。同样,学习成绩也可以分“好、中、差”三个等级,分别用3,2,1表示而构成定序数据。
定距数据
当我们使用每个等级之间的数据距离相等的量表来评价问卷项目时,所获得的数据就是定距数据。如,利克特量表和语义区分量表所取得的都是典型的定距数据。定距数据不仅像定类数据一样可以表示类别,也可以像定序数据一样表示大小高低,还可以表示类别之间的距离。因而,除了具有等于和不等于、大于和小于的关系外,等距数据还具有加和减的特质。所以,可以对定距数据进行大小比较,或求其总和、平均值和标准差。又如,实际考试分数也是典型的定距数据,但如果我们按照某种标准将考试成绩分为好、中、差三个等级,那它就变成了定序数据,而此时的考试分数则变成了定序变量。可见,定序数据可以用来简化分布水平较多的定距数据。
定比数据
定必数据实际是一种特别的定距数据,是最高级别的测量数据。不同的是,定比数据除了定距数据的三种特质外,还具有乘和除的数学特质。定比数据还有零值,而且有意义,表示一个固定的起点。距离之间的差距测量总是从零开始的。比如,甲同学的英语成绩为40分,而乙同学的英语成绩为80分,那么后者就是前者的两倍。在SPSS数据分析中,常常将高级数据类型转换为低级数据进行处理。
本文转自 简书,原文链接:https://zhuanlan.zhihu.com/p/49455197,如需转载请自行联系原作者