技术天地

0

浅析大数据分析应用总结

头像
小财

数据分析即从数据、信息到知识的过程,数据分析需要数学理论、行业经验以及计算机工具三者结合

数据分析工具 :各种厂商开发了数据分析的工具、模块,将分析模型封装,使不了解技术的人也能够快捷的实现数学建模,快速响应分析需求

传统分析 :在数据量较少时,传统的数据分析已能够发现数据中包含的知识,包括结构分析、杜邦分析等模型,方法成熟,应用广泛。

数据挖掘 :就是充分利用了统计学和人工智能技术的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。

随着计算机科学的进步,数据挖掘、商务智能、大数据等概念的出现,数据分析的手段和方法更加丰富。

常规分析:揭示数据之间的静态关系;分析过程滞后 ;对数据质量要求高;

数据挖掘:统计学和计算机技术等多学科的结合 揭示数据之间隐藏的关系 将数据分析的范围从“已知”扩展到“未知”,从“过去”推向“将来”;

商务智能:一系列以事实为支持,辅助商业决策的技术和方法,曾用名包括专家系统、智能决策等 一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成 对数据分析的体系化管理,数据分析的主体依然是数据挖掘;

大数据技术:从多种类型的数据中,快速获取知识的能力 数据挖掘技术的衍生

数据可视化:大数据时代,展示数据可以更好辅助理解数据、演绎数据


数据分析框架

数据分析标准流程

CRISP-DM为90年代由SIG组织(当时)提出,已被业界广泛认可的数据分析流程。

1.业务理解(business understanding)

确定目标、明确分析需求

2.数据理解(data understanding)

收集原始数据、描述数据、探索数据、检验数据质量

3.数据准备(data preparation)

选择数据、清洗数据、构造数据、整合数据、格式化数

4.建立模型(modeling)

选择建模技术、参数调优、生成测试计划、构建模型

5.评估模型(evaluation)

对模型进行较为全面的评价,评价结果、重审过程

6.部署(deployment)

分析结果应用

数据分析方法

数据清洗&数据探索

在对收集的数据进行分析前,要明确数据类型、规模,对数据有初步理解,同时要对数据中的“噪声”进行处理,以支持后续数据建模。

数据探索: 特征描述 、分布推断 、结构优化

数据清洗 :异常值判别 、缺失值处理、 数据结构统一(人为因素较多,无统一方法)

数据清洗和数据探索通常交互进行 数据探索有助于选择数据清洗方法 数据清洗后可以更有效的进行数据探索

数据清洗:1.异常值判别

数据清洗的第一步是识别会影响分析结果的“异常”数据,然后判断是否剔除。目前常用的识别异常数据的方法有物理判别法和统计判别法。

物理判别法:根据人们对客观事物、业务等已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,判断异常值。 比较困难。

统计判别法:给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值。 常用的方法(数据来源于同一分布,且是正态的):拉依达准则、肖维勒准则、格拉布斯准则、狄克逊准则、t检验。

慎重对待删除异常值:为减少犯错误的概率,可多种统计判别法结合使用,并尽力寻找异常值出现的原因;若有多个异常值,应逐个删除,即删除一个异常值后,需再行检验后方可再删除另一个异常值

检验方法以正态分布为前提,若数据偏离正态分布或样本较小时,则检验结果未必可靠,校验是否正态分布可借助W检验、D检验

数据清洗:2.缺失值处理

在数据缺失严重时,会对分析结果造成较大影响,因此对剔除的异常值以及缺失值,要采用合理的方法进行填补,常见的方法有平均值填充、K最近距离法、回归法、极大似线估计法等

平均值填充:取所有对象(或与该对象具有相同决策属性值的对象)的平均值来填充该缺失的属性值;

K近邻距离法:先根据欧式距离或相关分析确定距离缺失数据样本最近的K个样本,将这K个值加权平均来估计缺失数据值;

回归:基于完整的数据集,建立回归方程(模型),对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充;但当变量不是线性相关或预测变量高度相关时会导致估计偏差;

极大似然估计:在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望(E步),后用极大化对数似然函数以确定参数的值,并用于下步的迭代(M步);

多重差补法:由包含m个插补值的向量代替每一个缺失值,然后对新产生的m个数据集使用相同的方法处理,得到处理结果后,综合结果,最终得到对目标变量的估计

数据清洗规则总结为以下 4 个关键点,统一起来叫“完全合一”。

完整性:单条数据是否存在空值,统计的字段是否完善。

全面性:观察某一列的全部数值,比如在 Excel 表中,我们选中一列,可以看到该列的平均值、最大值、最小值。我们可以通过常识来判断该列是否有问题,比如:数据定义、单位标识、数值本身。

合法性:数据的类型、内容、大小的合法性。比如数据中存在非 ASCII 字符,性别存在了未知,年龄超过了 150 岁等。

唯一性:数据是否存在重复记录,因为数据通常来自不同渠道的汇总,重复的情况是常见的。行数据、列数据都需要是唯一的,比如一个人不能重复记录多次,且一个人的体重也不能在列指标中重复记录多次。

————————————————



本文转自 知乎,原文链接:https://zhuanlan.zhihu.com/p/582463701,如需转载请自行联系原作者
头像
丢弃

你的回复

如果只是评论问题或者答案,请使用评论工具。 您可以随时 修改您的答案 - 不需要重复回复相同的问题。 另外, 请别忘了去评价 - 这可以帮助选择最优的问题和答案!