财务管理

0

大数据学习心得

头像
张迅

一、 概述


1大数据简介

1.1起源

“大数据“,近几年来最火的词之一。虽然大数据这个词的正式产生也就10年左右,但对大数据分析却早就有之。早在互联网初期,就有很多公司通过计算机技术对大量的分析处理,比如各个浏览引擎。然而,大数据的真正提出却是源自2008.09.03 《Nature》专刊的一篇论文,紧接着,产业界也不断跟进,麦肯锡于2011.06 发布麦肯锡全球研究院报告,标志着大数据在产业界的真正兴起,随着白宫发布大数据研发法案,政府开始加入大数据的角逐。


点击链接加入群聊【大数据学习交流群】:大数据的未来前景可期,入行的人也非常的多,而如何快速的完成转型,如何快速的进入大数据领域,就需要转型者、小白去进行深刻的思考。



1.2定义


既然大数据这么热,我们有必要了解一下大数据究竟是什么。我们经常用4个V来定义大数据:容量、多样性、吞吐量、价值。即大数据必须是数量大(至少T、P级别),来源多,大部分为非结构化,且进出分析系统的速度快,并以获取价值为目的的数据。


2移动互联网的大数据特征

2.1web2.0与广义移动互联网

Web2.0指以朋友圈、微博等为代表的资讯交流分享型互联网,而广义移动互联网,则是通过无线方式实现互联网、物联网和社会网络的连接。

2.2数据特征

移动互联网的数据具有移动性、复杂性、社会性的特征。首先,节点是具有移动性的,它具有普适感知的功能。其次,网络是具有复杂性的,通过网络可以进行多元感知,最后个体是具有社会性的,所以他也具有社会感知的作用。

2.3数据类型

移动互联网产生两种类型数据:一是人传输的数据(UGU),它源自人的自我表达需求。一是机器产生的数据(MGC),其源自科技、军事、商业的需求。

2.4智能感知&服务

目前的移动互联网有一条缺失的链条—智能感知&服务。我们知道,互联网解决的是人与人信息交换的问题,物联网解决的是物与物信息交换的问题。而智能化服务需要人与自然与社会的交叉感知,移动互联网和大数据技术就是它的桥梁。

2.5智慧城市

我认为,智慧城市=数字城市+移动互联网+物联网+云计算,而要实现则需要移动互联网将互联网、人际关系网、物联网进行三网融合。


3机遇与挑战

3.1机遇

大数据给我们带来了机遇和挑战,我们是否能从中受益则需要看我们怎么对待这些机遇和挑战。大数据的机遇是明显的,各种大平台的数据采集与公开,MapReduce等数据分析平台的开放,以及各领域数据挖掘服务的提供,使我们获得数据变得更加容易。而这些丰富的数据更是带来了众多的创新机会,任何领域的数据都可能对这个领域造成巨大的影响。

3.2挑战

当然大数据也给我们带来了很多挑战。一、数据共享与数据私有的矛盾。大数据的价值是稀疏的,而大量的数据往往被大公司垄断,因此对于一般人来说,数据的共享变得十分重要,而其中一个解决方法就是建立一个共享的数据中心。二、数据洪流与技术滞后的矛盾。首先是数据存储能力与处理不匹配,对此我们可以采用对数据流进行实时处理、就近原则存储和处理原始数据、购买数据存储和分析服务等方法进行解决。再者,是分析手段与性能需求不匹配,主要原因是因为传统数据仓库不再使用于大数据分析,对于此我们可以采用大规模并发、Map-Reduce分布式计算、NoSQL管理并发存取等方法进行处理。三是社会需求与人才匮乏的矛盾。对此,培养优秀大数据人才已是当务之急。四、开放数据与保护隐私的矛盾。

其中包含用户隐私成为牺牲品、有可能危害国家安全等问题,我们的解决思路就是发展隐私保护数据挖掘方法和完善立法。


4未来发展趋势

我认为大数据将是未来的石油,而移动互联网将成为主要上网方式,移动大数据也将蓬勃发展。在此做出几点预测:1移动大数据分析将逐步成为云计算和物联网的研究聚焦点。

2移动互联网UGC和MGC数据的深度融合将催生新的产业。

3专注于局部领域的数据分析服务将成为近期产业创新主流。

4Map-Reduce将仍保持活力,分布式流数据分析方法将成为机器学习理论研究和应用研究热点。

5数据共享是大势所趋,但需要特别重视国家信息安全,开放数据需要立法支持,信息安全需要自主技术保障


学习大数据已经有一段时间了,抽空回顾一下自己学习的一些内容。下图主要为自己学习大数据的一个过程。


阶段一:Java基础

掌握JAVA基本语法、面向对象、集合、IO流、多线程、网络编程


阶段二:MySQL

CRUD


阶段三:Linux

常用的操作命令


阶段四:Hadoop生态系统



HDFS、YARN、MapReduce、Hive、HBase、Zookeeper、Flume、Kafka、Sqoop、Spark


阶段五:Spark生态系统


Spark Core、Spark SQL、Spark Streaming、MLlib、Graphx


阶段六:项目实战

用户推荐系统


阶段七:Python

学习python的基础语法。后面的数据爬去、算法的实现、机器学习、深度学习中会用到,学习numpy和panada。


阶段八:HTML

学习HTML的基础语法,了解网页的构成。



本文转自 简书,原文链接:https://zhuanlan.zhihu.com/p/69116156,如需转载请自行联系原作者
头像
丢弃