参考文章:
大数据和人工智能的浪潮正在席卷全球,众多热门词汇蜂拥而至:大数据(big data)、机器学习(Machine Learning)、数据挖掘(Data Ming)、深度学习(Deep Learning)、强化学习(Reinforcement Learning)、云计算(Cloud Computing)、人工智能(Artificial Intelligence)、数据库(Databases)等。不少人对这些高频词语的含义及其背后的关系总是似懂非懂、一知半解。
为了帮助大家能更好地理解大数据,在此使用简单的语言来解释这些词汇的含义,理清它们之间的关系。
人工智能、机器学习、深度学习和强化学习
首先来看一下人工智能、机器学习和深度学习之间的关系。如图一所示,我们可以大致认为深度学习是机器学习中的一种学习方法,而机器学习则可以被认为是人工智能的一个分支。
人工智能
人工智能的一种实用的定义即为:人工智能是对计算机系统如何能够履行那些只有依靠人类智慧才能完成的任务的理论研究。例如,视觉感知、语音识别、在不确定条件下做出决策、学习和语言翻译等。
人工智能分为弱人工智能和强人工智能,前者让机器具备观察和感知的能力,可以做到一定程度的理解和推理;而强人工智能期待让机器获得自适应能力,解决一下之前没有遇到过的问题。电影里的人工智能多半是描绘的强人工智能,而这部分目前在显示世界中难以实现。
机器学习
机器学习指的是计算机系统无需遵照显示的程序指令,而只是依靠暴露在数据中来提升自身性能的能力。机器学习关注的是“如何构建能够根据经验自动改进的计算机程序”。比如,给予机器学习系统一个关于交易时间、商家、地点、价格及交易是否正当等信用卡交易信息数据库,系统就会学习到可用来预测的信用卡欺诈的模式。机器学习本质上是跨学科的,他采用了计算机科学、统计学和人工智能等领域的技术。
机器学习的应用范围非常广泛,针对那些产生庞大数据的活动,它几乎拥有改进一切性能的潜力。先如今,机器学习已经成为认知技术中最炙手可热的研究领域之一。
深度学习
深度学习在2006年被提出,是相对比较新的概念。深度学习是用于建立、模拟人脑进行分析学习的神经网络,并模仿人脑的机制来解释数据的一种机器学习技术。它的基本特点,是试图模仿大脑的神经元之间传递、处理信息的模式。显然,“深度学习”是与机器学习中的“神经网络”是强相关的,“神经网络”也是其主要的算法和手段;或者,我们可以将“深度学习”称之为“改良版的神经网络”算法。
强化学习
强化学习为一个代理(Agent)在一个环境里设计一系列动作(Actions)以获得最优的未来长期回报(Reward)。走迷宫常被用来作为解释强化学习的例子。因为学习方法复杂,早年间强化学习只能解决一些非常简单(状态空间小、动作选择少)的问题。直到深度学习的出现,使得我们可以用深度神经网络去逼近一个近似的价值和策略函数,强化学习才取得很大的进展(如在AlphaGo里的价值判断网络),人们称其为深度强化学习(Deep Reinforcement Learning)。与其说是强化学习的进展,不如说是在强化学习的框架里,深度学习贡献了巨大的力量。
数据挖掘、人工智能、大数据和云计算
如图二所示,数据挖掘是从数据中发掘知识的过程,在这个过程中人工智能和数据库技术可以作为挖掘工具,数据可以被看作是土壤,云平台可以看作是承载数据和挖掘算法的基础设施。
大数据
大数据(big data),或称巨量资料,通常可以被定义为大小超出常规软件工具抓取,管理和处理能力的数据集。大数据是一个不断变化的目标;大数据具有Vloume(量大)、Velocity(速度快)、Variety(多样性)、Value(价值)四个显著特点;大数据不是指一个体量很大的单一数据,其关键在于多源数据融合,这是大数据的战略制高点,不是单单在“数据”前加个“大”字那么简单。
数据挖掘
数据挖掘(Data mining),又译为资料勘探、数据采矿,是从数据中发掘知识的过程。数据挖掘的处理过程一般包括数据预处理(ETL、数据清洗、数据集成等),数据仓库(可以是DBMS、大型数据仓库以及分布式存储系统)与OLAP,使用各种算法(主要是机器学习的算法)进行挖掘以及最后的评估工作。
数据挖掘与机器学习之间的关系如下:数据挖掘是一个过程,在此过程中,机器学习算法被用作工具来提取数据集中保存的潜在有价值的数据。
云计算
云计算平台一般是由第三方IT公司建立的涵盖基础设施、计算资源和平台操作系统的集成体。云平台解决了传统公司各自搭建机器集群所产生的建设周期长、升级换代慢、维护成本高的痛点,让这些公司可以从搭建计算平台的繁重任务中解脱出来而专注于自己的业务。
云平台用户可以高效、灵活的调整自己的资源配置,第三方公司根据用户使用的资源来收取相应的费用。打一个通俗的比喻,就好比不用每家每户都弄一个发电机,而是集中建一个发电厂,每家只需要插上插头就可以用电,根据用电量的多少来收费。用户不用关系发电厂建在哪里、如何发电,也不用担心如何维护发电厂本身的运转与安全。
多源数据的融合给数据管理、数据挖掘、机器学习和人工智能带来了很多新兴课题。当数据挖掘被用来挖掘和融合多源数据中蕴含的知识时,数据挖掘就跟大数据有了完美的结合。如果数据挖掘还在挖掘单一数据,那就是传统的数据挖掘或者是早年间研究的“海量数据挖掘”。作为数据挖掘的工具,分布式机器学习的重点是解决海量数据挖掘的问题,而不是解决多源数据融合的问题。要想融合多源数据,我们就需要在机器学习中设计新的多源数据融合算法,并为云平台设计特别的管理和索引方法。
本文转自 简书,原文链接:https://zhuanlan.zhihu.com/p/78161848,如需转载请自行联系原作者