关于大数据领域的书籍现在市面上有很多,在这里推荐基本个人觉得很不错的适合大数据领域人士学习的书籍,这几本书不仅适用于大数据小白,对于已经进入大数据领域不久的职场人士同样适合学习。
1、《Hadoop权威指南(第4版)》
《Hadoop权威指南(第4版)》结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。
全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。
本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的最新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解Hadoop集群的安装和运维。
2、《Spark权威指南》
Apache Spark项目是2009年由当时还在Berkeley读博的Matei大神(现在是计算机系统届的rising star)创立开发,历经10年已经成为大数据处理的标准框架,成熟稳定,在学术界和工业界都有很多应用。为了帮助读者学习如何使用、部署和维护Apache Spark,该开源集群计算框架的部分创建者编写了这本综合指南。《Spark权威指南》主要通过七个部分详细介绍了spark。
(1)大数据技术和Spark概述
(2)通过实例学习DataFrame、SQL、Dataset等Spark的核心API
(3)了解Spark的低级API实现,包括RDD以及SQL和DataFrame的执行过程
(4)了解Spark如何在集群上运行
(5)Spark集群和应用程序的调试、监控、和调优
(6)学习Spark强大的流处理引擎——结构化流处理
(7)学习MLlib并了解如何应用它解决包括分类、推荐,以及其他多种实际问题
3、《HBase权威指南》
HBase实际上也是Hadoop生态圈的一员,但是在Hadoop权威指南中对于该部分的解读比较浅显,不是很详细。如果对HBase的底层源码,高级架构,性能优化,集群管理等进阶操作感兴趣,这必将是一本不可错过的经典之作!
《HBase权威指南》探讨了如何通过使用与HBase高度集成的Hadoop将HBase的可伸缩性变得简单;把大型数据集分布到相对廉价的商业服务器集群中;使用本地Java客户端,或者通过提供了REST、Avro和Thrift应用编程接口的网关服务器来访问HBase;了解HBase架构的细节,包括存储格式、预写日志、后台进程等;在HBase中集成MapReduce框架;了解如何调节集群、设计模式、拷贝表、导入批量数据和删除节点等。
《HBase权威指南》适合使用HBase进行数据库开发的高级数据库研发人员阅读。
4、《深入云计算--Hadoop源代码分析》
《深入云计算--Hadoop源代码分析》是一本全面细致的介绍和分析Hadoop源码和内部工作机理的的一本技术书籍。本书通过对Hadoop内部源码详细细致的解析,使得读者能够快速高效的理解Hadoop的内部工作机制,了解Hadoop内部源码架构,快速高效的上手Hadoop,对Hadoop有深刻的认识。同时是国内第一本详细介绍Hadoop源码的书籍。如果你想真正了解Hadoop的内部运行机制及底层原理,就看这本书,这本书的源码讲解非常详细,结合官网下载的源码包一起阅读会有更好的效果。
5、《大数据之路:阿里巴巴大数据实践》
《大数据之路:阿里巴巴大数据实践》中讲到的阿里巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。《大数据之路:阿里巴巴大数据实践》由阿里巴巴数据技术及产品部组织并完成写作,是阿里巴巴分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信《大数据之路:阿里巴巴大数据实践》中的实践和思考对同行会有很大的启发和借鉴意义。
7、《Flink基础教程》
近几年,许多人开始对如何分析大规模系统中的流数据感兴趣,部分原因是,在某些场景下对实时数据进行实时分析显得非常有价值和吸引力。然而,通过低延迟的应用程序及时获得有用的信息,只是高性能流处理带来的众多好处之一。
《Flink基础教程》介绍的Apache Flink(以下简称Flink)作为一种高度创新的开源流处理器,具备惊人的潜力,能够帮助你在以流为基础的各种计算中获益。Flink不仅可以真正实现实时的容错性分析,还可以分析历史数据,并且极大地简化数据处理流程。最让人惊喜的是,Flink用同一种底层技术来实现流处理和批处理。它拥有完备的语义和强大的性能,这使得应用程序的开发变得简单,其架构也使得应用程序的维护变得容易。
本书将全面介绍Flink的功能,并且讲解常见的使用方法,包括如何在生产环境中使用它。Flink社区由来自世界各地的开发人员和用户组成,整个社区十分活跃,并且成长迅速。第一届Flink专属研讨会定名为Flink Forward,于2015年10月在德国柏林举行,第二届于2016年9月举行。还有各种线下聚会在全球范围内举行,新的Flink用例在聚会中被大家广泛讨论。
8、《Apache Kylin权威指南(第2版)》
Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎,将大数据的查询速度和并发性能提升至原来的百倍以上,为超大规模数据集上的交互式大数据分析打开了大门。本书由Apache Kylin核心开发团队编写,系统地介绍了Apache Kylin安装、入门、可视化、模型调优、运维、二次开发等各个方面,是关于Apache Kylin的权威指南。
第1章和第2章是基本概念和快速入门,为初学者打下坚实基础。第3章和第4章介绍增量构建和进阶的流式构建,应对数据的持续增长。第5章展示丰富的查询接口和其上的可视化能力。第6章则重点讲解了Cube模型和调优,它们是用好Apache Kylin,提升百倍性能的关键。第7章通过一系列有行业特点的具体案例分析,贯穿之前的所有概念,温故知新。第8章介绍可扩展架构和二次开发接口,适合开发者。第9章则介绍企业级功能、用户的认证和授权相关知识。第10章着重于安装和企业级部署、运维管理等内容。第11章和第12章分别说明如何参与和贡献到开源,以及Apache Kylin的未来。
8、《Hive编程指南》
《Hive编程指南》是一本Apache Hive的编程指南,致力于详细介绍怎么使用Hive的SQL方式 HiveQL来归纳、查寻和剖析储存在Hadoop分布式文件系统上的大数据结合。本书根据很多的案例,最先详细介绍如何在客户自然环境下安裝和配备Hive,并对Hadoop和MapReduce开展详细论述,并演试Hive如何在Hadoop生态体系开展工作中。
9、《Spark快速大数据分析》
《Spark快速大数据分析》由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。
《Spark快速大数据分析》由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。
10、《快学scala(第2版)》
Scala是一门以Java虚拟机(JVM)为目标运行环境并将面向对象和函数式编程语言的最佳特性结合在一起的编程语言。你可以使用Scala编写出更加精简的程序,同时充分利用并发的威力。由于Scala运行于JVM之上,因此它可以访问任何Java类库并且与Java框架进行互操作。本书从实用角度出发,给出了一份快速的、基于代码的入门指南。Horstmann以“博客文章大小”的篇幅介绍了Scala的概念,让你可以快速地掌握和应用。实际上手的操作,清晰定义的能力层次,从初级到专家级,全程指导。Scala作为大数据开发最常用的开发语言,近年来越来越被重视。
以上书籍如需电子版,关注公众号“大数据猎人HK”,回复对应书名获取,部分纸质版书籍版本更新较快,可能对应电子版版本还是老版本,介意者勿扰。
本文转自 知乎,原文链接:https://zhuanlan.zhihu.com/p/420138218,如需转载请自行联系原作者