财务管理

0

大数据入门书单(2022年3月更新)

头像
张迅

本书单为大数据入门级书籍推荐,技术在不断发展。有一些书籍也会慢慢淡出大家的视线,而有些经典的书籍将会一直带给我们很多的启发与帮助。

为了保持书籍的新鲜,也为了可以及时将一些新出版的优质书籍发现。本文将会每月更新,也欢迎大家留言推荐对自己帮助大的书籍。

记录:

2021年8月更新 《ClickHouse原理解析与应用实践》


一、数据思维

首先第一本书,推荐的不一是纯技术类书籍。要想了解大数据的需求产生过程,以及大数据可以创造的价值,产品经理是最有发言权的。

这里推荐两本,一本入门,一本进阶。

入门书籍 《数据产品经理修炼手册——从零基础到大数据产品实践

这是一本面向产品经理的书籍,但是任何一个职场人都可以通过此书培养自己的数据意识和数据思维。要了解我们需求方,才能更好的开展工作啊(甩锅)。

进阶书籍《数据产品经理:实战进阶

本书讲解了一些更细节的内容,包括数据埋点、数据中台、数据指标体系、A/B测试、数据管理、数据服务等等。

二、大数据基础

在了解了大数据的主要工作以后。需要对大数据的基础进行学习,当然大数据零基础学习还是比较吃力的,零基础的同学还是需要对编程能力和运维能力进行一定的补充。


打好基础以后对于Hadoop体系的学习还是需要的,了解整个的技术体系。

这里推荐一本《从零开始学Hadoop大数据分析(视频教学版)》

这本书并不是很干,但是不像砖头书那么难啃,所以作为一本入门书籍是非常不错的。对于大数据的各种组件有一定的讲解,看完以后基本能知道hadoop是怎么回事了。当然有些内容不是很详细。

详细的话没有别的选择 还是啃这本吧。

《Hadoop权威指南:大数据的存储与分析(第4版) 》

hadoop的经典书籍,把它啃透,最起码hadoop这部分可以干掉一大批面试官了,当然有一定难度,有很多人选择简单入门大数据以后就搞各种组件了,那样的话容易走上sqlboy的不归路,所以还是建议打好基础,学完组件以后再重温也没问题。


三、大数据组件

大数据组件的学习非常重要,要知道大数据是一门实践性极强的学科。可以说很大一部分人在工作以后每天的大量时间是写hivesql,sparksql,flinksql。。。

这并没有什么问题,搞定这些也足以胜任大数据研发的工作了。

Hive这里并不推荐《Hive编程指南》虽然经典,有精力可以看一下。推荐一本《大数据Hive离线计算开发实战》此书结合数据仓库的理论对Hive进行了讲解,还讲解了电商推荐系统,汽车销售数据分析,新浪微博数据分析等案例进行讲解,是一本从入门到实践的书籍,推荐。

Spark目前还是在企业应用较多的,建议深入研究,这里推荐两本书籍 《大数据处理框架Apache Spark设计与实现》与 《Spark权威指南》。


《大数据处理框架Apache Spark设计与实现》还是通俗易懂,有大量插图进行讲解,略贵

实时计算是大数据的未来,现在很多企业采用了实时数据仓库,那么实时计算的技术就会和数据平台有一定的交互,按目前常用的技术看主要是Kafka , Flink ,SparkStreaming(《大数据处理框架Apache Spark设计与实现》会讲解),

Kafka这里推荐《Kafka权威指南》,Flink推荐《Flink原理、实战与性能优化》都是比较经典的书籍,但最新的版本还是需要去官网学习。



最近数据中台的兴起,ClickHouse作为OLAP的选择,越来越受到重视。

这本《ClickHouse原理解析与应用实践》

这本涵盖了ClickHouse的时代背景、发展历程、核心概念、基础功能、运行原理、实践指导等多个维度的内容,是ClickHouse的经典书籍。


四、数据分析基础

sql是一切,掌握了sql就可以解决一大部分的数据分析问题了,所以必须精通,不多说,吃头这本吧。《SQL必知必会 第5版(图灵出品)》

在大数据分析中,目前适应最多的还是spark,其中sparksql也是用的最多的,那么如何使用,如何在实践中进行实战,又和普通的sql有什么不同,在这本《Spark SQL入门与实践指南》可以找到答案。

但是,数据分析不止sql,想要更进一步,还是需要更牛逼的技能的。这里推荐《数据分析从入门到进阶》

很多做大数据研发的同学可能并不太需要对数据分析做深入学习,所以大家结合实际情况,如果目前阶段了解大数据组件和sql已经足以应付工作,那么这部分也不着急补充的。

五、其他补充

之前提到零基础学习大数据还是很吃力的。需要补充编程和运维能力,大数据平时使用最多的语言为java,数据分析部分可能会用到Python,后期还可能会用scala来写。而运维能力就更重要,否则在学习hadoop集群那部分就很吃力了。

运维书籍推荐一本《Linux系统运维指南:从入门到企业实战》

一本从零到精通的书,学完以后应付大数据组件的运维是没有问题的。


以上就是大数据入门的部分书籍整理,在入门以后,还会面临 大数据平台,大数据治理,大数据中台等等方面技能的提升。

可以看看我其他的文章,学无止境,一起加油吧~


大数据平台书单:

大数据治理书单:



本文转自 简书,原文链接:https://zhuanlan.zhihu.com/p/389672305,如需转载请自行联系原作者
头像
丢弃