今日分享:小編在這里給大家推薦5本大數(shù)據(jù)領(lǐng)域必讀的書籍!
1、Hadoop權(quán)威指南
推薦星級:5顆星
網(wǎng)友評分:98分
之所以把這本書放在第①位,主要是因為Hadoop是一個能夠進(jìn)行大量數(shù)據(jù)分布式處理的軟件框架。而這本書由淺入深,全方位介紹了Hadoop這一高性能的海量數(shù)據(jù)處理和分析平臺。本書是一本專業(yè)、全面的Hadoop參考書和工具書,闡述了 Hadoop生態(tài)圈的新發(fā)展和應(yīng)用,程序員可以從中探索海量數(shù)據(jù)集的存儲和分析,管理員可以從中了解Hadoop集群的安裝和運維。
這本書可以說是Hadoop權(quán)威指南,了解大數(shù)據(jù)存儲分析實質(zhì),閱讀本書給人眼前一亮的感覺,原來是這樣。閱讀本書需要一些知識儲備,并不是入門書。
2、HBase權(quán)威指南
推薦星級:5顆星
網(wǎng)友評分:99分
HBase是Hadoop生態(tài)圈的一員,不過在Hadoop權(quán)威指南中對于HBase的解讀比較少,如果對HBase的底層源碼,高級架構(gòu),性能優(yōu)化,集群管理等進(jìn)階操作感興趣,那選擇這本書juedui是沒有錯的。
《HBase權(quán)威指南》這本書主要是通過使用與 HBase高度集成的Hadoop將HBase的可伸縮性變得簡單:把大型數(shù)據(jù)集分布到相對廉價的商業(yè)服務(wù)器集群中;使用本地Java客戶端,或者通過提供了 REST、Avro和Thrift應(yīng)用編程接口的網(wǎng)關(guān)服務(wù)器來訪問HBase;了解HBase架構(gòu)的細(xì)節(jié),包括存儲格式、預(yù)寫日志、后臺進(jìn)程等;在HBase中集成 MapReduce框架;了解如何調(diào)節(jié)集群、設(shè)計模式拷貝表、導(dǎo)入批量數(shù)據(jù)和刪除節(jié)點等。
當(dāng)然,本書也是適合使用HBase進(jìn)行數(shù)據(jù)庫開發(fā)的高級數(shù)據(jù)庫研發(fā)人員閱讀。初級人員慎入。
3Spark權(quán)威指南
推薦星級:5顆星
網(wǎng)友評分:99分
Spark作為基于內(nèi)存的用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一分析引擎。近幾年在機(jī)器學(xué)習(xí),人工智能領(lǐng)域發(fā)展得也是如日中天。
這本書是所有Spark開發(fā)人員的必讀書籍,介紹了許多別處無法學(xué)到的使用技巧,《Spark權(quán)威指南》在豆瓣評分非常高,數(shù)據(jù)庫,分布式,批處理,流式處理,最關(guān)鍵的是,有很多容易理解錯誤的地方,都有很清楚的解釋。
當(dāng)然,如果是剛?cè)腴T的話還是不建議看。
4、Flink基礎(chǔ)教程
推薦星級:5顆星
網(wǎng)友評分:96分
說道了Spark,自然少不了Flink,作為新一代的開源流處理器,F(xiàn)link是眾多大數(shù)據(jù)處理框架中一顆冉冉升起的新星。它以同一種技術(shù)支持流處理和批處理,并能同時滿足高吞吐、低延遲和容錯的需求。
本書由Flink項目核心成員執(zhí)筆,系統(tǒng)聞釋Flink的適用場景、設(shè)計理念、功能、用途和性能優(yōu)勢。對于流數(shù)據(jù)處理的介紹討論都很精彩,翻譯也挺好,難得好書。
5、Kylin權(quán)威指南
推薦星級:5顆星
網(wǎng)友評分:96分
ApacheKylin是一個開源OLAP引擎在Hadoop大數(shù)據(jù)平臺上,將大數(shù)據(jù)的查詢速度和并發(fā)性能提升至原來的百倍以上,為超大規(guī)模數(shù)據(jù)集上的交互式大數(shù)據(jù)分析打開了大門。
ApacheKylin在小米大數(shù)據(jù)系統(tǒng)中扮演著核心角色。本書系統(tǒng)地闡述了Kylin應(yīng)用的方方面面,分享了大量的實戰(zhàn)經(jīng)驗,如果你看了這本書,真的會有一種讓人得之恨晚的感覺。