Hadoop大數(shù)據(jù)開(kāi)發(fā)

中國(guó)水利水電出版社

【作者】主編劉春陽(yáng) 張學(xué)龍劉麗軍

【I S B N 】978-7-5170-6903-4

【責(zé)任編輯】張玉玲

【適用讀者群】本專(zhuān)通用

【出版時(shí)間】2018-09-19

【開(kāi) 本】16開(kāi)

【裝幀信息】平裝（光膜）

【版次】第1版第1次印刷

【頁(yè) 數(shù)】184

【千字?jǐn)?shù)】280

【印張】11.5

【定價(jià)】￥32

【叢書(shū)】普通高等教育數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專(zhuān)業(yè)教材

【備注信息】

圖書(shū)詳情

簡(jiǎn)介

本書(shū)特色

前言

章節(jié)列表

精彩閱讀

下載資源

相關(guān)圖書(shū)

本書(shū)通過(guò)原理加案例方式系統(tǒng)講解了Hadoop大數(shù)據(jù)開(kāi)發(fā)，精心安排了原理分析、環(huán)境搭建、案例開(kāi)發(fā)等環(huán)節(jié)，使讀者對(duì)解決大數(shù)據(jù)問(wèn)題有清晰的思路。

全書(shū)共7章：前6章系統(tǒng)講解大數(shù)據(jù)Hadoop架構(gòu)，包括大數(shù)據(jù)處理平臺(tái)Hadoop、分布式文件系統(tǒng)HDFS，并行計(jì)算模型MapReduce、資源調(diào)度框架Yarn；第7章是MapReduce應(yīng)用實(shí)例，通過(guò)案例幫助讀者進(jìn)一步理解Hadoop平臺(tái)。全書(shū)突出三個(gè)特點(diǎn)：道理簡(jiǎn)單明了、思路清晰透徹、案例新穎實(shí)用。

本書(shū)可作為普通高校大數(shù)據(jù)相關(guān)專(zhuān)業(yè)的教材，可供想深入了解Hadoop架構(gòu)編程的讀者參考，還可作為相關(guān)培訓(xùn)班的培訓(xùn)教材。

本書(shū)通過(guò)原理加案例的方式系統(tǒng)講解Hadoop 大數(shù)據(jù)開(kāi)發(fā)，精心安排了原理分析、環(huán)境搭建、案例開(kāi)發(fā)等環(huán)節(jié)，道理簡(jiǎn)單明了、思路清晰透徹、案例新穎實(shí)用。

前言

這是一個(gè)大數(shù)據(jù)爆發(fā)的時(shí)代，面對(duì)信息的激流、多元化數(shù)據(jù)的涌現(xiàn)，大數(shù)據(jù)已經(jīng)為個(gè)人生活、企業(yè)經(jīng)營(yíng)，甚至國(guó)家與社會(huì)的發(fā)展帶來(lái)了機(jī)遇和挑戰(zhàn)，成為信息產(chǎn)業(yè)中極具潛力的增長(zhǎng)點(diǎn)。大數(shù)據(jù)時(shí)代在眾多領(lǐng)域掀起變革的巨浪，但我們要冷靜地看到，大數(shù)據(jù)的核心在于為客戶(hù)挖掘數(shù)據(jù)中蘊(yùn)藏的價(jià)值，而不是軟硬件簡(jiǎn)單地堆砌。因此，針對(duì)不同領(lǐng)域的大數(shù)據(jù)應(yīng)用模式、商業(yè)模式研究將是大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展的關(guān)鍵。

Hadoop技術(shù)能夠成功的最根本原因在于它是把傳統(tǒng)的集中式運(yùn)算轉(zhuǎn)化成分布式計(jì)算的一種有效手段。Hadoop的分布式文件系統(tǒng)能夠以可靠快捷的方式將數(shù)據(jù)分布存儲(chǔ)到不同計(jì)算節(jié)點(diǎn)中，Hadoop MapReduce編程又能夠以簡(jiǎn)單的方法為人們提供分布式編程接口，從而降低了分布式開(kāi)發(fā)門(mén)檻。

本書(shū)共7章，不僅有詳細(xì)的理論講解，還有大量的實(shí)戰(zhàn)操作，具體內(nèi)容如下：

第1章深入探究大數(shù)據(jù)的概念、產(chǎn)生的背景和發(fā)展現(xiàn)狀，應(yīng)用案例指出了大數(shù)據(jù)面臨的機(jī)遇與挑戰(zhàn)，介紹大數(shù)據(jù)處理技術(shù)和計(jì)算模式，最后闡述大數(shù)據(jù)與云計(jì)算之間的區(qū)別和聯(lián)系。

第2章詳細(xì)介紹大數(shù)據(jù)處理平臺(tái)Hadoop的生態(tài)系統(tǒng)和架構(gòu)。

第3章講解Hadoop分布式平臺(tái)的搭建和驗(yàn)證。

第4章描述HDFS的架構(gòu)、工作機(jī)制、文件讀寫(xiě)流程和Shell命令。

第5章講解HDFS Windows遠(yuǎn)程開(kāi)發(fā)、HDFS Java API接口和編程實(shí)戰(zhàn)。

第6章講解MapReduce編程模型、工作原理和Yarn資源管理。

第7章講解常用的MapReduce Java API接口、應(yīng)用實(shí)例和高級(jí)編程。

本書(shū)的編寫(xiě)得到北京百知教育科技有限公司的大力支持，在此表示感謝。

由于時(shí)間倉(cāng)促及編者水平有限，本書(shū)難免存在不足之處，懇請(qǐng)讀者批評(píng)指正。

編者

2018年7月

前言

第1章大數(shù)據(jù)概論 1
1.1 大數(shù)據(jù)概述 1
1.1.1 大數(shù)據(jù)產(chǎn)生的時(shí)代背景 1
1.1.2 大數(shù)據(jù)的特征 2
1.1.3 大數(shù)據(jù)應(yīng)用案例 2
1.1.4 大數(shù)據(jù)的機(jī)遇與挑戰(zhàn) 5
1.2 大數(shù)據(jù)處理技術(shù) 5
1.3 大數(shù)據(jù)與云計(jì)算 6
1.4 本章小結(jié) 7
第2章大數(shù)據(jù)處理平臺(tái)Hadoop 8
2.1 Hadoop生態(tài)系統(tǒng) 8
2.2 Hadoop架構(gòu) 11
2.2.1 HDFS 12
2.2.2 MapReduce 12
2.2.3 Yarn 13
2.3 Hadoop版本變遷 13
2.3.1 Hadoop發(fā)展史 13
2.3.2 如何選擇Hadoop開(kāi)發(fā)版本 14
2.4 本章小結(jié) 14
第3章 Hadoop平臺(tái)搭建 15
3.1 基礎(chǔ)環(huán)境配置 15
3.2 Hadoop配置文件修改 15
3.3 Hadoop平臺(tái)運(yùn)行及驗(yàn)證 22
3.4 本章小結(jié) 23
第4章分布式文件系統(tǒng)HDFS 24
4.1 HDFS架構(gòu) 24
4.1.1 HDFS的基本框架 24
4.1.2 HDFS的特點(diǎn) 26
4.2 HDFS的工作機(jī)制 27
4.2.1 HDFS讀寫(xiě)過(guò)程分析 27
4.2.2 NameNode的工作機(jī)制 29
4.2.3 元數(shù)據(jù)的CheckPoint 32
4.2.4 DataNode的工作機(jī)制 33
4.3 HDFS shell命令 34
4.3.1 幫助相關(guān)命令 35
4.3.2 查看相關(guān)命令 36
4.3.3 文件及目錄相關(guān)命令 37
4.3.4 統(tǒng)計(jì)相關(guān)命令 46
4.3.5 快照命令 47
4.4 本章小結(jié) 48
第5章 HDFS Java API編程 49
5.1 遠(yuǎn)程開(kāi)發(fā)環(huán)境搭建 49
5.2 HDFS Java API接口 53
5.3 HDFS Java API編程 53
5.3.1 獲取文件系統(tǒng) 55
5.3.2 列出所有DataNode的名字信息 56
5.3.3 創(chuàng)建文件目錄 57
5.3.4 刪除文件或文件目錄 58
5.3.5 查看文件是否存在 59
5.3.6 文件上傳至HDFS 59
5.3.7 從HDFS下載文件 60
5.3.8 文件重命名 61
5.3.9 遍歷目錄和文件 62
5.3.10 根據(jù)filter獲取目錄下的文件 63
5.3.11 取得數(shù)據(jù)塊所在的位置 65
5.4 程序打包 66
5.5 本章小結(jié) 68
第6章并行計(jì)算MapReduce 69
6.1 MapReduce編程模型 69
6.1.1 并行編程模型概述 69
6.1.2 并行計(jì)算編程模型 70
6.1.3 MapReduce編程模型 72
6.2 MapReduce工作原理 73
6.3 Yarn 75
6.3.1 Yarn基本框架與組件 75
6.3.2 Yarn工作流程 76
6.3.3 新舊Hadoop MapReduce框架對(duì)比 77
6.4 MapReduce Shuffle性能調(diào)優(yōu) 79
6.5 本章小結(jié) 80
第7章 MapReduce Java API編程 81
7.1 MapReduce Java API接口講解 81
7.1.1 InputFormat接口 82
7.1.2 Mapper類(lèi) 85
7.1.3 Partitioner類(lèi) 87
7.1.4 Combiner類(lèi) 88
7.1.5 Reducer類(lèi) 89
7.1.6 OutputFormat接口 90
7.1.7 GenericOptionsParser類(lèi) 91
7.1.8 DistributedCache類(lèi) 91
7.2 MapReduce Java API應(yīng)用實(shí)例 92
7.2.1 統(tǒng)計(jì)單詞出現(xiàn)頻率 92
7.2.2 統(tǒng)計(jì)出現(xiàn)的單詞 96
7.2.3 統(tǒng)計(jì)平均成績(jī) 99
7.2.4 排序 101
7.2.5 求年最高溫度 103
7.2.6 關(guān)系運(yùn)算—投影運(yùn)算 106
7.2.7 關(guān)系運(yùn)算—并運(yùn)算 108
7.2.8 關(guān)系運(yùn)算—交運(yùn)算 110
7.2.9 關(guān)系運(yùn)算—差運(yùn)算 111
7.2.10 關(guān)系運(yùn)算—連接運(yùn)算 114
7.3 MapReduce Java API高級(jí)編程 116
7.3.1 多輸入路徑方式 116
7.3.2 使用Partitioner實(shí)現(xiàn)輸出到多個(gè)
文件 119
7.3.3 自定義OutputFormat文件輸出 122
7.3.4 文本文件轉(zhuǎn)化成XML文件 127
7.3.5 通過(guò)MultipleOutputs完成多文件
輸出 130
7.3.6 將MapReduce產(chǎn)生的結(jié)果集導(dǎo)入
到MySQL中 135
7.3.7 自定義比較器 140
7.3.8 MapReduce分析明星微博數(shù)據(jù) 145
7.3.9 MapReduce最佳成績(jī)統(tǒng)計(jì) 152
7.3.10 MapReduce鏈接作業(yè) 158
7.3.11 利用Job嵌套求解二度人脈 162
7.4 本章小結(jié) 168
附錄 CentOS7安裝 169

電子課件
源代碼

關(guān)閉

打印