Hadoop大數(shù)據(jù)開(kāi)發(fā)
-
【作 者】主 編 劉春陽(yáng) 張學(xué)龍 劉麗軍
【I S B N 】978-7-5170-6903-4
【責(zé)任編輯】張玉玲
【適用讀者群】本專(zhuān)通用
【出版時(shí)間】2018-09-19
【開(kāi) 本】16開(kāi)
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁(yè) 數(shù)】184
【千字?jǐn)?shù)】280
【印 張】11.5
【定 價(jià)】¥32
【叢 書(shū)】普通高等教育數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專(zhuān)業(yè)教材
【備注信息】
簡(jiǎn)介
本書(shū)特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關(guān)圖書(shū)
本書(shū)通過(guò)原理加案例方式系統(tǒng)講解了Hadoop大數(shù)據(jù)開(kāi)發(fā),精心安排了原理分析、環(huán)境搭建、案例開(kāi)發(fā)等環(huán)節(jié),使讀者對(duì)解決大數(shù)據(jù)問(wèn)題有清晰的思路。
全書(shū)共7章:前6章系統(tǒng)講解大數(shù)據(jù)Hadoop架構(gòu),包括大數(shù)據(jù)處理平臺(tái)Hadoop、分布式文件系統(tǒng)HDFS,并行計(jì)算模型MapReduce、資源調(diào)度框架Yarn;第7章是MapReduce應(yīng)用實(shí)例,通過(guò)案例幫助讀者進(jìn)一步理解Hadoop平臺(tái)。全書(shū)突出三個(gè)特點(diǎn):道理簡(jiǎn)單明了、思路清晰透徹、案例新穎實(shí)用。
本書(shū)可作為普通高校大數(shù)據(jù)相關(guān)專(zhuān)業(yè)的教材,可供想深入了解Hadoop架構(gòu)編程的讀者參考,還可作為相關(guān)培訓(xùn)班的培訓(xùn)教材。
本書(shū)通過(guò)原理加案例的方式系統(tǒng)講解Hadoop 大數(shù)據(jù)開(kāi)發(fā),精心安排了原理分析、環(huán)境搭建、案例開(kāi)發(fā)等環(huán)節(jié),道理簡(jiǎn)單明了、思路清晰透徹、案例新穎實(shí)用。
前 言
這是一個(gè)大數(shù)據(jù)爆發(fā)的時(shí)代,面對(duì)信息的激流、多元化數(shù)據(jù)的涌現(xiàn),大數(shù)據(jù)已經(jīng)為個(gè)人生活、企業(yè)經(jīng)營(yíng),甚至國(guó)家與社會(huì)的發(fā)展帶來(lái)了機(jī)遇和挑戰(zhàn),成為信息產(chǎn)業(yè)中極具潛力的增長(zhǎng)點(diǎn)。大數(shù)據(jù)時(shí)代在眾多領(lǐng)域掀起變革的巨浪,但我們要冷靜地看到,大數(shù)據(jù)的核心在于為客戶(hù)挖掘數(shù)據(jù)中蘊(yùn)藏的價(jià)值,而不是軟硬件簡(jiǎn)單地堆砌。因此,針對(duì)不同領(lǐng)域的大數(shù)據(jù)應(yīng)用模式、商業(yè)模式研究將是大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展的關(guān)鍵。
Hadoop技術(shù)能夠成功的最根本原因在于它是把傳統(tǒng)的集中式運(yùn)算轉(zhuǎn)化成分布式計(jì)算的一種有效手段。Hadoop的分布式文件系統(tǒng)能夠以可靠快捷的方式將數(shù)據(jù)分布存儲(chǔ)到不同計(jì)算節(jié)點(diǎn)中,Hadoop MapReduce編程又能夠以簡(jiǎn)單的方法為人們提供分布式編程接口,從而降低了分布式開(kāi)發(fā)門(mén)檻。
本書(shū)共7章,不僅有詳細(xì)的理論講解,還有大量的實(shí)戰(zhàn)操作,具體內(nèi)容如下:
第1章深入探究大數(shù)據(jù)的概念、產(chǎn)生的背景和發(fā)展現(xiàn)狀,應(yīng)用案例指出了大數(shù)據(jù)面臨的機(jī)遇與挑戰(zhàn),介紹大數(shù)據(jù)處理技術(shù)和計(jì)算模式,最后闡述大數(shù)據(jù)與云計(jì)算之間的區(qū)別和聯(lián)系。
第2章詳細(xì)介紹大數(shù)據(jù)處理平臺(tái)Hadoop的生態(tài)系統(tǒng)和架構(gòu)。
第3章講解Hadoop分布式平臺(tái)的搭建和驗(yàn)證。
第4章描述HDFS的架構(gòu)、工作機(jī)制、文件讀寫(xiě)流程和Shell命令。
第5章講解HDFS Windows遠(yuǎn)程開(kāi)發(fā)、HDFS Java API接口和編程實(shí)戰(zhàn)。
第6章講解MapReduce編程模型、工作原理和Yarn資源管理。
第7章講解常用的MapReduce Java API接口、應(yīng)用實(shí)例和高級(jí)編程。
本書(shū)的編寫(xiě)得到北京百知教育科技有限公司的大力支持,在此表示感謝。
由于時(shí)間倉(cāng)促及編者水平有限,本書(shū)難免存在不足之處,懇請(qǐng)讀者批評(píng)指正。
編 者
2018年7月
第1章 大數(shù)據(jù)概論 1
1.1 大數(shù)據(jù)概述 1
1.1.1 大數(shù)據(jù)產(chǎn)生的時(shí)代背景 1
1.1.2 大數(shù)據(jù)的特征 2
1.1.3 大數(shù)據(jù)應(yīng)用案例 2
1.1.4 大數(shù)據(jù)的機(jī)遇與挑戰(zhàn) 5
1.2 大數(shù)據(jù)處理技術(shù) 5
1.3 大數(shù)據(jù)與云計(jì)算 6
1.4 本章小結(jié) 7
第2章 大數(shù)據(jù)處理平臺(tái)Hadoop 8
2.1 Hadoop生態(tài)系統(tǒng) 8
2.2 Hadoop架構(gòu) 11
2.2.1 HDFS 12
2.2.2 MapReduce 12
2.2.3 Yarn 13
2.3 Hadoop版本變遷 13
2.3.1 Hadoop發(fā)展史 13
2.3.2 如何選擇Hadoop開(kāi)發(fā)版本 14
2.4 本章小結(jié) 14
第3章 Hadoop平臺(tái)搭建 15
3.1 基礎(chǔ)環(huán)境配置 15
3.2 Hadoop配置文件修改 15
3.3 Hadoop平臺(tái)運(yùn)行及驗(yàn)證 22
3.4 本章小結(jié) 23
第4章 分布式文件系統(tǒng)HDFS 24
4.1 HDFS架構(gòu) 24
4.1.1 HDFS的基本框架 24
4.1.2 HDFS的特點(diǎn) 26
4.2 HDFS的工作機(jī)制 27
4.2.1 HDFS讀寫(xiě)過(guò)程分析 27
4.2.2 NameNode的工作機(jī)制 29
4.2.3 元數(shù)據(jù)的CheckPoint 32
4.2.4 DataNode的工作機(jī)制 33
4.3 HDFS shell命令 34
4.3.1 幫助相關(guān)命令 35
4.3.2 查看相關(guān)命令 36
4.3.3 文件及目錄相關(guān)命令 37
4.3.4 統(tǒng)計(jì)相關(guān)命令 46
4.3.5 快照命令 47
4.4 本章小結(jié) 48
第5章 HDFS Java API編程 49
5.1 遠(yuǎn)程開(kāi)發(fā)環(huán)境搭建 49
5.2 HDFS Java API接口 53
5.3 HDFS Java API編程 53
5.3.1 獲取文件系統(tǒng) 55
5.3.2 列出所有DataNode的名字信息 56
5.3.3 創(chuàng)建文件目錄 57
5.3.4 刪除文件或文件目錄 58
5.3.5 查看文件是否存在 59
5.3.6 文件上傳至HDFS 59
5.3.7 從HDFS下載文件 60
5.3.8 文件重命名 61
5.3.9 遍歷目錄和文件 62
5.3.10 根據(jù)filter獲取目錄下的文件 63
5.3.11 取得數(shù)據(jù)塊所在的位置 65
5.4 程序打包 66
5.5 本章小結(jié) 68
第6章 并行計(jì)算MapReduce 69
6.1 MapReduce編程模型 69
6.1.1 并行編程模型概述 69
6.1.2 并行計(jì)算編程模型 70
6.1.3 MapReduce編程模型 72
6.2 MapReduce工作原理 73
6.3 Yarn 75
6.3.1 Yarn基本框架與組件 75
6.3.2 Yarn工作流程 76
6.3.3 新舊Hadoop MapReduce框架對(duì)比 77
6.4 MapReduce Shuffle性能調(diào)優(yōu) 79
6.5 本章小結(jié) 80
第7章 MapReduce Java API編程 81
7.1 MapReduce Java API接口講解 81
7.1.1 InputFormat接口 82
7.1.2 Mapper類(lèi) 85
7.1.3 Partitioner類(lèi) 87
7.1.4 Combiner類(lèi) 88
7.1.5 Reducer類(lèi) 89
7.1.6 OutputFormat接口 90
7.1.7 GenericOptionsParser類(lèi) 91
7.1.8 DistributedCache類(lèi) 91
7.2 MapReduce Java API應(yīng)用實(shí)例 92
7.2.1 統(tǒng)計(jì)單詞出現(xiàn)頻率 92
7.2.2 統(tǒng)計(jì)出現(xiàn)的單詞 96
7.2.3 統(tǒng)計(jì)平均成績(jī) 99
7.2.4 排序 101
7.2.5 求年最高溫度 103
7.2.6 關(guān)系運(yùn)算—投影運(yùn)算 106
7.2.7 關(guān)系運(yùn)算—并運(yùn)算 108
7.2.8 關(guān)系運(yùn)算—交運(yùn)算 110
7.2.9 關(guān)系運(yùn)算—差運(yùn)算 111
7.2.10 關(guān)系運(yùn)算—連接運(yùn)算 114
7.3 MapReduce Java API高級(jí)編程 116
7.3.1 多輸入路徑方式 116
7.3.2 使用Partitioner實(shí)現(xiàn)輸出到多個(gè)
文件 119
7.3.3 自定義OutputFormat文件輸出 122
7.3.4 文本文件轉(zhuǎn)化成XML文件 127
7.3.5 通過(guò)MultipleOutputs完成多文件
輸出 130
7.3.6 將MapReduce產(chǎn)生的結(jié)果集導(dǎo)入
到MySQL中 135
7.3.7 自定義比較器 140
7.3.8 MapReduce分析明星微博數(shù)據(jù) 145
7.3.9 MapReduce最佳成績(jī)統(tǒng)計(jì) 152
7.3.10 MapReduce鏈接作業(yè) 158
7.3.11 利用Job嵌套求解二度人脈 162
7.4 本章小結(jié) 168
附錄 CentOS7安裝 169
- 嵌入式人工智能技術(shù)應(yīng)用(數(shù)字教材) [主編 胡娜 楊國(guó)勇 晏廷榮]
- Java Web項(xiàng)目化設(shè)計(jì)實(shí)踐教程 [邱云 曾陳萍]
- 人工智能開(kāi)發(fā)框架應(yīng)用 [主編 王明超 蘆婭云]
- 民航客艙服務(wù)實(shí)用英語(yǔ)教程 [主編 田靜 徐亞玲]
- Python數(shù)據(jù)分析 [主編 馮志輝 趙磊 李放]
- 大學(xué)信息技術(shù) [曾翰穎 編著]
- 多維視域下的高校籃球教學(xué)創(chuàng)新研究 [張利超 李寧 著]
- 創(chuàng)新創(chuàng)業(yè)訓(xùn)練實(shí)踐教程 [主編 王日華 陳武 黃喆誠(chéng)]
- 實(shí)用運(yùn)籌學(xué) [主編 邢育紅 于晉臣]
- 電子技術(shù)(第二版) [主編 覃愛(ài)娜 李飛]
- 勞動(dòng)爭(zhēng)議處理實(shí)務(wù) [主編 王秀卿 羅靜]
- 工程數(shù)學(xué) [主編 郭立娟 王海]
- 語(yǔ)音識(shí)別理論與實(shí)踐 [主編 莫宏偉]
- 武術(shù)基礎(chǔ)教程 [主編 李代勇 謝志民]
- 計(jì)算機(jī)網(wǎng)絡(luò)實(shí)訓(xùn)教程 [主編 張浩軍 趙玉娟]
- 畫(huà)法幾何與機(jī)械制圖習(xí)題集(多學(xué)時(shí)) [主編 趙軍]
- 電工電子技術(shù)基礎(chǔ) [主編 劉 軍 楊國(guó)龍 劉天成]
- MySQL數(shù)據(jù)庫(kù)項(xiàng)目式教程 [陳亞峰]
- 機(jī)械設(shè)計(jì)基礎(chǔ)(第二版) [主編 田亞平 李?lèi)?ài)姣]
- 畫(huà)法幾何與機(jī)械制圖 [主編 趙軍]
- C語(yǔ)言程序設(shè)計(jì)習(xí)題與實(shí)驗(yàn)指導(dǎo)(第二版) [主編 甄增榮 張賓]
- C語(yǔ)言程序設(shè)計(jì)(第二版) [主編 甄增榮 田云霞]
- Unity3D虛擬現(xiàn)實(shí)應(yīng)用開(kāi)發(fā)實(shí)踐 [主 編 劉龍]
- 智能化技術(shù)基礎(chǔ)(第三版) [鄧文達(dá) 李禮]
- 面向?qū)ο蟪绦蛟O(shè)計(jì) [主編 張勇 張平華 趙小龍]
- 網(wǎng)絡(luò)營(yíng)銷(xiāo) [主編 夏薇薇 劉婷 尚潔]
- 電視節(jié)目策劃與制作(微課版) [主 編 黃滴滴]
- 數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用實(shí)踐教程(SQL Server 2019) [主 編 嚴(yán)暉 周肆清]
- 大學(xué)應(yīng)用數(shù)學(xué) [主編 郭立娟]
- 工業(yè)機(jī)器人拆裝與調(diào)試 [主編 胡月霞 向艷芳 朱奇]

- 教材類(lèi)more>>
- 教輔培訓(xùn)more>>
- 生活經(jīng)管more>>
- 云計(jì)算原理
- Python數(shù)據(jù)分析
- 大數(shù)據(jù)技術(shù)導(dǎo)論
- HBase分布式存儲(chǔ)系統(tǒng)應(yīng)用(第二版)
- Hive編程技術(shù)與應(yīng)用(第二版)
- Python 語(yǔ)言程序設(shè)計(jì)實(shí)踐指導(dǎo)
- Spark大數(shù)據(jù)處理技術(shù)
- 數(shù)據(jù)清洗
- R語(yǔ)言基礎(chǔ)及應(yīng)用
- 數(shù)據(jù)庫(kù)原理及應(yīng)用(MySQL版)
- 大數(shù)據(jù)導(dǎo)論
- 大數(shù)據(jù)可視化技術(shù)
- Python語(yǔ)言程序設(shè)計(jì)
- Java編程基礎(chǔ)
- Java編程基礎(chǔ)實(shí)踐指導(dǎo)
- 深度學(xué)習(xí)—卷積神經(jīng)網(wǎng)絡(luò)算法原理與應(yīng)用
