大數(shù)據(jù)技術(shù)與應(yīng)用

中國(guó)水利水電出版社

【作者】主　編　蔡勁松　李偉

【I S B N 】978-7-5226-1108-2

【責(zé)任編輯】趙佳琦

【適用讀者群】高職高專(zhuān)

【出版時(shí)間】2023-02-09

【開(kāi) 本】16開(kāi)

【裝幀信息】平裝（光膜）

【版次】第1版第1次印刷

【頁(yè) 數(shù)】216

【千字?jǐn)?shù)】296

【印張】13.5

【定價(jià)】￥42

【叢書(shū)】高等職業(yè)教育大數(shù)據(jù)與人工智能專(zhuān)業(yè)群系列教材

【備注信息】

圖書(shū)詳情

簡(jiǎn)介

本書(shū)特色

前言

章節(jié)列表

精彩閱讀

下載資源

相關(guān)圖書(shū)

本書(shū)緊扣Hadoop生態(tài)圈相關(guān)系統(tǒng)對(duì)大數(shù)據(jù)處理架構(gòu)進(jìn)行全方位介紹，重點(diǎn)圍繞大數(shù)據(jù)基本概念、集群搭建、存儲(chǔ)管理、各類(lèi)數(shù)據(jù)分析計(jì)算以及可視化等方面的基本理論、方法和關(guān)鍵技術(shù)，通過(guò)豐富的應(yīng)用案例展示了大數(shù)據(jù)的應(yīng)用場(chǎng)景以及數(shù)據(jù)價(jià)值。全書(shū)共分10章，分別是認(rèn)識(shí)大數(shù)據(jù)、Hadoop集群搭建、HDFS分布式文件系統(tǒng)、MapReduce分布式計(jì)算框架、ZooKeeper分布式協(xié)調(diào)服務(wù)、HBase分布式數(shù)據(jù)庫(kù)、Hive數(shù)據(jù)倉(cāng)庫(kù)、Sqoop數(shù)據(jù)遷移、Storm流計(jì)算和數(shù)據(jù)可視化。

全書(shū)遵循“理論夠用、實(shí)用第一”的原則選擇內(nèi)容，編排合理，表述深入淺出，所有操作命令全部按序列出，并配有解釋和截圖。本書(shū)指導(dǎo)性、實(shí)用性強(qiáng)，能使讀者快速、輕松地掌握Hadoop大數(shù)據(jù)平臺(tái)運(yùn)維和分析的基本技術(shù)。

本書(shū)可作為高等職業(yè)教育本科、專(zhuān)科院校包括大數(shù)據(jù)技術(shù)與應(yīng)用專(zhuān)業(yè)在內(nèi)的電子信息類(lèi)專(zhuān)業(yè)相關(guān)課程教材，也可作為非計(jì)算機(jī)專(zhuān)業(yè)通識(shí)課程教學(xué)用書(shū)以及大數(shù)據(jù)愛(ài)好者的參考讀物。

本書(shū)附有配套電子課件、源碼、教案、教學(xué)設(shè)計(jì)等資源，讀者可從中國(guó)水利水電出版社網(wǎng)站（www.waterpub.com.cn）或萬(wàn)水書(shū)苑網(wǎng)站（mightybasket.cn）免費(fèi)下載。

體系完整—— 包括大數(shù)據(jù)采集、預(yù)處理、存儲(chǔ)管理、挖掘分析以及可視化等處理流程中的基本理論、方法和關(guān)鍵技術(shù)，涵蓋大數(shù)據(jù)技術(shù)與應(yīng)用方向比較完整的理論體系。

結(jié)合實(shí)際—— 在各部分知識(shí)的講解中，融入了大量入門(mén)級(jí)的教學(xué)案例，做到深入淺出、圖文并茂，幫助讀者對(duì)大數(shù)據(jù)知識(shí)和技術(shù)進(jìn)行深入理解，體現(xiàn)專(zhuān)業(yè)認(rèn)知的引導(dǎo)性。

資源豐富—— 作為校企合作、資源共建的成果，配微課視頻、電子課件、源碼等資源，方便師生的教與學(xué)。

前　　言

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，構(gòu)建信息內(nèi)容的數(shù)據(jù)量也在急速增加，這類(lèi)量級(jí)巨大、急速增加的數(shù)據(jù)信息被稱(chēng)為大數(shù)據(jù)。在各種處理大數(shù)據(jù)的系統(tǒng)中，Hadoop生態(tài)圈相關(guān)系統(tǒng)的表現(xiàn)無(wú)疑最為突出。本書(shū)定位于Hadoop系統(tǒng)的入門(mén)教程，主要內(nèi)容包括大數(shù)據(jù)基礎(chǔ)知識(shí)、Hadoop安裝與配置管理、HDFS技術(shù)、MapReduce技術(shù)、ZooKeeper技術(shù)、HBase技術(shù)、Hive分布式數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、Sqoop數(shù)據(jù)遷移工具、Storm實(shí)時(shí)數(shù)據(jù)處理技術(shù)等最為常見(jiàn)與流行的Hadoop大數(shù)據(jù)系統(tǒng)架構(gòu)。

本書(shū)內(nèi)容編寫(xiě)深入淺出，注重實(shí)戰(zhàn)。每章均配以實(shí)例進(jìn)行講解，讀者在使用本書(shū)時(shí)，可以根據(jù)相應(yīng)的操作過(guò)程進(jìn)行操作，高效地掌握相關(guān)知識(shí)點(diǎn)及操作技能。學(xué)生通過(guò)對(duì)與大數(shù)據(jù)相關(guān)的基本知識(shí)、典型技術(shù)、具體應(yīng)用進(jìn)行全面而直觀的了解，在入門(mén)性的學(xué)習(xí)過(guò)程中提高對(duì)專(zhuān)業(yè)的認(rèn)識(shí)。本書(shū)注重知識(shí)結(jié)構(gòu)的基礎(chǔ)性，用案例開(kāi)闊學(xué)生視野，啟發(fā)創(chuàng)新思維。本書(shū)在寫(xiě)作思路和內(nèi)容編排上具有以下幾個(gè)方面的特色。

（1）知識(shí)體系完整。本書(shū)內(nèi)容包括大數(shù)據(jù)采集、預(yù)處理、存儲(chǔ)管理、挖掘分析以及可視化等處理流程中的基本理論、方法和關(guān)鍵技術(shù)，涵蓋大數(shù)據(jù)技術(shù)與應(yīng)用方向比較完整的理論體系，脈絡(luò)清晰，知識(shí)完整。

（2）理論與案例結(jié)合。本書(shū)在各部分知識(shí)的講解中，融入了大量入門(mén)級(jí)的教學(xué)案例，做到深入淺出、圖文并茂，幫助讀者對(duì)大數(shù)據(jù)知識(shí)和技術(shù)進(jìn)行深入理解，體現(xiàn)專(zhuān)業(yè)認(rèn)知的引導(dǎo)性。

（3）注重實(shí)踐應(yīng)用。本書(shū)在各章節(jié)中配置了運(yùn)用大數(shù)據(jù)工具解決問(wèn)題的綜合實(shí)踐案例，通過(guò)對(duì)實(shí)踐內(nèi)容的細(xì)致講解，并輔助視頻資料，能夠幫助讀者完成動(dòng)手實(shí)踐的環(huán)節(jié)，加深對(duì)專(zhuān)業(yè)知識(shí)的理解。

（4）適用范圍廣。本書(shū)既可作為高等職業(yè)教育本科和專(zhuān)科電子信息類(lèi)各專(zhuān)業(yè)相關(guān)課程教材，也可作為非計(jì)算機(jī)專(zhuān)業(yè)的通識(shí)課程教學(xué)用書(shū)以及大數(shù)據(jù)愛(ài)好者的參考讀物。

本書(shū)由蔡勁松、李偉任主編，朱瑞玥、張平、宋文宇任副主編，全書(shū)統(tǒng)稿和定稿工作由蔡勁松完成。此外，鄒汪平、張成、王鈞、戴永恒等人也參與了資料整理工作。本書(shū)是校企合

作、資源共建的成果之一，在編寫(xiě)過(guò)程中得到了合肥課工場(chǎng)教育科技有限公司和北京課工場(chǎng)教育科技有限公司大數(shù)據(jù)開(kāi)發(fā)教研團(tuán)隊(duì)的大力支持，在此一并表示感謝。

由于編者水平有限，書(shū)中難免存在錯(cuò)誤和不妥之處，懇請(qǐng)讀者批評(píng)指正。編者電子郵箱：94364330@qq.com。

編者

2022年8月

前言
第1章　認(rèn)識(shí)大數(shù)據(jù)
1.1　初識(shí)大數(shù)據(jù) 001
1.1.1　大數(shù)據(jù)產(chǎn)生的時(shí)代背景 001
1.1.2　大數(shù)據(jù)的發(fā)展歷程 002
1.1.3　大數(shù)據(jù)未來(lái)的發(fā)展趨勢(shì) 004
1.2　大數(shù)據(jù)基本概念 005
1.2.1　什么是大數(shù)據(jù) 005
1.2.2　大數(shù)據(jù)的特征 006
1.2.3　大數(shù)據(jù)的重要性 007
1.3　大數(shù)據(jù)關(guān)鍵技術(shù)與計(jì)算模式 009
1.3.1　大數(shù)據(jù)采集、預(yù)處理與存儲(chǔ)管理 010
1.3.2　MapReduce分布式計(jì)算框架 012
1.3.3　大數(shù)據(jù)分析 013
1.3.4　大數(shù)據(jù)計(jì)算模式 014
1.4　大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)和人工智能的
關(guān)系 014
1.4.1　大數(shù)據(jù)與云計(jì)算的關(guān)系 014
1.4.2　大數(shù)據(jù)與物聯(lián)網(wǎng)的關(guān)系 015
1.4.3　大數(shù)據(jù)與人工智能的關(guān)系 015
小結(jié) 016
習(xí)題 016
第2章　Hadoop集群搭建
2.1　了解Linux操作系統(tǒng) 018
2.1.1　Linux的誕生和發(fā)展 018
2.1.2　Linux的整體架構(gòu) 020
2.1.3　Linux的特點(diǎn) 021
2.1.4　Linux文本編輯器 022
2.1.5　Linux權(quán)限與目錄 024
2.1.6　Linux基本命令 026
2.2　認(rèn)識(shí)Hadoop集群 032
2.2.1　Hadoop生態(tài)圈 032
2.2.2　Hadoop的運(yùn)行模式 034
2.2.3　Hadoop的優(yōu)勢(shì) 034
2.3　Hadoop集群的搭建和配置 035
2.3.1　主機(jī)的硬件配置與虛擬化軟件 035
2.3.2　Hadoop集群安裝準(zhǔn)備 035
2.3.3　Hadoop集群搭建和配置 050
2.3.4　Hadoop集群測(cè)試 054
小結(jié) 056
習(xí)題 056
第3章　HDFS分布式文件系統(tǒng)
3.1　認(rèn)識(shí)HDFS 058
3.1.1　HDFS產(chǎn)生的背景 058
3.1.2　HDFS簡(jiǎn)介 059
3.1.3　HDFS的優(yōu)缺點(diǎn) 059
3.2　HDFS的基本原理 060
3.2.1　HDFS的體系架構(gòu) 060
3.2.2　HDFS文件讀寫(xiě)原理 062
3.3　HDFS的Shell命令行操作 063
3.4　HDFS的Java API操作 065
3.4.1　Java API操作環(huán)境搭建 066
3.4.2　HDFS的Java API介紹 071
3.4.3　使用Java API操作HDFS 072
小結(jié) 074
習(xí)題 074
第4章　MapReduce分布式計(jì)算框架
4.1　認(rèn)識(shí)MapReduce 076
4.1.1　MapReduce概述 076
4.1.2　MapReduce的設(shè)計(jì)思想 077
4.1.3　MapReduce編程模型 077
4.1.4　MapReduce應(yīng)用實(shí)例—詞頻統(tǒng)計(jì) 078
4.2　MapReduce工作流程 086
4.2.1　MapReduce工作過(guò)程 086
4.2.2　Map工作過(guò)程 086
4.2.3　Reduce工作過(guò)程 087
4.2.4　Job工作過(guò)程 089
4.2.5　Shuffle工作過(guò)程 090
4.2.6　MapReduce的輸入/輸出格式 091
4.2.7　MapReduce的優(yōu)化 093
4.3　YARN的設(shè)計(jì)思想與工作流程 094
4.3.1　YARN設(shè)計(jì)思想 094
4.3.2　YARN體系結(jié)構(gòu) 095
4.3.3　YARN工作流程 096
4.4　MapReduce經(jīng)典案例 097
4.4.1　數(shù)據(jù)去重 097
4.4.2　案例實(shí)現(xiàn)—數(shù)據(jù)去重 098
4.4.3　倒排索引 100
4.4.4　案例實(shí)現(xiàn)—倒排索引 103
小結(jié) 106
習(xí)題 106
第5章　ZooKeeper分布式協(xié)調(diào)服務(wù)
5.1　ZooKeeper概述 108
5.1.1　ZooKeeper作用 108
5.1.2　ZooKeeper特點(diǎn) 109
5.1.3　ZooKeeper體系結(jié)構(gòu) 109
5.1.4　ZooKeeper數(shù)據(jù)模型 110
5.1.5　ZooKeeper工作原理 111
5.2　ZooKeeper安裝與運(yùn)行 112
5.2.1　ZooKeeper安裝包的下載安裝 112
5.2.2　ZooKeeper相關(guān)配置 112
5.2.3　ZooKeeper服務(wù)的啟動(dòng)和關(guān)閉 113
5.3　ZooKeeper的Shell操作 115
小結(jié) 118
習(xí)題 119
第6章　HBase分布式數(shù)據(jù)庫(kù)
6.1　認(rèn)識(shí)NoSQL 120
6.1.1　NoSQL的特點(diǎn) 120
6.1.2　NoSQL的常見(jiàn)類(lèi)型 121
6.2　HBase概述 122
6.2.1　HBase的特點(diǎn)與其他組件關(guān)系 123
6.2.2　HBase的數(shù)據(jù)模型 124
6.2.3　HBase的體系結(jié)構(gòu) 125
6.3　HBase集群安裝 127
6.4　HBase的Shell操作 129
6.4.1　HBase Shell啟動(dòng) 130
6.4.2　HBase Shell基本操作 131
小結(jié) 136
習(xí)題 137
第7章　Hive數(shù)據(jù)倉(cāng)庫(kù)
7.1　認(rèn)識(shí)Hive 138
7.1.1　什么是Hive 138
7.1.2　Hive架構(gòu)設(shè)計(jì) 139
7.1.3　Hive數(shù)據(jù)類(lèi)型 140
7.1.4　Hive服務(wù)組成 141
7.2　Hive安裝 142
7.2.1　Hive安裝模式簡(jiǎn)介 142
7.2.2　Hive嵌入模式 142
7.2.3　Hive本地和遠(yuǎn)程模式 143
7.3　HiveQL表操作 147
7.3.1　Hive數(shù)據(jù)庫(kù)操作 147
7.3.2　Hive內(nèi)部表操作 148
7.3.3　Hive外部表操作 150
7.3.4　Hive桶表操作 152
7.4　HiveQL數(shù)據(jù)操作 154
7.4.1　HiveQL基本語(yǔ)法概述 154
7.4.2　HiveQL查詢(xún)實(shí)例 155
小結(jié) 161
習(xí)題 161
第8章　Sqoop數(shù)據(jù)遷移
8.1　Sqoop概述 163
8.1.1　Sqoop簡(jiǎn)介 163
8.1.2　Sqoop的優(yōu)勢(shì) 163
8.1.3　Sqoop的版本 164
8.1.4　Sqoop的構(gòu)架與工作機(jī)制 164
8.2　Sqoop安裝與配置 165
8.2.1　Sqoop安裝 165
8.2.2　Sqoop配置 165
8.2.3　Sqoop配置測(cè)試 166
8.3　Sqoop的使用 167
8.3.1　數(shù)據(jù)準(zhǔn)備工作 167
8.3.2　MySQL表數(shù)據(jù)導(dǎo)入HDFS 168
8.3.3　增量導(dǎo)入 170
8.3.4　MySQL表數(shù)據(jù)導(dǎo)入Hive 171
8.3.5　Sqoop數(shù)據(jù)導(dǎo)出 172
小結(jié) 173
習(xí)題 173
第9章　Storm流計(jì)算
9.1　流計(jì)算概述 175
9.1.1　流計(jì)算的概念 175
9.1.2　流計(jì)算的處理流程 176
9.2　Storm流計(jì)算框架 177
9.2.1　Storm概述 177
9.2.2　Storm的特點(diǎn) 177
9.2.3　Storm的架構(gòu) 178
9.2.4　Storm工作流 178
9.2.5　Storm數(shù)據(jù)流 179
9.3　Storm集群搭建 180
9.3.1　集群規(guī)劃 180
9.3.2　Storm集群搭建 181
9.4　Storm實(shí)戰(zhàn) 183
9.4.1　需求分析 183
9.4.2　數(shù)據(jù)結(jié)構(gòu) 183
9.4.3　項(xiàng)目實(shí)現(xiàn) 184
小結(jié) 187
習(xí)題 187
第10章　數(shù)據(jù)可視化
10.1　數(shù)據(jù)可視化簡(jiǎn)介 189
10.1.1　數(shù)據(jù)可視化的基本概念 189
10.1.2　數(shù)據(jù)可視化的類(lèi)型 190
10.2　數(shù)據(jù)可視化流程 190
10.3　可視化技術(shù)和工具 192
10.3.1　Excel 192
10.3.2　HTML5 192
10.3.3　Tableau 192
10.3.4　ECharts 193
10.3.5　Python 194
10.3.6　R語(yǔ)言 194
10.4　數(shù)據(jù)可視化實(shí)例 194
10.4.1　系統(tǒng)架構(gòu) 194
10.4.2　創(chuàng)建數(shù)據(jù)表 195
10.4.3　平臺(tái)環(huán)境搭建 195
10.4.4　基于EChart數(shù)據(jù)可視化的實(shí)現(xiàn) 202
10.4.5　功能展示 206
小結(jié) 206
習(xí)題 206

關(guān)閉

打印