文本信息處理與應(yīng)用
-
【作 者】主編 何黎松 姚香秀
【I S B N 】978-7-5226-3761-7
【責(zé)任編輯】鞠向超
【適用讀者群】本專(zhuān)通用
【出版時(shí)間】2025-11-01
【開(kāi) 本】16開(kāi)
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁(yè) 數(shù)】232
【千字?jǐn)?shù)】371
【印 張】14.5
【定 價(jià)】¥48
【叢 書(shū)】普通高等教育數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專(zhuān)業(yè)教材
【備注信息】
簡(jiǎn)介
本書(shū)特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關(guān)圖書(shū)
在人工智能和大數(shù)據(jù)時(shí)代,文字信息的分析與處理已成為關(guān)鍵技能。本書(shū)主要針對(duì)本科階段的文本信息處理與應(yīng)用課程的教學(xué)進(jìn)行編寫(xiě),內(nèi)容偏基礎(chǔ),強(qiáng)調(diào)實(shí)踐應(yīng)用。本書(shū)主要內(nèi)容包括概論、文本預(yù)處理、中文分詞與可視化、關(guān)鍵詞提取、文本向量化、文本聚類(lèi)、主題模型、文本分類(lèi)、情感分析、詞網(wǎng)絡(luò)分析、綜合案例分析和前沿介紹。
本書(shū)可作為自然語(yǔ)言處理課程的前置課程,適用于數(shù)據(jù)科學(xué)相關(guān)專(zhuān)業(yè)的高年級(jí)本科生使用。閱讀和使用本書(shū)需要已經(jīng)學(xué)過(guò)概率論、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和Python編程課程。
立足產(chǎn)學(xué)融合前沿,筑牢文本處理根基。
內(nèi)容全面層層遞進(jìn),理論實(shí)踐雙線并行。
案例豐富代碼翔實(shí),思政元素自然融入。
基礎(chǔ)技能逐層夯實(shí),綜合實(shí)踐賦能應(yīng)用。
文本信息處理與應(yīng)用(Text Information Processing and Applications,TIPA)作為自然語(yǔ)言處理(Natural Language Processing,NLP)的重要基礎(chǔ)領(lǐng)域,研究如何高效地分析和處理文本數(shù)據(jù),為數(shù)據(jù)決策服務(wù)。在信息抽取、輿情監(jiān)測(cè)、個(gè)性化推薦等眾多應(yīng)用場(chǎng)景中,其展現(xiàn)了極高的學(xué)術(shù)研究?jī)r(jià)值和商業(yè)潛力。
本書(shū)依托2023年教育部產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目,與北京百分點(diǎn)科技集團(tuán)股份有限公司(簡(jiǎn)稱(chēng)“百分點(diǎn)公司”)合作編寫(xiě),編寫(xiě)期間百分點(diǎn)公司提供了豐富的實(shí)踐數(shù)據(jù)和案例。本書(shū)從實(shí)際應(yīng)用場(chǎng)景出發(fā),依托具體案例,詳細(xì)探討文本信息處理的技術(shù)與理論,內(nèi)容涵蓋以下幾個(gè)方面:概論、文本預(yù)處理、中文分詞與可視化、關(guān)鍵詞提取、文本向量化、文本聚類(lèi)、主題模型、文本分類(lèi)、情感分析、詞網(wǎng)絡(luò)分析、綜合案例分析以及文本領(lǐng)域的前沿技術(shù)。
本書(shū)的主要特點(diǎn)如下。
1.內(nèi)容全面,層次分明
本書(shū)可劃分為以下5篇:
(1)基礎(chǔ)篇(第1~4章):包含對(duì)文本信息處理與應(yīng)用的總體介紹,涉及文本預(yù)處理、分詞技術(shù)和關(guān)鍵詞提取等基礎(chǔ)內(nèi)容。這一部分旨在為讀者提供扎實(shí)的基礎(chǔ)。
(2)文本向量化篇(第5章):詳細(xì)講解文本向量化的技術(shù),包括詞嵌入(Word Embeddings)、Doc2Vec等方法,為后續(xù)的文本分析奠定基礎(chǔ)。
(3)文本挖掘篇(第6~10章):涵蓋文本聚類(lèi)、主題模型、文本分類(lèi)、情感分析和詞網(wǎng)絡(luò)分析等高級(jí)文本挖掘技術(shù)。該部分側(cè)重于細(xì)分場(chǎng)景下的文本分析任務(wù),幫助讀者掌握實(shí)際應(yīng)用中的數(shù)據(jù)處理
方法。
(4)綜合實(shí)踐篇(第11~13章):通過(guò)3個(gè)綜合案例,將前述內(nèi)容實(shí)際應(yīng)用于具體問(wèn)題,展示文本分析方法的實(shí)際效果和應(yīng)用技巧。
(5)前沿拓展篇(第14章):介紹文本信息處理與應(yīng)用領(lǐng)域的最新研究成果和技術(shù)發(fā)展,幫助讀者了解當(dāng)前的前沿動(dòng)態(tài)和未來(lái)的發(fā)展趨勢(shì)。
2.理論與實(shí)踐相結(jié)合
本書(shū)將理論與實(shí)踐緊密結(jié)合,在第2~10章中均配備了實(shí)際案例和Python實(shí)踐代碼。通過(guò)這種方式,讀者不僅能夠理解理論內(nèi)容,還能掌握實(shí)際操作技能。第11~13章為3個(gè)綜合案例,用于詳細(xì)展示前面章節(jié)的內(nèi)容如何在實(shí)際中應(yīng)用。
3.融入思政教育元素
本書(shū)特別選用了大量思政文本作為分析案例,包括政策文本、地方輿情新聞及社會(huì)熱點(diǎn)問(wèn)題的相關(guān)內(nèi)容。這些案例的選用旨在幫助讀者更深入地理解國(guó)家政策,分析地方輿情問(wèn)題,并提出改進(jìn)社會(huì)問(wèn)題的有針對(duì)性建議,從而體現(xiàn)教材在思政建設(shè)中的應(yīng)用價(jià)值和教育意義。
本書(shū)由何黎松、姚香秀共同編寫(xiě)。何黎松負(fù)責(zé)第1章、第2章、第6~12章和第14章的編寫(xiě),姚香秀負(fù)責(zé)第3~5章和第13章的編寫(xiě)。本書(shū)第9章第3節(jié)、第11章綜合案例分析和習(xí)題都使用百分點(diǎn)公司提供的案例。第12章案例基于本專(zhuān)業(yè)學(xué)生石媛媛畢業(yè)論文數(shù)據(jù)改編。在本書(shū)編寫(xiě)完成之后,經(jīng)濟(jì)統(tǒng)計(jì)學(xué)專(zhuān)業(yè)學(xué)生楊文璿、陳亞楠、姬朝旭、孫栩琦、孫浩翔、李雪、羅雙娟和范國(guó)云等分別對(duì)格式細(xì)節(jié)進(jìn)行了修改和校對(duì)。
盡管編寫(xiě)組成員做出了最大努力,期望奉獻(xiàn)給讀者一本令人滿意的教材,但書(shū)中仍有可能存在一些缺陷,歡迎讀者和同行提出寶貴意見(jiàn)或建議。
編 者
2025年6月
第1章 概論 1
本章導(dǎo)讀 1
本章要點(diǎn) 1
1.1 文本信息處理與應(yīng)用概述 1
1.1.1 文本信息簡(jiǎn)介 1
1.1.2 文本信息處理與應(yīng)用的概念 2
1.1.3 文本信息處理與應(yīng)用的發(fā)展歷史 3
1.1.4 文本信息處理與應(yīng)用的學(xué)科關(guān)系 5
1.2 文本信息分析的應(yīng)用場(chǎng)景 6
1.2.1 政府工作中的文本信息分析 6
1.2.2 教育工作中的文本信息分析 6
1.2.3 新文科中的文本信息分析 7
1.2.4 社交媒體中的文本信息分析 7
1.3 Python在文本信息處理中的優(yōu)勢(shì)與庫(kù) 8
1.3.1 Python文本信息處理的優(yōu)勢(shì) 8
1.3.2 常用的Python文本信息處理庫(kù) 8
本章小結(jié) 10
本章習(xí)題 11
第2章 文本預(yù)處理 12
本章導(dǎo)讀 12
本章要點(diǎn) 12
2.1 讀取文本數(shù)據(jù) 13
2.1.1 從本地文件讀取文本數(shù)據(jù) 13
2.1.2 從網(wǎng)絡(luò)獲取文本數(shù)據(jù) 15
2.2 正則表達(dá)式 17
2.2.1 元字符 17
2.2.2 正則表達(dá)式函數(shù) 18
2.3 文本清洗 20
2.3.1 去除噪聲和無(wú)關(guān)信息 20
2.3.2 標(biāo)準(zhǔn)化文本 22
2.3.3 文本去重 22
2.4 文本分割與合并 24
2.4.1 文本分割 24
2.4.2 文本合并 24
2.5 文本預(yù)處理綜合案例 25
2.5.1 “十四五”規(guī)劃分篇 25
2.5.2 《倚天屠龍記》文本預(yù)處理 26
本章小結(jié) 29
本章習(xí)題 30
第3章 中文分詞與可視化 31
本章導(dǎo)讀 31
本章要點(diǎn) 31
3.1 分詞方法 31
3.1.1 基于規(guī)則的分詞方法 32
3.1.2 基于統(tǒng)計(jì)的分詞方法 36
3.1.3 基于深度學(xué)習(xí)的分詞方法 38
3.2 常見(jiàn)分詞庫(kù) 39
3.2.1 jieba庫(kù) 40
3.2.2 NLTK庫(kù) 43
3.2.3 HanLP庫(kù) 46
3.3 文本可視化技術(shù) 47
3.3.1 詞云圖 47
3.3.2 詞頻柱形圖 49
本章小結(jié) 50
本章習(xí)題 51
第4章 關(guān)鍵詞提取 52
本章導(dǎo)讀 52
本章要點(diǎn) 52
4.1 關(guān)鍵詞提取技術(shù)概述 52
4.2 基于統(tǒng)計(jì)的關(guān)鍵詞提取算法 53
4.2.1 基于統(tǒng)計(jì)的關(guān)鍵詞提取算法概述 53
4.2.2 TF-IDF算法基本原理 54
4.2.3 TF-IDF算法的Python實(shí)踐 55
4.3 基于圖模型的關(guān)鍵詞提取算法 59
4.3.1 基于圖模型的關(guān)鍵詞提取算法概述 59
4.3.2 PageRank算法 60
4.3.3 TextRank算法 62
4.3.4 TextRank算法的Python實(shí)踐 64
本章小結(jié) 66
本章習(xí)題 67
第5章 文本向量化 68
本章導(dǎo)讀 68
本章要點(diǎn) 68
5.1 文本向量化簡(jiǎn)介 68
5.2 文本向量化的發(fā)展歷史 69
5.3 Word2Vec 73
5.3.1 Word2Vec的基本原理 73
5.3.2 Word2Vec的兩種訓(xùn)練模型 73
5.3.3 使用Word2Vec實(shí)現(xiàn)文本相似度計(jì)算 77
5.4 Doc2Vec 80
5.4.1 Doc2Vec的基本原理 80
5.4.2 Doc2Vec的兩種訓(xùn)練模型 81
5.4.3 使用Doc2Vec實(shí)現(xiàn)文本相似度計(jì)算 83
本章小結(jié) 85
本章習(xí)題 86
第6章 文本聚類(lèi) 87
本章導(dǎo)讀 87
本章要點(diǎn) 87
6.1 文本聚類(lèi)介紹 88
6.1.1 文本聚類(lèi)的定義 88
6.1.2 文本聚類(lèi)的發(fā)展歷史 88
6.1.3 文本聚類(lèi)的應(yīng)用場(chǎng)景 89
6.1.4 文本聚類(lèi)的流程 89
6.2 聚類(lèi)算法介紹 90
6.2.1 K-means聚類(lèi)算法 91
6.2.2 高斯混合聚類(lèi)算法 92
6.2.3 層次聚類(lèi)算法 93
6.2.4 DBSCAN算法 94
6.3 聚類(lèi)類(lèi)別數(shù)判斷 95
6.3.1 肘部法則 96
6.3.2 輪廓系數(shù) 96
6.3.3 Davies-Bouldin指數(shù) 96
6.4 文本聚類(lèi)的Python實(shí)踐 96
本章小結(jié) 100
本章習(xí)題 100
第7章 主題模型 101
本章導(dǎo)讀 101
本章要點(diǎn) 101
7.1 主題模型介紹 101
7.1.1 主題模型的發(fā)展歷史 102
7.1.2 主題模型的應(yīng)用場(chǎng)景 103
7.1.3 主題模型的建模流程 103
7.2 LDA主題模型 104
7.2.1 LDA的基本原理 104
7.2.2 LDA參數(shù)的估計(jì)方法 106
7.2.3 LDA主題數(shù)的確定 107
7.2.4 LDA模型的優(yōu)缺點(diǎn) 108
7.2.5 LDA主題模型的Python實(shí)踐 109
7.3 DTM模型 114
7.3.1 DTM模型的介紹 114
7.3.2 DTM模型的優(yōu)缺點(diǎn) 115
7.3.3 DTM模型的Python實(shí)踐 116
本章小結(jié) 119
本章習(xí)題 120
第8章 文本分類(lèi) 121
本章導(dǎo)讀 121
本章要點(diǎn) 121
8.1 文本分類(lèi)介紹 121
8.1.1 文本分類(lèi)的定義 121
8.1.2 文本分類(lèi)的發(fā)展歷史 122
8.1.3 文本分類(lèi)的應(yīng)用場(chǎng)景 122
8.1.4 文本分類(lèi)的流程 123
8.2 基于機(jī)器學(xué)習(xí)算法的文本分類(lèi) 124
8.2.1 機(jī)器學(xué)習(xí)算法 124
8.2.2 集成學(xué)習(xí)算法 127
8.2.3 基于機(jī)器學(xué)習(xí)算法的文本分類(lèi)的
Python實(shí)踐 128
8.3 基于深度學(xué)習(xí)的文本分類(lèi) 133
8.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)分類(lèi)器 133
8.3.2 基于深度學(xué)習(xí)的文本分類(lèi)的Python
實(shí)踐 135
本章小結(jié) 139
本章習(xí)題 139
第9章 情感分析 140
本章導(dǎo)讀 140
本章要點(diǎn) 140
9.1 情感分析介紹 140
9.1.1 情感分析的發(fā)展歷史 140
9.1.2 情感分析的應(yīng)用場(chǎng)景 141
9.1.3 情感分析的方法 142
9.2 基于情感詞典的情感分析 143
9.2.1 基于情感詞典的情感分析方法步驟 143
9.2.2 情感詞典 144
9.2.3 基于情感詞典的情感分析的優(yōu)缺點(diǎn) 146
9.2.4 基于情感詞典的情感分析的Python
實(shí)踐 146
9.3 基于機(jī)器學(xué)習(xí)的情感分析 153
9.3.1 基于機(jī)器學(xué)習(xí)的情感分析的定義 153
9.3.2 基于機(jī)器學(xué)習(xí)的情感分析的流程 153
9.3.3 基于機(jī)器學(xué)習(xí)的情感分析的Python
實(shí)踐 154
9.4 基于Python庫(kù)的情感分析 157
9.4.1 可用于情感分析的Python庫(kù) 157
9.4.2 基于Python庫(kù)進(jìn)行情感分析的分析
實(shí)踐 158
本章小結(jié) 160
本章習(xí)題 161
第10章 詞網(wǎng)絡(luò)分析 162
本章導(dǎo)讀 162
本章要點(diǎn) 162
10.1 詞網(wǎng)絡(luò)分析介紹 162
10.1.1 詞網(wǎng)絡(luò)分析的定義 162
10.1.2 詞網(wǎng)絡(luò)分析的發(fā)展歷史 163
10.1.3 詞網(wǎng)絡(luò)分析的應(yīng)用場(chǎng)景 164
10.1.4 詞網(wǎng)絡(luò)分析的方法 165
10.2 詞網(wǎng)絡(luò)構(gòu)建 165
10.2.1 詞共現(xiàn)網(wǎng)絡(luò)構(gòu)建的方法 165
10.2.2 詞共現(xiàn)網(wǎng)絡(luò)構(gòu)建的Python實(shí)踐 166
10.3 詞網(wǎng)絡(luò)描述分析 169
10.3.1 詞網(wǎng)絡(luò)描述分析指標(biāo)介紹 169
10.3.2 詞網(wǎng)絡(luò)描述分析的Python實(shí)踐 171
10.4 詞網(wǎng)絡(luò)社群發(fā)現(xiàn) 173
10.4.1 社群發(fā)現(xiàn)算法 173
10.4.2 詞網(wǎng)絡(luò)社群發(fā)現(xiàn)的Python實(shí)踐 176
本章小結(jié) 180
本章習(xí)題 181
第11章 A型汽車(chē)消費(fèi)者評(píng)論數(shù)據(jù)分析 182
本章導(dǎo)讀 182
本章要點(diǎn) 182
11.1 案例背景 182
11.2 數(shù)據(jù)說(shuō)明 182
11.3 情感分析 183
11.4 詞云圖分析 185
本章小結(jié) 188
本章習(xí)題 188
第12章 子女教育問(wèn)題文本信息分析 189
本章導(dǎo)讀 189
本章要點(diǎn) 189
12.1 案例背景 189
12.2 數(shù)據(jù)說(shuō)明 189
12.3 情感分析 190
12.4 主題模型 192
本章小結(jié) 194
本章習(xí)題 194
第13章 基于密度聚類(lèi)的公眾留言熱點(diǎn)話題研究 195
本章導(dǎo)讀 195
本章要點(diǎn) 195
13.1 案例背景 195
13.2 數(shù)據(jù)說(shuō)明 196
13.3 數(shù)據(jù)整理 197
13.3.1 文本分詞 197
13.3.2 文本向量化 199
13.4 基于密度聚類(lèi)的熱點(diǎn)話題研究 200
本章小結(jié) 202
本章習(xí)題 203
第14章 前沿介紹 204
本章導(dǎo)讀 204
本章要點(diǎn) 204
14.1 前沿概覽 204
14.2 大語(yǔ)言模型 206
14.2.1 大語(yǔ)言模型介紹 206
14.2.2 大語(yǔ)言模型技術(shù)要點(diǎn) 208
14.2.3 生成式人工智能 211
14.3 大語(yǔ)言模型實(shí)踐 212
14.3.1 大語(yǔ)言模型部署方法 212
14.3.2 提示詞工程 215
14.3.3 大語(yǔ)言模型實(shí)踐案例 217
本章小結(jié) 220
本章習(xí)題 221
參考文獻(xiàn) 222
- 工業(yè)機(jī)器人編程及應(yīng)用(第二版) [主編 向艷芳 胡月霞]
- C語(yǔ)言程序設(shè)計(jì)(第二版) [主編 劉祖珉 趙仕波]
- 數(shù)據(jù)分析與應(yīng)用 [主編 孫偉 王蘭芹]
- Linux操作系統(tǒng)配置與管理項(xiàng)目化教程(第二版) [主編 白玉羚 劉金明 閆 淼]
- Ansys SpaceClaim直接建模與仿真指南 [蔡宜時(shí) 編著]
- 基于大數(shù)據(jù)的智慧農(nóng)業(yè)管理平臺(tái)關(guān)鍵技術(shù)研究與實(shí)踐 [周永福 著]
- 健美運(yùn)動(dòng) [戴顯巖]
- Python程序開(kāi)發(fā)基礎(chǔ)(AI+微課版) [趙艷莉 曾鑫]
- 大學(xué)生心理困境突圍之路 [張玨 著]
- 機(jī)器學(xué)習(xí)基礎(chǔ)與實(shí)踐 [主編 李曉峰 胥文婷 李云波]
- 大模型應(yīng)用實(shí)戰(zhàn) DeepSeek+即夢(mèng)AI+剪映重塑創(chuàng)作 [丁紅 楊彥彥 丁丁 編著]
- HarmonyOS從入門(mén)到精通 [陳趙云 周永福 楊 浪]
- 用英語(yǔ)發(fā)現(xiàn)世界:歐美文化篇 [李小麗 張薇 編著]
- 大學(xué)體育教程 [戴顯巖]
- 新一代信息技術(shù) [李佼輝 任雪冬]
- 軌道交通類(lèi)專(zhuān)門(mén)用途英語(yǔ)教程 [李德華主編 商曄副主編]
- 建設(shè)工程項(xiàng)目團(tuán)隊(duì)知識(shí)異質(zhì)性對(duì)團(tuán)隊(duì)績(jī)效的影響研究 [胡可]
- 新時(shí)代元陽(yáng)梯田 云南現(xiàn)代化高原立體灌區(qū) 前世 今生 未來(lái) [云南省水利水電勘測(cè)設(shè)計(jì)研究院 ]
- 網(wǎng)絡(luò)工程師章節(jié)習(xí)題與考點(diǎn)特訓(xùn)(適配第6版考綱) [夏杰 編著]
- 零基礎(chǔ)商業(yè)插畫(huà)設(shè)計(jì)與AI表現(xiàn) [主編 湯彥萱]
- 電工與電子技術(shù)(第三版) [主編 王梅 唐翠微 楊曉珍]
- 虛擬現(xiàn)實(shí)(VR)模型制作技術(shù)及應(yīng)用 [主編 高文銘 祝海英]
- 大學(xué)生就業(yè)指導(dǎo)與創(chuàng)新教育 [主編 田克明 楊超 郭明鋼]
- 新時(shí)代人工智能素養(yǎng) [主編 徐永冰 張帥](méi)
- 電子商務(wù)文案策劃與寫(xiě)作 [主編 盧海濤 夏穎 黃璐云]
- 信息技術(shù)與人工智能 [主編 王錦]
- 信息技術(shù)基礎(chǔ)(活頁(yè)式) [主編 趙金考 禹晨 張尼奇 王宏斌]
- 計(jì)算機(jī)程序員教程 [主編 李學(xué)國(guó) 任小平]
- 水利水電工程施工組織設(shè)計(jì) [主編 胡建春 錢(qián)波 何茜]
- 信息技術(shù) [主編 任洪亮 邢海燕]

- 教材類(lèi)more>>
- 教輔培訓(xùn)more>>
- 生活經(jīng)管more>>
- 文本信息處理與應(yīng)用
- Spark大數(shù)據(jù)技術(shù)基礎(chǔ)與應(yīng)用(Scala+Pyt
- Python統(tǒng)計(jì)分析項(xiàng)目化教程
- Excel數(shù)據(jù)處理與分析(第二版)
- 云計(jì)算原理
- Python數(shù)據(jù)分析
- 大數(shù)據(jù)技術(shù)導(dǎo)論
- HBase分布式存儲(chǔ)系統(tǒng)應(yīng)用(第二版)
- Hive編程技術(shù)與應(yīng)用(第二版)
- Python 語(yǔ)言程序設(shè)計(jì)實(shí)踐指導(dǎo)
- Spark大數(shù)據(jù)處理技術(shù)
- 數(shù)據(jù)清洗
- R語(yǔ)言基礎(chǔ)及應(yīng)用
- 數(shù)據(jù)庫(kù)原理及應(yīng)用(MySQL版)
- 大數(shù)據(jù)導(dǎo)論
- 大數(shù)據(jù)可視化技術(shù)
