熱門(mén)關(guān)鍵字:  聽(tīng)力密碼  聽(tīng)力密碼  新概念美語(yǔ)  單詞密碼  巧用聽(tīng)寫(xiě)練聽(tīng)力
圖書(shū)信息

文本信息處理與應(yīng)用

中國(guó)水利水電出版社
圖書(shū)詳情

    在人工智能和大數(shù)據(jù)時(shí)代,文字信息的分析與處理已成為關(guān)鍵技能。本書(shū)主要針對(duì)本科階段的文本信息處理與應(yīng)用課程的教學(xué)進(jìn)行編寫(xiě),內(nèi)容偏基礎(chǔ),強(qiáng)調(diào)實(shí)踐應(yīng)用。本書(shū)主要內(nèi)容包括概論、文本預(yù)處理、中文分詞與可視化、關(guān)鍵詞提取、文本向量化、文本聚類(lèi)、主題模型、文本分類(lèi)、情感分析、詞網(wǎng)絡(luò)分析、綜合案例分析和前沿介紹。

    本書(shū)可作為自然語(yǔ)言處理課程的前置課程,適用于數(shù)據(jù)科學(xué)相關(guān)專(zhuān)業(yè)的高年級(jí)本科生使用。閱讀和使用本書(shū)需要已經(jīng)學(xué)過(guò)概率論、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和Python編程課程。

    立足產(chǎn)學(xué)融合前沿,筑牢文本處理根基。

    內(nèi)容全面層層遞進(jìn),理論實(shí)踐雙線并行。

    案例豐富代碼翔實(shí),思政元素自然融入。

    基礎(chǔ)技能逐層夯實(shí),綜合實(shí)踐賦能應(yīng)用。

    文本信息處理與應(yīng)用(Text Information Processing and Applications,TIPA)作為自然語(yǔ)言處理(Natural Language Processing,NLP)的重要基礎(chǔ)領(lǐng)域,研究如何高效地分析和處理文本數(shù)據(jù),為數(shù)據(jù)決策服務(wù)。在信息抽取、輿情監(jiān)測(cè)、個(gè)性化推薦等眾多應(yīng)用場(chǎng)景中,其展現(xiàn)了極高的學(xué)術(shù)研究?jī)r(jià)值和商業(yè)潛力。

    本書(shū)依托2023年教育部產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目,與北京百分點(diǎn)科技集團(tuán)股份有限公司(簡(jiǎn)稱(chēng)“百分點(diǎn)公司”)合作編寫(xiě),編寫(xiě)期間百分點(diǎn)公司提供了豐富的實(shí)踐數(shù)據(jù)和案例。本書(shū)從實(shí)際應(yīng)用場(chǎng)景出發(fā),依托具體案例,詳細(xì)探討文本信息處理的技術(shù)與理論,內(nèi)容涵蓋以下幾個(gè)方面:概論、文本預(yù)處理、中文分詞與可視化、關(guān)鍵詞提取、文本向量化、文本聚類(lèi)、主題模型、文本分類(lèi)、情感分析、詞網(wǎng)絡(luò)分析、綜合案例分析以及文本領(lǐng)域的前沿技術(shù)。

    本書(shū)的主要特點(diǎn)如下。

    1.內(nèi)容全面,層次分明

    本書(shū)可劃分為以下5篇:

    (1)基礎(chǔ)篇(第1~4章):包含對(duì)文本信息處理與應(yīng)用的總體介紹,涉及文本預(yù)處理、分詞技術(shù)和關(guān)鍵詞提取等基礎(chǔ)內(nèi)容。這一部分旨在為讀者提供扎實(shí)的基礎(chǔ)。

    (2)文本向量化篇(第5章):詳細(xì)講解文本向量化的技術(shù),包括詞嵌入(Word Embeddings)、Doc2Vec等方法,為后續(xù)的文本分析奠定基礎(chǔ)。

    (3)文本挖掘篇(第6~10章):涵蓋文本聚類(lèi)、主題模型、文本分類(lèi)、情感分析和詞網(wǎng)絡(luò)分析等高級(jí)文本挖掘技術(shù)。該部分側(cè)重于細(xì)分場(chǎng)景下的文本分析任務(wù),幫助讀者掌握實(shí)際應(yīng)用中的數(shù)據(jù)處理

    方法。

    (4)綜合實(shí)踐篇(第11~13章):通過(guò)3個(gè)綜合案例,將前述內(nèi)容實(shí)際應(yīng)用于具體問(wèn)題,展示文本分析方法的實(shí)際效果和應(yīng)用技巧。

    (5)前沿拓展篇(第14章):介紹文本信息處理與應(yīng)用領(lǐng)域的最新研究成果和技術(shù)發(fā)展,幫助讀者了解當(dāng)前的前沿動(dòng)態(tài)和未來(lái)的發(fā)展趨勢(shì)。

    2.理論與實(shí)踐相結(jié)合

    本書(shū)將理論與實(shí)踐緊密結(jié)合,在第2~10章中均配備了實(shí)際案例和Python實(shí)踐代碼。通過(guò)這種方式,讀者不僅能夠理解理論內(nèi)容,還能掌握實(shí)際操作技能。第11~13章為3個(gè)綜合案例,用于詳細(xì)展示前面章節(jié)的內(nèi)容如何在實(shí)際中應(yīng)用。

    3.融入思政教育元素

    本書(shū)特別選用了大量思政文本作為分析案例,包括政策文本、地方輿情新聞及社會(huì)熱點(diǎn)問(wèn)題的相關(guān)內(nèi)容。這些案例的選用旨在幫助讀者更深入地理解國(guó)家政策,分析地方輿情問(wèn)題,并提出改進(jìn)社會(huì)問(wèn)題的有針對(duì)性建議,從而體現(xiàn)教材在思政建設(shè)中的應(yīng)用價(jià)值和教育意義。

    本書(shū)由何黎松、姚香秀共同編寫(xiě)。何黎松負(fù)責(zé)第1章、第2章、第6~12章和第14章的編寫(xiě),姚香秀負(fù)責(zé)第3~5章和第13章的編寫(xiě)。本書(shū)第9章第3節(jié)、第11章綜合案例分析和習(xí)題都使用百分點(diǎn)公司提供的案例。第12章案例基于本專(zhuān)業(yè)學(xué)生石媛媛畢業(yè)論文數(shù)據(jù)改編。在本書(shū)編寫(xiě)完成之后,經(jīng)濟(jì)統(tǒng)計(jì)學(xué)專(zhuān)業(yè)學(xué)生楊文璿、陳亞楠、姬朝旭、孫栩琦、孫浩翔、李雪、羅雙娟和范國(guó)云等分別對(duì)格式細(xì)節(jié)進(jìn)行了修改和校對(duì)。

    盡管編寫(xiě)組成員做出了最大努力,期望奉獻(xiàn)給讀者一本令人滿意的教材,但書(shū)中仍有可能存在一些缺陷,歡迎讀者和同行提出寶貴意見(jiàn)或建議。

    編 者

    2025年6月

    前言
    第1章 概論 1
    本章導(dǎo)讀 1
    本章要點(diǎn) 1
    1.1 文本信息處理與應(yīng)用概述 1
    1.1.1 文本信息簡(jiǎn)介 1
    1.1.2 文本信息處理與應(yīng)用的概念 2
    1.1.3 文本信息處理與應(yīng)用的發(fā)展歷史 3
    1.1.4 文本信息處理與應(yīng)用的學(xué)科關(guān)系 5
    1.2 文本信息分析的應(yīng)用場(chǎng)景 6
    1.2.1 政府工作中的文本信息分析 6
    1.2.2 教育工作中的文本信息分析 6
    1.2.3 新文科中的文本信息分析 7
    1.2.4 社交媒體中的文本信息分析 7
    1.3 Python在文本信息處理中的優(yōu)勢(shì)與庫(kù) 8
    1.3.1 Python文本信息處理的優(yōu)勢(shì) 8
    1.3.2 常用的Python文本信息處理庫(kù) 8
    本章小結(jié) 10
    本章習(xí)題 11
    第2章 文本預(yù)處理 12
    本章導(dǎo)讀 12
    本章要點(diǎn) 12
    2.1 讀取文本數(shù)據(jù) 13
    2.1.1 從本地文件讀取文本數(shù)據(jù) 13
    2.1.2 從網(wǎng)絡(luò)獲取文本數(shù)據(jù) 15
    2.2 正則表達(dá)式 17
    2.2.1 元字符 17
    2.2.2 正則表達(dá)式函數(shù) 18
    2.3 文本清洗 20
    2.3.1 去除噪聲和無(wú)關(guān)信息 20
    2.3.2 標(biāo)準(zhǔn)化文本 22
    2.3.3 文本去重 22
    2.4 文本分割與合并 24
    2.4.1 文本分割 24
    2.4.2 文本合并 24
    2.5 文本預(yù)處理綜合案例 25
    2.5.1 “十四五”規(guī)劃分篇 25
    2.5.2 《倚天屠龍記》文本預(yù)處理 26
    本章小結(jié) 29
    本章習(xí)題 30
    第3章 中文分詞與可視化 31
    本章導(dǎo)讀 31
    本章要點(diǎn) 31
    3.1 分詞方法 31
    3.1.1 基于規(guī)則的分詞方法 32
    3.1.2 基于統(tǒng)計(jì)的分詞方法 36
    3.1.3 基于深度學(xué)習(xí)的分詞方法 38
    3.2 常見(jiàn)分詞庫(kù) 39
    3.2.1 jieba庫(kù) 40
    3.2.2 NLTK庫(kù) 43
    3.2.3 HanLP庫(kù) 46
    3.3 文本可視化技術(shù) 47
    3.3.1 詞云圖 47
    3.3.2 詞頻柱形圖 49
    本章小結(jié) 50
    本章習(xí)題 51
    第4章 關(guān)鍵詞提取 52
    本章導(dǎo)讀 52
    本章要點(diǎn) 52
    4.1 關(guān)鍵詞提取技術(shù)概述 52
    4.2 基于統(tǒng)計(jì)的關(guān)鍵詞提取算法 53
    4.2.1 基于統(tǒng)計(jì)的關(guān)鍵詞提取算法概述 53
    4.2.2 TF-IDF算法基本原理 54
    4.2.3 TF-IDF算法的Python實(shí)踐 55
    4.3 基于圖模型的關(guān)鍵詞提取算法 59
    4.3.1 基于圖模型的關(guān)鍵詞提取算法概述 59
    4.3.2 PageRank算法 60
    4.3.3 TextRank算法 62
    4.3.4 TextRank算法的Python實(shí)踐 64
    本章小結(jié) 66
    本章習(xí)題 67
    第5章 文本向量化 68
    本章導(dǎo)讀 68
    本章要點(diǎn) 68
    5.1 文本向量化簡(jiǎn)介 68
    5.2 文本向量化的發(fā)展歷史 69
    5.3 Word2Vec 73
    5.3.1 Word2Vec的基本原理 73
    5.3.2 Word2Vec的兩種訓(xùn)練模型 73
    5.3.3 使用Word2Vec實(shí)現(xiàn)文本相似度計(jì)算 77
    5.4 Doc2Vec 80
    5.4.1 Doc2Vec的基本原理 80
    5.4.2 Doc2Vec的兩種訓(xùn)練模型 81
    5.4.3 使用Doc2Vec實(shí)現(xiàn)文本相似度計(jì)算 83
    本章小結(jié) 85
    本章習(xí)題 86
    第6章 文本聚類(lèi) 87
    本章導(dǎo)讀 87
    本章要點(diǎn) 87
    6.1 文本聚類(lèi)介紹 88
    6.1.1 文本聚類(lèi)的定義 88
    6.1.2 文本聚類(lèi)的發(fā)展歷史 88
    6.1.3 文本聚類(lèi)的應(yīng)用場(chǎng)景 89
    6.1.4 文本聚類(lèi)的流程 89
    6.2 聚類(lèi)算法介紹 90
    6.2.1 K-means聚類(lèi)算法 91
    6.2.2 高斯混合聚類(lèi)算法 92
    6.2.3 層次聚類(lèi)算法 93
    6.2.4 DBSCAN算法 94
    6.3 聚類(lèi)類(lèi)別數(shù)判斷 95
    6.3.1 肘部法則 96
    6.3.2 輪廓系數(shù) 96
    6.3.3 Davies-Bouldin指數(shù) 96
    6.4 文本聚類(lèi)的Python實(shí)踐 96
    本章小結(jié) 100
    本章習(xí)題 100
    第7章 主題模型 101
    本章導(dǎo)讀 101
    本章要點(diǎn) 101
    7.1 主題模型介紹 101
    7.1.1 主題模型的發(fā)展歷史 102
    7.1.2 主題模型的應(yīng)用場(chǎng)景 103
    7.1.3 主題模型的建模流程 103
    7.2 LDA主題模型 104
    7.2.1 LDA的基本原理 104
    7.2.2 LDA參數(shù)的估計(jì)方法 106
    7.2.3 LDA主題數(shù)的確定 107
    7.2.4 LDA模型的優(yōu)缺點(diǎn) 108
    7.2.5 LDA主題模型的Python實(shí)踐 109
    7.3 DTM模型 114
    7.3.1 DTM模型的介紹 114
    7.3.2 DTM模型的優(yōu)缺點(diǎn) 115
    7.3.3 DTM模型的Python實(shí)踐 116
    本章小結(jié) 119
    本章習(xí)題 120
    第8章 文本分類(lèi) 121
    本章導(dǎo)讀 121
    本章要點(diǎn) 121
    8.1 文本分類(lèi)介紹 121
    8.1.1 文本分類(lèi)的定義 121
    8.1.2 文本分類(lèi)的發(fā)展歷史 122
    8.1.3 文本分類(lèi)的應(yīng)用場(chǎng)景 122
    8.1.4 文本分類(lèi)的流程 123
    8.2 基于機(jī)器學(xué)習(xí)算法的文本分類(lèi) 124
    8.2.1 機(jī)器學(xué)習(xí)算法 124
    8.2.2 集成學(xué)習(xí)算法 127
    8.2.3 基于機(jī)器學(xué)習(xí)算法的文本分類(lèi)的
       Python實(shí)踐 128
    8.3 基于深度學(xué)習(xí)的文本分類(lèi) 133
    8.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)分類(lèi)器 133
    8.3.2 基于深度學(xué)習(xí)的文本分類(lèi)的Python
       實(shí)踐 135
    本章小結(jié) 139
    本章習(xí)題 139
    第9章 情感分析 140
    本章導(dǎo)讀 140
    本章要點(diǎn) 140
    9.1 情感分析介紹 140
    9.1.1 情感分析的發(fā)展歷史 140
    9.1.2 情感分析的應(yīng)用場(chǎng)景 141
    9.1.3 情感分析的方法 142
    9.2 基于情感詞典的情感分析 143
    9.2.1 基于情感詞典的情感分析方法步驟 143
    9.2.2 情感詞典 144
    9.2.3 基于情感詞典的情感分析的優(yōu)缺點(diǎn) 146
    9.2.4 基于情感詞典的情感分析的Python
       實(shí)踐 146
    9.3 基于機(jī)器學(xué)習(xí)的情感分析 153
    9.3.1 基于機(jī)器學(xué)習(xí)的情感分析的定義 153
    9.3.2 基于機(jī)器學(xué)習(xí)的情感分析的流程 153
    9.3.3 基于機(jī)器學(xué)習(xí)的情感分析的Python
       實(shí)踐 154
    9.4 基于Python庫(kù)的情感分析 157
    9.4.1 可用于情感分析的Python庫(kù) 157
    9.4.2 基于Python庫(kù)進(jìn)行情感分析的分析
       實(shí)踐 158
    本章小結(jié) 160
    本章習(xí)題 161
    第10章 詞網(wǎng)絡(luò)分析 162
    本章導(dǎo)讀 162
    本章要點(diǎn) 162
    10.1 詞網(wǎng)絡(luò)分析介紹 162
    10.1.1 詞網(wǎng)絡(luò)分析的定義 162
    10.1.2 詞網(wǎng)絡(luò)分析的發(fā)展歷史 163
    10.1.3 詞網(wǎng)絡(luò)分析的應(yīng)用場(chǎng)景 164
    10.1.4 詞網(wǎng)絡(luò)分析的方法 165
    10.2 詞網(wǎng)絡(luò)構(gòu)建 165
    10.2.1 詞共現(xiàn)網(wǎng)絡(luò)構(gòu)建的方法 165
    10.2.2 詞共現(xiàn)網(wǎng)絡(luò)構(gòu)建的Python實(shí)踐 166
    10.3 詞網(wǎng)絡(luò)描述分析 169
    10.3.1 詞網(wǎng)絡(luò)描述分析指標(biāo)介紹 169
    10.3.2 詞網(wǎng)絡(luò)描述分析的Python實(shí)踐 171
    10.4 詞網(wǎng)絡(luò)社群發(fā)現(xiàn) 173
    10.4.1 社群發(fā)現(xiàn)算法 173
    10.4.2 詞網(wǎng)絡(luò)社群發(fā)現(xiàn)的Python實(shí)踐 176
    本章小結(jié) 180
    本章習(xí)題 181
    第11章 A型汽車(chē)消費(fèi)者評(píng)論數(shù)據(jù)分析 182
    本章導(dǎo)讀 182
    本章要點(diǎn) 182
    11.1 案例背景 182
    11.2 數(shù)據(jù)說(shuō)明 182
    11.3 情感分析 183
    11.4 詞云圖分析 185
    本章小結(jié) 188
    本章習(xí)題 188
    第12章 子女教育問(wèn)題文本信息分析 189
    本章導(dǎo)讀 189
    本章要點(diǎn) 189
    12.1 案例背景 189
    12.2 數(shù)據(jù)說(shuō)明 189
    12.3 情感分析 190
    12.4 主題模型 192
    本章小結(jié) 194
    本章習(xí)題 194
    第13章 基于密度聚類(lèi)的公眾留言熱點(diǎn)話題研究 195
    本章導(dǎo)讀 195
    本章要點(diǎn) 195
    13.1 案例背景 195
    13.2 數(shù)據(jù)說(shuō)明 196
    13.3 數(shù)據(jù)整理 197
    13.3.1 文本分詞 197
    13.3.2 文本向量化 199
    13.4 基于密度聚類(lèi)的熱點(diǎn)話題研究 200
    本章小結(jié) 202
    本章習(xí)題 203
    第14章 前沿介紹 204
    本章導(dǎo)讀 204
    本章要點(diǎn) 204
    14.1 前沿概覽 204
    14.2 大語(yǔ)言模型 206
    14.2.1 大語(yǔ)言模型介紹 206
    14.2.2 大語(yǔ)言模型技術(shù)要點(diǎn) 208
    14.2.3 生成式人工智能 211
    14.3 大語(yǔ)言模型實(shí)踐 212
    14.3.1 大語(yǔ)言模型部署方法 212
    14.3.2 提示詞工程 215
    14.3.3 大語(yǔ)言模型實(shí)踐案例 217
    本章小結(jié) 220
    本章習(xí)題 221
    參考文獻(xiàn) 222





最新評(píng)論共有 0 位網(wǎng)友發(fā)表了評(píng)論
發(fā)表評(píng)論
評(píng)論內(nèi)容:不能超過(guò)250字,需審核,請(qǐng)自覺(jué)遵守互聯(lián)網(wǎng)相關(guān)政策法規(guī)。
用戶(hù)名: 密碼:
匿名?
注冊(cè)
静乐县| 彩票| 湟源县| 海淀区| 封丘县| 嘉峪关市| 江津市| 武陟县| 通州区| 天门市| 安远县| 北票市| 达日县| 清徐县| 高唐县| 旬阳县| 宁海县| 镇巴县| 四子王旗| 庆城县| 牡丹江市| 仁寿县| 克拉玛依市| 察雅县| 迁西县| 兰西县| 闵行区| 宜黄县| 黔江区| 商南县| 清涧县| 利辛县| 雷州市| 文山县| 页游| 清苑县| 福州市| 乌拉特后旗| 娄烦县| 民和| 泊头市|