熱門關(guān)鍵字:  聽力密碼  單詞密碼  新概念美語  巧用聽寫練聽力  零起點
圖書信息

文本分類中的幾個關(guān)鍵問題研究

中國水利水電出版社
    【作 者】裴志利 【I S B N 】978-7-5170-3115-4 【責(zé)任編輯】張玉玲 【適用讀者群】本專通用 【出版時間】2015-05-19 【開 本】16開 【裝幀信息】平裝(光膜) 【版 次】第1版第1次印刷 【頁 數(shù)】96 【千字數(shù)】105 【印 張】6 【定 價】25 【叢 書】 【備注信息】
圖書詳情

    本書基于數(shù)據(jù)挖掘的相關(guān)技術(shù)做了如下幾個方面的工作:①針對標準互信息和tf.idf特征權(quán)重公式的缺點提出了改進方法,改進的方法明顯提高了宏觀準確率、宏觀召回率和宏觀F1值;②針對標準tf.idf方法估算特征權(quán)重的盲目性,提出了基于實數(shù)域粗糙集理論的特征頻率重要度加權(quán)方法,該方法改善了樣本空間的分布狀態(tài),明顯提高了文本分類的效果;③提出了一種基于互信息和信息熵對的特征選擇方法,利用該方法進行特征選擇的分類效果接近代表分類水平的支持向量機;④提出了基于粗糙集的多知識粒度的啟發(fā)式屬性約簡方法,通過引入悲觀和樂觀多粒度函數(shù),有效提高了分類的效率和準確率;⑤研究了基于深度學(xué)習(xí)的主要模型,并選擇其中的Autoencoder進行文本分類研究,在語料庫20NG上進行了驗證,證明了方法的有效性。

    近幾十年來,隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,極大地方便了人們的交流與溝通,但是技術(shù)的進步和發(fā)展也使得互聯(lián)網(wǎng)上出現(xiàn)了海量的文本資源,而對于互聯(lián)網(wǎng)用戶來說,出現(xiàn)了擁有海量信息但知識相對貧乏的現(xiàn)象,從而導(dǎo)致人們從海量的信息中獲取有意義的、相關(guān)性強的知識變得困難,因此將文本信息按照某些主題分類是一個迫切需要解決的問題。

    文本分類(Text Classification)是指依據(jù)文本的內(nèi)容,由計算機根據(jù)某種分類算法,把文本判分為預(yù)先定義好的一個或多個類別的過程。文本分類作為信息處理的一個重要環(huán)節(jié),已經(jīng)成為信息技術(shù)領(lǐng)域的一個主要研究方向。文本分類技術(shù)的出現(xiàn),使文檔可以自動地按照類別組織和處理,符合人類組織和處理信息的方式,方便了人們準確地定位所需的信息。同時,作為信息過濾、信息檢索、搜索引擎等領(lǐng)域的技術(shù)基礎(chǔ),文本分類技術(shù)有著廣泛的應(yīng)用前景。

    20世紀50年代末開始,H.P.Lunhn等人對文本分類的工作進行了開創(chuàng)性的研究。1961年,第一篇關(guān)于自動文本分類的文章《Automatic indexing: an experimental inquiry》(Maron)發(fā)表,隨后很多學(xué)者進入了這一領(lǐng)域的研究。20世紀80年代末之前,知識工程專家規(guī)則仍是自動文本分類的主要方法。到了90年代,隨著可用文本數(shù)據(jù)量的不斷增長,機器學(xué)習(xí)和統(tǒng)計方法被引入自動文本分類技術(shù)中,分類結(jié)果比基于知識工程專家規(guī)則的自動文本分類方法取得了長足的發(fā)展,并成為了主流研究方向。

    基于機器學(xué)習(xí)的文本分類方法中主要采用向量空間模型VSM(Vector Space Model),這個模型的關(guān)鍵技術(shù)有三個方面:特征選擇、特征權(quán)重估算、文本分類器設(shè)計。目前的相關(guān)研究工作主要是針對以上三個方面的關(guān)鍵技術(shù)進行討論的。文本分類是一個系統(tǒng)工程,其中最重要的一個環(huán)節(jié)是特征選擇。特征選擇是指從高維的文本特征空間中選擇出最能代表文本內(nèi)容的特征詞,特征選擇技術(shù)一方面能夠降低文本特征空間的維數(shù),大大提高文本分類的效率;另一方面通過消除無效的特征詞,提高文本分類的精度。在實際的語料庫中,我們通常選取一個詞作為一個特征,將文本抽象成向量空間中的一個點是對文本進行結(jié)構(gòu)化表示的一個重要步驟,由于文本中的詞語很多,就會造成特征空間的維數(shù)災(zāi)難,面對如此高維的特征空間,如果不進行特征空間的優(yōu)化處理,那么任何分類算法都是無法承受的,所以尋找優(yōu)秀的特征選擇方法就是必要和有用的。

    近幾十年來,伴隨著信息技術(shù)的發(fā)展,人們產(chǎn)生和收集數(shù)據(jù)的能力迅速提高,數(shù)據(jù)的規(guī)模急劇增加,傳統(tǒng)的統(tǒng)計分析技術(shù)由于其自身的局限性,以及海量數(shù)據(jù)的復(fù)雜性、異構(gòu)性、動態(tài)性,使得隱藏在數(shù)據(jù)中間的、有用的知識難以被發(fā)現(xiàn),因此出現(xiàn)了“數(shù)據(jù)豐富而信息缺乏”的現(xiàn)象。人們希望能夠有新的工具自動地分析和整理如此龐大和復(fù)雜的數(shù)據(jù),從中發(fā)現(xiàn)有價值的信息,為決策提供必要的支持。面對這一挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)便應(yīng)運而生了。

    數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),是指從海量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中抽取出潛在的、有效的、新穎的、有用的和最終可以理解和運用的知識的過程。數(shù)據(jù)挖掘是一門涉及面很廣的交叉學(xué)科,包括機器學(xué)習(xí)、數(shù)理統(tǒng)計、人工智能、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫、模式識別、粗糙集和模糊數(shù)學(xué)等相關(guān)技術(shù),它的主要任務(wù)是對數(shù)據(jù)進行關(guān)聯(lián)分析、分類、聚類、預(yù)測、孤立點分析、演變分析等。盡管數(shù)據(jù)挖掘技術(shù)還有許多懸而未決的問題,但它廣泛的應(yīng)用前景和巨大的商業(yè)魅力,吸引了眾多學(xué)者極大的研究熱情和產(chǎn)業(yè)界人士的廣泛關(guān)注。

    很多數(shù)據(jù)挖掘技術(shù)在自動文本分類中得到了廣泛的應(yīng)用。文本分類中的核心問題是構(gòu)造分類器,分類器需要通過某種算法進行學(xué)習(xí)獲得。在文本分類中,幾乎存在著和一般分類同樣多的方法,主要的方法有:Rocchio算法、樸素貝葉斯算法(Naive Bayesian,NB)、K-近鄰算法(K-nearest neighbor,KNN)、DT算法、ANN算法和SVM等算法。文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),可以在很大程度上解決信息的雜亂問題,對于信息的高效管理和有效利用都具有極其重要的意義,并且已成為數(shù)據(jù)挖掘領(lǐng)域中一個重要的研究方向。因此,文本分類與數(shù)據(jù)挖掘相結(jié)合也就成了必然。

    基于機器學(xué)習(xí)的文本分類技術(shù)經(jīng)過幾十年的發(fā)展,已能較好地解決了大部分具有數(shù)據(jù)量相對較小、標注比較完整及數(shù)據(jù)分布相對均勻等特點的問題和應(yīng)用。但是,自動文本分類技術(shù)的大規(guī)模應(yīng)用仍有很多關(guān)鍵問題沒有得到很好的解決,這些問題的解決不僅可以使文本分類技術(shù)盡快進入應(yīng)用階段,同時也為很多學(xué)者提供了明確的研究方向。

    在上述背景下,有必要利用數(shù)據(jù)挖掘方法在文本分類領(lǐng)域做一些有益的嘗試工作。本書受到國家自然科學(xué)基金項目(61163034,61373067)資助,鑒于作者水平有限,書中難免存在錯誤之處,敬請讀者批評、指正。

    作者

    2014年12月28日

    于內(nèi)蒙古民族大學(xué)計算機科學(xué)與技術(shù)學(xué)院

    第1章 緒論 1
    1.1 數(shù)據(jù)挖掘技術(shù)簡介 1
    1.1.1 數(shù)據(jù)挖掘的背景介紹 1
    1.1.2 數(shù)據(jù)挖掘的研究現(xiàn)狀 1
    1.1.3 數(shù)據(jù)挖掘的相關(guān)知識 3
    1.1.4 數(shù)據(jù)挖掘的應(yīng)用和研究方向 7
    1.2 數(shù)據(jù)挖掘技術(shù)在文本分類中的應(yīng)用 8
    1.2.1 數(shù)據(jù)挖掘技術(shù)在文本分類中的應(yīng)用 8
    1.2.2 文本分類的應(yīng)用和展望 9
    1.3 本書工作 11
    第2章 基于改進互信息和特征權(quán)重的文本分類方法 13
    2.1 背景介紹 13
    2.2 特征選擇前的低頻特征預(yù)處理 15
    2.3 改進互信息的特征選擇方法 16
    2.3.1 互信息方法 16
    2.3.2 互信息公式的改進 17
    2.4 改進的特征權(quán)重的估計方法 19
    2.4.1 tf.idf方法 19
    2.4.2 改進的tf.idf方法 19
    2.5 模擬實驗 21
    2.5.1 評價方法 21
    2.5.2 實驗結(jié)果 22
    2.6 本章小結(jié) 25
    第3章 基于互信息和信息熵對的特征選擇方法 26
    3.1 背景介紹 26
    3.2 特征選擇方法 27
    3.2.1 互信息方法 27
    3.2.2 信息熵和信息熵對 27
    3.2.3 基于互信息和信息熵對的特征選擇方法 28
    3.3 仿真實驗 29
    3.3.1 數(shù)據(jù)集 29
    3.3.2 評價方法 30
    3.3.3 實驗結(jié)果 30
    3.4 本章小結(jié) 34
    第4章 基于實數(shù)域粗糙集特征加權(quán)的文本分類方法 35
    4.1 引言 35
    4.2 基于實數(shù)域粗糙集理論的幾個定義 35
    4.3 基于實數(shù)域粗糙集理論的改進特征加權(quán)公式 37
    4.3.1 tf.idf方法 37
    4.3.2 改進的tf.idf方法 37
    4.4 實驗結(jié)果和分析 40
    4.5 本章小結(jié) 43
    第5章 基于多粒度粗糙集的啟發(fā)式屬性約簡 44
    5.1 引言 44
    5.2 粗糙集基本概念 45
    5.2.1 上近似集和下近似集 45
    5.2.2 不可區(qū)分關(guān)系 45
    5.2.3 信息系統(tǒng)和決策信息系統(tǒng) 45
    5.2.4 屬性約簡 45
    5.3 多粒度粗糙集模型 46
    5.3.1 悲觀多粒度下近似和上近似 46
    5.3.2 樂觀多粒度下近似和上近似 46
    5.4 基于多粒度粗糙集模型構(gòu)造新的知識粒度函數(shù) 46
    5.4.1 基于多粒度屬性重要度的屬性約簡 46
    5.4.2 基于多知識粒度的啟發(fā)式屬性約簡算法 48
    5.5 實驗結(jié)果與分析 48
    5.5.1 選取語料集 48
    5.5.2 語料預(yù)處理 49
    5.5.3 評價指標 49
    5.6 本章小結(jié) 50
    第6章 基于深度學(xué)習(xí)的文本分類 51
    6.1 背景介紹 51
    6.1.1 研究背景及意義 51
    6.1.2 研究現(xiàn)狀 52
    6.1.3 本章的研究內(nèi)容 53
    6.2 文本分類技術(shù)及深度學(xué)習(xí)相關(guān)技術(shù) 54
    6.2.1 文本預(yù)處理過程 54
    6.2.2 文本的數(shù)學(xué)表示模型 55
    6.2.3 常用的文本分類算法 57
    6.2.4 深度學(xué)習(xí)的相關(guān)技術(shù) 60
    6.3 基于單個自動編碼器的文本分類 61
    6.3.1 自動編碼器結(jié)構(gòu) 63
    6.3.2 實驗數(shù)據(jù)分析 65
    6.4 基于多個自動編碼器的文本研究 70
    6.4.1 基于多個自編碼器分類的理論研究 70
    6.4.2 實驗結(jié)果分析 71
    6.5 本章小結(jié) 75
    第7章 結(jié)論和展望 76
    參考文獻 78





最新評論共有 0 位網(wǎng)友發(fā)表了評論
發(fā)表評論
評論內(nèi)容:不能超過250字,需審核,請自覺遵守互聯(lián)網(wǎng)相關(guān)政策法規(guī)。
用戶名: 密碼:
匿名?
注冊
安顺市| 含山县| 石棉县| 尚义县| 丹寨县| 美姑县| 八宿县| 崇信县| 堆龙德庆县| 禹城市| 龙井市| 枣强县| 万全县| 蕲春县| 洪洞县| 蒲江县| 会昌县| 曲阳县| 阿瓦提县| 伊春市| 阜新| 天长市| 宜良县| 桐庐县| 西安市| 尉氏县| 疏勒县| 鄂尔多斯市| 青州市| 来宾市| 长宁区| 于都县| 仁怀市| 仙居县| 唐河县| 河西区| 永修县| 遵义市| 开化县| 图片| 潼南县|