熱門關(guān)鍵字:  聽力密碼  單詞密碼  新概念美語  巧用聽寫練聽力  零起點(diǎn)

基于潛在語義的個(gè)性化搜索關(guān)鍵技術(shù)研究

中國水利水電出版社
    【作 者】陳冬玲 著 【I S B N 】978-7-5170-1031-9 【責(zé)任編輯】陳潔 【適用讀者群】本專通用 【出版時(shí)間】2013-08-26 【開 本】16開 【裝幀信息】平裝(光膜) 【版 次】第1版第1次印刷 【頁 數(shù)】152 【千字?jǐn)?shù)】170 【印 張】9.5 【定 價(jià)】36 【叢 書】暫無分類 【備注信息】
圖書詳情

    隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,信息爆炸所產(chǎn)生的個(gè)人信息疲勞和信息壓力使搜索引擎變得越來越重要,搜索引擎已經(jīng)成為名副其實(shí)的信息樞紐和信息門戶,是用戶獲取網(wǎng)絡(luò)信息的首選工具。然而,在搜索引擎返回的巨大的結(jié)果列表中,只有一小部分信息符合用戶的偏好,甚至在top K結(jié)果中,沒有符合用戶偏好的信息。面對(duì)如此窘境,我們不得不重新審視,究竟如何才能為用戶提供符合其偏好的個(gè)性化信息?

    本文分析其主要原因在于,沒有真正理解用戶查詢背后的潛在語義動(dòng)機(jī),不清楚用戶要做什么,故無法為其提供高質(zhì)量的個(gè)性化服務(wù)。

    搜索引擎直接面對(duì)知識(shí)背景及搜索意圖各異的用戶,因此,不可能有一種普適的查詢方式,能弄清楚不同用戶輸入同一查詢?cè)~,他們各自的潛在動(dòng)機(jī)分別是什么,他們到底想要得到什么樣的信息。例如:用戶輸入“東北大學(xué)”,其可能是想隨機(jī)了解一些東北大學(xué)的普遍信息,也可能是想查詢今年的招生政策,還可能是想了解外界對(duì)東北大學(xué)有些什么評(píng)價(jià)。由此可見,用戶的潛在語義動(dòng)機(jī)理解是個(gè)性化搜索的基石,如該環(huán)節(jié)理解得不夠準(zhǔn)確,與用戶實(shí)際需求匹配性不高,那么后續(xù)進(jìn)行的個(gè)性化服務(wù)工作就有可能誤入歧途。在實(shí)際查詢中,輸入“關(guān)鍵詞”是用戶在搜索中的第一步,代表了用戶對(duì)于自身的搜索需求的TAG化表述,互聯(lián)網(wǎng)“全息搜索理論”創(chuàng)始人順風(fēng)認(rèn)為:需要深刻的認(rèn)識(shí)到在傳統(tǒng)搜索系統(tǒng)中“關(guān)鍵詞”在用戶心中產(chǎn)生的過程和搜索輸出之間的相互關(guān)系,發(fā)現(xiàn)在用戶搜索動(dòng)機(jī)、搜索前思維量與搜索引擎反饋之間的全息聯(lián)系,用戶輸入的“關(guān)鍵詞”實(shí)際上就是一個(gè)將心算出的TAG引入搜索行為的過程,而且此類TAG應(yīng)該成為最有質(zhì)量的TAG,因?yàn)槠渲心哿怂阉饔脩舻谝环从车臒o意識(shí)性的內(nèi)心智慧。搜索引擎只有準(zhǔn)確把握用戶的搜索動(dòng)機(jī),才能有的放矢地為其提供高質(zhì)量的個(gè)性化服務(wù)。

    基于上述分析,本文從用戶潛在語義的用戶動(dòng)機(jī)分析入手,并以此為主線,對(duì)多種個(gè)性化服務(wù)關(guān)鍵技術(shù)進(jìn)行了研究,主要工作包括以下幾個(gè)方面:

    (1)在計(jì)算機(jī)研究領(lǐng)域內(nèi),從哲學(xué)、心理學(xué)角度剖析用戶搜索行為,并從認(rèn)知學(xué)的角度,提出了基于概率潛在語義動(dòng)機(jī)分析的用戶行為模型,高度概括了各種具體搜索行為,從抽象的角度去理解用戶的搜索行為。該模型的提出為進(jìn)一步研究個(gè)性化搜索提供了新的思路。

    (2)在文檔潛在語義空間中,應(yīng)用Zipf分布與概率潛在語義分析算法相結(jié)合的方式進(jìn)行文檔潛在主題提取,改善了文檔潛在主題提取的質(zhì)量。

    (3)以狄氏先驗(yàn)的有限混合模型理論為基礎(chǔ),提出了高效無監(jiān)督的網(wǎng)頁聚類算法。可以有效克服一般的文本聚類算法無法有效應(yīng)對(duì)的高維性、稀疏性文本,以及文本數(shù)據(jù)之間的相似性函數(shù)定義困難,聚類質(zhì)量和效率低等不足,改善了聚類效果,提高了捕獲用戶興趣潛在主題需求的能力。

    (4)提出了一種新的基于用戶潛在語義分析的查詢擴(kuò)展技術(shù)。即將通用搜索中查詢擴(kuò)展的技術(shù)與用戶動(dòng)機(jī)挖掘技術(shù)相結(jié)合,而開發(fā)出的一種新的查詢擴(kuò)展技術(shù),解決了搜索引擎由于通用的性質(zhì)而缺乏面向用戶的個(gè)性化的信息處理的能力,從了解用戶的語義上的搜索動(dòng)機(jī)以及了解認(rèn)知與心理相互作用的角度出發(fā),從根本上解決了查詢過程中的一詞多義及多詞同義等問題,在個(gè)性化搜索過程中有效的進(jìn)行語義消歧。

    (5)針對(duì)面向查詢的排名算法的不足提出了面向用戶的重排名算法。即在原有網(wǎng)頁排序算法的基礎(chǔ)上,根據(jù)用戶的興趣偏好而提出的一種局部優(yōu)化排序算法,既符合用戶的個(gè)性化需求,又不影響搜索結(jié)果的查全率,盡可能做到其排序結(jié)果與用戶語義動(dòng)機(jī)相符合。

    總之,本文從用戶潛在語義動(dòng)機(jī)的理解出發(fā),針對(duì)個(gè)性化搜索各個(gè)環(huán)節(jié)中的關(guān)鍵技術(shù)展開研究,如用戶建模技術(shù)、查詢擴(kuò)展技術(shù)、網(wǎng)頁局部優(yōu)化排序技術(shù)、聚類技術(shù)等,力求達(dá)到用戶查詢與搜索引擎返回結(jié)果的高效匹配。

    前言
    第1章 緒論 1
    1.1 搜索引擎體系結(jié)構(gòu)及功能 1
    1.1.1 信息的收集 2
    1.1.2 信息預(yù)處理 2
    1.1.3 查詢服務(wù) 2
    1.2 個(gè)性化搜索引擎 2
    1.2.1 個(gè)性化搜索引擎的體系結(jié)構(gòu) 2
    1.2.2 個(gè)性化搜索關(guān)鍵技術(shù) 4
    1.2.3 個(gè)性化搜索研究現(xiàn)狀 9
    1.2.4 個(gè)性化搜索面臨的問題與挑戰(zhàn) 16
    1.3 本文研究的主要內(nèi)容 18
    1.4 本文的組織結(jié)構(gòu) 20
    第2章 基于概率潛在語義的用戶模型構(gòu)造 21
    2.1 問題提出 21
    2.2 用戶模型研究綜述 23
    2.2.1 用戶模型的創(chuàng)建技術(shù)研究 23
    2.2.2 用戶模型的學(xué)習(xí)與更新技術(shù)研究 27
    2.2.3 用戶模型應(yīng)用技術(shù)的研究 29
    2.3 用戶搜索行為的理論分析 29
    2.3.1 從認(rèn)知角度分析用戶的搜索行為 29
    2.3.2 用戶搜索行為的不確定性 33
    2.3.3 用戶搜索行為分析的邏輯框架 34
    2.4 用戶動(dòng)機(jī)分析的兩類不確定問題 36
    2.5 基于PLSA的潛在概念獲取與用戶模型構(gòu)建 37
    2.5.1 概率潛在語義分析 37
    2.5.2 潛在語義空間的Zipf分布 38
    2.5.3 基于PLSA的用戶動(dòng)機(jī)建模 39
    2.5.4 用戶模型的學(xué)習(xí)與更新 43
    2.6 實(shí)驗(yàn)及評(píng)價(jià) 45
    2.6.1 數(shù)據(jù)集 45
    2.6.2 評(píng)價(jià)標(biāo)準(zhǔn) 47
    2.6.3 實(shí)驗(yàn)結(jié)果及分析 48
    2.7 本章小結(jié) 51
    第3章 基于有限混合模型的文本聚類 53
    3.1 問題提出 53
    3.2 傳統(tǒng)聚類算法的概述 54
    3.2.1 基于相似性的聚類方法 55
    3.2.2 基于模型的聚類 58
    3.2.3 各類算法的對(duì)比分析 59
    3.3 傳統(tǒng)聚類方式在個(gè)性化搜索中存在的問題 60
    3.4 基于有限混合主題模型的文檔聚類分析 62
    3.4.1 有限混合模型 62
    3.4.2 EM算法 63
    3.4.3 基于有限混合模型的文檔聚類 68
    3.5 實(shí)驗(yàn)及評(píng)價(jià) 73
    3.5.1 實(shí)驗(yàn)數(shù)據(jù)集 73
    3.5.2 評(píng)價(jià)標(biāo)準(zhǔn) 74
    3.5.3 實(shí)驗(yàn)結(jié)果及分析 74
    3.6 本章小結(jié) 78
    第4章 基于用戶潛在語義動(dòng)機(jī)的查詢擴(kuò)展 79
    4.1 問題提出 79
    4.2 現(xiàn)有的查詢擴(kuò)展方法概述 80
    4.2.1 基于大規(guī)模語料庫的查詢擴(kuò)展方法 80
    4.2.2 基于語義關(guān)系/語義結(jié)構(gòu)的查詢擴(kuò)展方法 84
    4.3 目前查詢擴(kuò)展方法的不足 87
    4.4 基于潛在語義動(dòng)機(jī)的查詢擴(kuò)展 88
    4.4.1 ULSM-QE的框架 88
    4.4.2 查詢?cè)~處理 90
    4.4.3 查詢語義動(dòng)機(jī)分析 90
    4.4.4 相關(guān)度計(jì)算 94
    4.4.5 查詢?cè)~的語義消歧 95
    4.4.6 生成新查詢 98
    4.5 實(shí)驗(yàn)及評(píng)價(jià) 101
    4.5.1 數(shù)據(jù)集 101
    4.5.2 評(píng)價(jià)標(biāo)準(zhǔn) 102
    4.5.3 實(shí)驗(yàn)結(jié)果及分析 103
    4.6 本章小結(jié) 109
    第5章 基于用戶偏好的網(wǎng)頁排序局部優(yōu)化策略 110
    5.1 問題提出 110
    5.2 傳統(tǒng)網(wǎng)頁排序算法介紹 111
    5.2.1 PageRank算法及其衍生算法 111
    5.2.2 HITS算法 113
    5.3 傳統(tǒng)排序算法存在的問題 114
    5.4 基于用戶偏好的網(wǎng)頁排序 116
    5.4.1 UP-PR框架 117
    5.4.2 查詢?cè)~的主題分類 119
    5.4.3 網(wǎng)頁的主題分類 120
    5.4.4 參數(shù)的選擇 122
    5.5 實(shí)驗(yàn)及評(píng)價(jià) 123
    5.5.1 數(shù)據(jù)集 123
    5.5.2 評(píng)價(jià)標(biāo)準(zhǔn) 124
    5.5.3 實(shí)驗(yàn)結(jié)果及分析 124
    5.6 本章小結(jié) 128
    第6章 結(jié)論 129
    6.1 本文的主要貢獻(xiàn)與結(jié)論 129
    6.2 進(jìn)一步的工作 130
    參考文獻(xiàn) 132
    作者簡介 142
最新評(píng)論共有 0 位網(wǎng)友發(fā)表了評(píng)論
發(fā)表評(píng)論
評(píng)論內(nèi)容:不能超過250字,需審核,請(qǐng)自覺遵守互聯(lián)網(wǎng)相關(guān)政策法規(guī)。
用戶名: 密碼:
匿名?
注冊(cè)
武山县| 西丰县| 兰西县| 新竹市| 红安县| 保靖县| 怀宁县| 旌德县| 丹棱县| 石棉县| 揭阳市| 天全县| 会理县| 黄冈市| 井陉县| 社会| 武山县| 乌兰县| 崇左市| 莒南县| 福鼎市| 绥芬河市| 平顶山市| 浦城县| 迁西县| 邻水| 调兵山市| 青冈县| 大方县| 福建省| 准格尔旗| 密山市| 中阳县| 左贡县| 工布江达县| 松溪县| 乌鲁木齐县| 区。| 湖南省| 财经| 保德县|