數(shù)據(jù)挖掘技術(shù)在生物信息學(xué)中的應(yīng)用
簡介
本書特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關(guān)圖書
主要采用一些數(shù)據(jù)挖掘的技術(shù)和方法在生物信息學(xué)領(lǐng)域做了如下幾個方面的工作:提出了一種基于可變精度粗糙集理論為新的生物序列進(jìn)行功能注釋的方法;初步判斷四個種群,即尼日利亞Ibadan的Yoruba人、東京的日本人、北京的漢族、祖籍為歐洲西部和北部地區(qū)的美國居民在21號染色體上對疾病的易感程度的差距;提出了一種基于Y染色體SNP基因型頻率數(shù)據(jù)建立人類種群進(jìn)化關(guān)系的新方法,提出的方法支持“走出非洲”假說,為人類種群進(jìn)化研究提供了一個新思路;使用自組織特征映射模型(SOM)有效預(yù)測了蛋白質(zhì)的亞細(xì)胞位置,從而推斷出蛋白質(zhì)分子的功能。
隨著包括人類基因組計劃在內(nèi)的生物基因組測序工程的里程碑式地進(jìn)展,由此產(chǎn)生的包括生物體生老病死的生物數(shù)據(jù)以前所未有的速度遞增,目前已達(dá)到每14個月翻一番的速度。同時隨著互聯(lián)網(wǎng)的普及,數(shù)以百計的生物學(xué)數(shù)據(jù)庫如雨后春筍般地迅速出現(xiàn)和成長。毫無疑問,我們正從一個積累數(shù)據(jù)的時代向解釋數(shù)據(jù)的時代轉(zhuǎn)變,數(shù)據(jù)量的巨大積累往往蘊(yùn)含著潛在突破性發(fā)現(xiàn)的可能。在此背景下出現(xiàn)了以計算機(jī)科學(xué)、信息技術(shù)和數(shù)學(xué)的理論及方法來研究生物信息的交叉學(xué)科,也就是生物信息學(xué)。該領(lǐng)域的核心內(nèi)容是研究如何通過對DNA序列的統(tǒng)計計算分析更加深入地理解DNA序列、結(jié)構(gòu)、演化及其與生物功能之間的關(guān)系,其研究課題涉及到分子生物學(xué)、分子演化、結(jié)構(gòu)生物學(xué),統(tǒng)計學(xué)和計算機(jī)科學(xué)等諸多領(lǐng)域。生物信息學(xué)是內(nèi)涵豐富的學(xué)科,其核心是基因組信息學(xué),包括基因組信息的獲取、處理、存儲、分配和解釋。基因組信息學(xué)的關(guān)鍵是“讀懂”基因組的核苷酸順序,即全部基因在染色體上的確切位置和各DNA片段的功能;同時在發(fā)現(xiàn)了新基因信息后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測,然后依據(jù)特定蛋白質(zhì)的功能進(jìn)行藥物設(shè)計。了解基因表達(dá)的調(diào)控機(jī)理也是生物信息學(xué)的重要內(nèi)容,根據(jù)生物分子在基因調(diào)控中的作用,描述人類疾病的診斷和治療的內(nèi)在規(guī)律,其研究目標(biāo)是揭示“基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律”,解釋生命的遺傳語言。生物信息學(xué)已成為整個生命科學(xué)發(fā)展的重要組成部分并成為生命科學(xué)研究的前沿。
生物信息學(xué)在短短十幾年時間里已經(jīng)形成了以下多個研究方向:序列比對、蛋白質(zhì)結(jié)構(gòu)比對和預(yù)測、基因識別非編碼區(qū)分析研究、分子進(jìn)化和比較基因組學(xué)、序列重疊群裝配、遺傳密碼的起源、基于結(jié)構(gòu)的藥物設(shè)計、生物圖像、基因表達(dá)譜分析,代謝網(wǎng)絡(luò)分析、基因芯片設(shè)計和蛋白質(zhì)組學(xué)數(shù)據(jù)分析等,逐漸成為生物信息學(xué)中新興的重要研究領(lǐng)域;在學(xué)科方面,由生物信息學(xué)衍生的學(xué)科(包括結(jié)構(gòu)基因組學(xué)、功能基因組學(xué)、比較基因組學(xué)、蛋白質(zhì)學(xué)、藥物基因組學(xué)、中藥基因組學(xué)、腫瘤基因組學(xué)、分子流行病學(xué)和環(huán)境基因組學(xué)),成為系統(tǒng)生物學(xué)的重要研究方法。從如今的發(fā)展不難看出,基因工程已經(jīng)進(jìn)入了后基因組時代。
大規(guī)模的生物信息給數(shù)據(jù)挖掘提出了新課題和挑戰(zhàn),需要新的思想加入。常規(guī)的計算機(jī)算法仍可以應(yīng)用于生物數(shù)據(jù)分析中,但越來越不適用于序列分析問題。究其原因是由于生物系統(tǒng)本質(zhì)上的模型復(fù)雜且缺乏在分子層上建立的完備的生命組織理論。數(shù)據(jù)挖掘使得利用計算機(jī)從海量的生物信息中提取有用知識、發(fā)現(xiàn)知識成為可能。機(jī)器學(xué)習(xí)方法在大樣本、多向量的數(shù)據(jù)分析工作中發(fā)揮著日益重要的作用,而目前大量的基因數(shù)據(jù)庫處理需要計算機(jī)能自動識別和標(biāo)注,以避免既耗時又花費(fèi)巨大的人工處理方法。因此,生物信息學(xué)與數(shù)據(jù)挖掘相結(jié)合也就成為了必然趨勢。機(jī)器學(xué)習(xí)加速了生物信息學(xué)的進(jìn)展,也帶來了相應(yīng)的問題。機(jī)器學(xué)習(xí)方法大多假定數(shù)據(jù)符合某種相對固定的模型,而一般數(shù)據(jù)結(jié)構(gòu)通常是可變的,在生物信息學(xué)中尤為突出。因此,有必要建立一套不依賴于假定數(shù)據(jù)結(jié)構(gòu)的一般性方法來尋找數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)。
生物信息學(xué)的挑戰(zhàn)很多,例如從蛋白質(zhì)的氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu)問題。這個難題已困擾理論生物學(xué)家達(dá)半個多世紀(jì),如今找到問題的答案的要求正變得日益迫切。諾貝爾獎獲得者W•Gilbert在1991年曾經(jīng)指出:“傳統(tǒng)生物學(xué)解決問題的方式是實(shí)驗(yàn)的。現(xiàn)在,基于全部基因都將知曉并以電子可操作的方式駐留在數(shù)據(jù)庫中,新的生物學(xué)研究模式的出發(fā)點(diǎn)應(yīng)該是理論的。一個科學(xué)家將從理論推測出發(fā),然后再回到實(shí)驗(yàn)中去追蹤或驗(yàn)證這些理論假設(shè)”。
在上述背景下,有必要利用數(shù)據(jù)挖掘的方法在生物信息學(xué)領(lǐng)域中做一些有益的嘗試工作。本著作受到國家自然科學(xué)基金項(xiàng)目(項(xiàng)目編號:61163034)資助。鑒于作者水平有限,書中難免有錯誤之處,敬請專家和廣大讀者指正。
作者
2011年11月19日
第1章 緒論 1
1.1 數(shù)據(jù)挖掘技術(shù)簡介 1
1.1.1 數(shù)據(jù)挖掘的背景介紹 1
1.1.2 數(shù)據(jù)挖掘的研究現(xiàn)狀 2
1.1.3 數(shù)據(jù)挖掘的相關(guān)知識 4
1.1.4 數(shù)據(jù)挖掘的應(yīng)用和研究方向 8
1.2 數(shù)據(jù)挖掘技術(shù)在生物信息學(xué)中的應(yīng)用 9
1.2.1 生物信息學(xué)的定義和研究范圍 9
1.2.2 生物信息學(xué)中的數(shù)據(jù)挖掘過程 11
1.2.3 數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用和展望 12
1.3 本書工作 13
第2章 基于可變精度粗糙集的基因功能預(yù)測方法 15
2.1 引言 15
2.2 GO術(shù)語屬性的離散化 17
2.2.1 定義和GO術(shù)語的屬性 17
2.2.2 GO術(shù)語屬性的離散化方法 18
2.3 GO術(shù)語的決策規(guī)則提取方法 20
2.3.1 可變精度粗糙集的相關(guān)定義 20
2.3.2 基于可變精度粗糙集的規(guī)則提取算法 22
2.4 規(guī)則提取實(shí)例 23
2.4.1 統(tǒng)計術(shù)語所在單元及所在單元的相關(guān)屬性 23
2.4.2 GO術(shù)語屬性的離散化 24
2.4.3 GO術(shù)語決策規(guī)則的提取 25
2.5 實(shí)驗(yàn)結(jié)果與分析 26
2.5.1 實(shí)驗(yàn)結(jié)果評價方法 26
2.5.2 實(shí)驗(yàn)數(shù)據(jù)集 26
2.5.3 實(shí)驗(yàn)結(jié)果和分析 27
2.6 本章小結(jié) 28
第3章 基于21號染色體四個種群的單體型差異比較研究 29
3.1 背景介紹 29
3.2 研究對象和數(shù)據(jù)來源 30
3.2.1 研究對象 30
3.2.2 數(shù)據(jù)來源 31
3.3 采用的研究方法 31
3.3.1 準(zhǔn)備數(shù)據(jù) 31
3.3.2 獲取四個種群的標(biāo)簽SNP文件 32
3.3.3 獲取四個種群的SNP單體型數(shù)據(jù)文件 33
3.4 四個種群單體型差距比較的數(shù)學(xué)模型 34
3.5 數(shù)據(jù)結(jié)果 35
3.6 結(jié)論 36
第4章 基于Y染色體SNP基因型頻率數(shù)據(jù)的種群進(jìn)化研究 37
4.1 引言 37
4.1.1 背景介紹 37
4.1.2 相關(guān)工作 38
4.2 單核苷酸多態(tài)性理論和國際單體型圖計劃介紹 39
4.2.1 單核苷酸多態(tài)性基礎(chǔ)理論 39
4.2.2 國際人類基因組單體型圖計劃介紹 43
4.3 系統(tǒng)進(jìn)化樹的構(gòu)建理論 43
4.3.1 人類起源學(xué)說 43
4.3.2 系統(tǒng)進(jìn)化樹 45
4.4 基于Y染色體SNP基因型頻率數(shù)據(jù)的種群進(jìn)化樹 49
4.4.1 研究對象和數(shù)據(jù)來源 49
4.4.2 采用的研究方法 50
4.5 模擬實(shí)驗(yàn) 55
4.6 本章小結(jié) 58
第5章 基于SOM算法的蛋白質(zhì)亞細(xì)胞位置預(yù)測研究 59
5.1 自組織特征映射SOM模型 59
5.2 SOM算法的具體步驟 59
5.3 SOM算法實(shí)際應(yīng)用中的幾個問題 60
5.3.1 數(shù)據(jù)歸一化 60
5.3.2 輸出節(jié)點(diǎn)的規(guī)模 61
5.3.3 鄰居節(jié)點(diǎn)范圍和距離函數(shù)的選擇 61
5.3.4 SOM加速算法Batch-Type SOM 62
5.4 實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)數(shù)據(jù) 63
5.5 實(shí)驗(yàn)結(jié)果評價方法 63
5.6 實(shí)驗(yàn)結(jié)果分析 64
5.6.1 算法有效性 64
5.6.2 不同實(shí)驗(yàn)集合的準(zhǔn)確率 64
5.6.3 Bacth-Type SOM的加速效果 65
5.7 結(jié)論 65
第6章 結(jié)論和展望 66
參考文獻(xiàn) 68
- 計算機(jī)應(yīng)用基礎(chǔ) [楊玉斌 戰(zhàn)祥德 孫豐偉]
- 計算機(jī)應(yīng)用基礎(chǔ)項(xiàng)目實(shí)訓(xùn)教程 [楊玉斌 戰(zhàn)祥德 孫豐偉]
- 計算機(jī)應(yīng)用基礎(chǔ)(第四版) [王向慧 王志飛]
- 計算機(jī)應(yīng)用基礎(chǔ)實(shí)訓(xùn)教程(第四版) [王向慧 張卓]
- 計算機(jī)應(yīng)用基礎(chǔ)與實(shí)踐(Windows 7平臺與Office 2016應(yīng)用) [主編 呂波 何敏]
- 計算機(jī)應(yīng)用技術(shù)基礎(chǔ)案例教程 [主編 周麗娟 王璐]
- 計算機(jī)應(yīng)用基礎(chǔ)(Windows 10+Office 2016) [主編 任洪亮 邢海燕]
- 計算機(jī)應(yīng)用基礎(chǔ) [周麗娟 紀(jì)淑芹 楊海波]
- 計算機(jī)應(yīng)用基礎(chǔ)實(shí)踐教程 [主編 楊海波 李燁平 周麗娟]
- 計算機(jī)應(yīng)用基礎(chǔ)教程(Windows 10+Office 2019) [主編 聶長浪 賀秋芳 李久仲]
- 計算機(jī)應(yīng)用基礎(chǔ)實(shí)訓(xùn)與習(xí)題指導(dǎo)(Windows 7+Office 2016) [周金容 唐天國]
- 計算機(jī)應(yīng)用基礎(chǔ)(Windows 7+Office 2016) [主編 王洪平 楊華]
- 計算機(jī)應(yīng)用基礎(chǔ)(Windows 10+Office 2016) [主編 陽曉霞 譚衛(wèi)]
- 計算機(jī)應(yīng)用基礎(chǔ)實(shí)訓(xùn)教程(第三版) [主 編 王向慧 康秀蘭]
- 計算機(jī)應(yīng)用基礎(chǔ)(第三版) [主 編 王向慧 康秀蘭]
- 計算機(jī)應(yīng)用基礎(chǔ) [主編 趙艷莉]
- 計算機(jī)應(yīng)用基礎(chǔ)(上冊、下冊) [主編 穆紅濤 姜亞軍]
- 新編計算機(jī)應(yīng)用基礎(chǔ)教程 [主編 戴毅 吳瑞芝 賈姍姍]
- 計算機(jī)應(yīng)用基礎(chǔ)教程(Windows 10+Office 2019) [主編 石利平 副主編 田輝平 ]
- 計算機(jī)應(yīng)用基礎(chǔ)實(shí)用教程(微課版) [主編 劉美麗 李軍]
- 計算機(jī)應(yīng)用基礎(chǔ) [主編 譚慧 楊志茹]
- 計算機(jī)應(yīng)用基礎(chǔ)實(shí)訓(xùn)教程 [主編 王蒙田 李衛(wèi)星]
- 計算機(jī)應(yīng)用基礎(chǔ)教程 [主 編 王蒙田 于康娟]
- 計算機(jī)應(yīng)用基礎(chǔ) [主編 劉芊 楊鳳霞]
- 計算機(jī)應(yīng)用基礎(chǔ)(Windows 7+Office 2010)(第二版) [主 編 李建軍]
- 計算機(jī)應(yīng)用技能教程——全國計算機(jī)等級考試一級MS Office 2010 [主編 石鐵峰 王祖?zhèn)? 宋家慧]
- 計算機(jī)應(yīng)用基礎(chǔ)教程(第三版)(Windows 7+Office 2010) [主編 聶長浪 賀秋芳 李久仲]
- 計算機(jī)應(yīng)用基礎(chǔ)實(shí)踐教程 [主 編 楊海波 李燁平]
- 計算機(jī)應(yīng)用基礎(chǔ) [主 編 周麗娟 紀(jì)淑芹]
- 計算機(jī)應(yīng)用基礎(chǔ)教程學(xué)習(xí)指導(dǎo)(Windows 7+Office 2010) [主編 劉俊華 吳燕]

