轉錄調控信息文本挖掘算法及實現(xiàn).pdf_第1頁
已閱讀1頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著轉錄調控領域相關數(shù)據(jù)則增加,國際上已出現(xiàn)有關調控區(qū),調控單元和轉錄因子和結合位點的數(shù)據(jù)庫,比較著名的有Transfac,Trrd,Jaspar等。然而大量的有關于轉錄調控信息主要以文獻形式存在于各文獻大數(shù)據(jù)庫中,比較大的生物文獻數(shù)據(jù)庫有PubMed,Medline等。如何從大量的生物文獻中挖掘轉錄調控信息是一項巨大的挑戰(zhàn)。目前,從生物文獻中挖掘轉錄調控信息主要以人工閱讀為主,人工閱讀的方式準確率高,但是效率相對較低、需要耗費大量的人

2、力。本文在數(shù)據(jù)挖掘、信息檢索、自然語言處理技術等基礎上提出兩個主要算法,旨在能夠利用計算機自動化地從生物文獻中挖掘轉錄因子、轉錄因子結合位點信息,從而為生物領域的工作者提供一定的幫助。
   第一個算法用于挖掘生物文獻中那些描述轉錄因子結合位點所在句子。該算法利用經(jīng)過人工閱讀標注的文本句子作為訓練數(shù)據(jù),將信息檢索中的空間向量模型VSM進行擴展、構造一個“問題網(wǎng)”Qnet。該“問題網(wǎng)”Qnet用一個有向圖來表示,每個節(jié)點代表句子中

3、的具有特定詞性POS的特征詞、每條邊則代表句子中的二元短語,經(jīng)過訓練的“問題網(wǎng)”Qnet可以大致地反映那些描述轉錄因子結合位點句子的描寫特征。對于待挖掘的文本句子,只需將其要與“問題網(wǎng)'Qnet進行句子相似性打分,那些得分較高的句子則被認為是“問題網(wǎng)”Qnet的正確解答,即轉錄因子結合位點句子。
   第二個算法在“問題網(wǎng)”Qnet算法的基礎上進行了改進。算法首先利用人工標注的文本句子構造轉錄調控信息上下文無關文法CFG,利用動

4、態(tài)優(yōu)化算法Earley剖析句子中的名詞短語、動詞短語、形容詞短語、介詞短語。根據(jù)轉錄因子、轉錄因子結合位點所在的名詞短語分析連接它們的動詞短語特征,這些動詞短語特征將被作為描述轉錄調控動作的知識庫模型VPK。對于待挖掘的文本句子,首先轉化為擴展的特征向量EV,然后與訓練好的“問題網(wǎng)”Qnet進行向量的余玄值計算,那些相似性較高的句子才進入句子剖析階段,否則相似性低的句子將被忽略。利用Earley算法得到該句子的名詞短語、動詞短語等,那些

5、出現(xiàn)在名詞短語中的中心名詞將作為轉錄因子、結合位點的候選,而連接名詞短語的動詞短語則需要與VPK比較,只有那些匹配成功的動詞短語,我們再展開其所在句子的名詞短語中的中心詞作為相應的轉錄因子、轉錄因子結合位點。
   所有算法利用Java作為實現(xiàn)語言,并且開發(fā)成圖形化工具。經(jīng)過試驗證明,本文提出的兩個算法的查全率和查準率都可以控制在60%以上。這里,實驗所采用的數(shù)據(jù)量相對較小,原因是文本句子訓練數(shù)據(jù)和挖掘的結果評估都要大量的人工參

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論