機(jī)器學(xué)習(xí)方法預(yù)測(cè)蛋白質(zhì)相互作用應(yīng)用Logistic回歸提高質(zhì)譜多肽鑒定的準(zhǔn)確度.pdf_第1頁
已閱讀1頁,還剩126頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、蛋白質(zhì)組學(xué)成為后基因組時(shí)代的熱點(diǎn)學(xué)科。生物質(zhì)譜、蛋白質(zhì)芯片等高通量實(shí)驗(yàn)技術(shù)的發(fā)明極大地推動(dòng)了蛋白質(zhì)組學(xué)的發(fā)展。本文致力于通過生物信息學(xué)的方法,進(jìn)一步提高當(dāng)前高通量實(shí)驗(yàn)技術(shù)的效率和精確程度,以更低的實(shí)驗(yàn)代價(jià),獲得更加全面、準(zhǔn)確的實(shí)驗(yàn)結(jié)果。 蛋白質(zhì)—蛋白質(zhì)相互作用在生命過程中起著重要的作用。通過多年的生物學(xué)實(shí)驗(yàn),已經(jīng)積累了大量的蛋白質(zhì)相互作用數(shù)據(jù),但未知的相互作用還有很多。目前篩選蛋白質(zhì)相互作用的實(shí)驗(yàn)方法既耗費(fèi)人力物力,而且由于豐度

2、抑制的原因而很難鑒定出低豐度的蛋白之間的相互作用。一條更簡(jiǎn)單的途徑是通過生物信息學(xué)的方法首先用計(jì)算機(jī)篩選蛋白質(zhì)數(shù)據(jù)庫,預(yù)測(cè)出潛在的蛋白質(zhì)相互作用,然后再用生物學(xué)實(shí)驗(yàn)進(jìn)行驗(yàn)證。這個(gè)策略具有比實(shí)驗(yàn)手段高得多的通量,而且可以解決豐度抑制的問題。 在蛋白質(zhì)—蛋白質(zhì)相互作用的類型中,有相當(dāng)一部分相互作用是通過蛋白質(zhì)的某個(gè)結(jié)構(gòu)域與其配體蛋白上的一段短肽相結(jié)合來實(shí)現(xiàn)的,這種結(jié)構(gòu)域被稱為多肽識(shí)別元件(Peptide recognition mo

3、dule,PRM)。本文的第一章通過研究PRM結(jié)合多肽的結(jié)合特性,預(yù)測(cè)了蛋白質(zhì)—蛋白質(zhì)之間的相互作用。 以PDZ結(jié)構(gòu)域?yàn)槔?,結(jié)合了基于結(jié)構(gòu)的和基于序列的預(yù)測(cè)方法,本文建立了一個(gè)整合的預(yù)測(cè)系統(tǒng)來預(yù)測(cè)結(jié)構(gòu)域和配體間的相互作用。在這個(gè)系統(tǒng)中,提取了結(jié)構(gòu)域和配體三維結(jié)構(gòu)上相互接觸的氨基酸殘基來代替序列全長(zhǎng),利用三種新型的氨基酸編碼方式,用支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)兩種機(jī)器學(xué)習(xí)算法分別建立了三個(gè)子預(yù)測(cè)系統(tǒng),最后將它們的預(yù)測(cè)結(jié)果綜合在一起。

4、 用交叉驗(yàn)證的方法來評(píng)價(jià),預(yù)測(cè)系統(tǒng)的特異性為0.99,靈敏度為0.60。然而,由于已知的一個(gè)結(jié)構(gòu)域的配體通常只有幾十或幾百個(gè),遠(yuǎn)遠(yuǎn)小于蛋白質(zhì)數(shù)據(jù)庫的上萬個(gè)蛋白的規(guī)模,僅僅建立在少量數(shù)據(jù)上的交叉驗(yàn)證的評(píng)價(jià)結(jié)果不一定能保證預(yù)測(cè)方法在篩選數(shù)據(jù)庫時(shí)的成功。為了驗(yàn)證這一點(diǎn),本文從Swissprot人類數(shù)據(jù)庫中為3個(gè)PDZ結(jié)構(gòu)域篩選了配體蛋白序列,預(yù)測(cè)結(jié)果的相當(dāng)一部分與高通量的體外實(shí)驗(yàn)(peptide SPOT array)的結(jié)果重合,證明了

5、預(yù)測(cè)系統(tǒng)的泛化能力。 串聯(lián)質(zhì)譜技術(shù)(MS/MS)是常用的蛋白質(zhì)組學(xué)研究方法。在這個(gè)方法中,蛋白質(zhì)混合物首先被酶切為多肽混合物,在質(zhì)譜儀中被離子化,再經(jīng)過碎裂后產(chǎn)生大量的二級(jí)質(zhì)譜圖。數(shù)據(jù)庫檢索是常見的質(zhì)譜數(shù)據(jù)處理方法。其主要思想是將實(shí)驗(yàn)譜圖與數(shù)據(jù)庫中的酶切多肽的理論譜圖進(jìn)行比對(duì),通過特定的打分算法,找到匹配最佳的多肽。由于樣品和實(shí)驗(yàn)原理的復(fù)雜性,質(zhì)譜圖帶有很高的噪聲,為后續(xù)的數(shù)據(jù)處理工作帶來了很大的難度。目前已有多種算法用來優(yōu)化多

6、肽的鑒定,但陽性和陰性的多肽鑒定仍不能夠被完美地區(qū)分。為了保證鑒定結(jié)果的可信,就不得采用更嚴(yán)格的參數(shù)限制來去除假陽性鑒定,與此同時(shí)不可避免地產(chǎn)生了大量的假陰性鑒定,降低了蛋白質(zhì)組學(xué)研究的效率。 本文的第二章建立了一個(gè)新的參數(shù)Oscore,對(duì)實(shí)驗(yàn)譜圖與多肽的匹配進(jìn)行打分。Oscore基于logistic回歸模型建立,以18個(gè)標(biāo)準(zhǔn)蛋白數(shù)據(jù)集作為學(xué)習(xí)集,可以直接地計(jì)算出譜圖與多肽的匹配為正確匹配的概率?;貧w模型的自變量包括:SEQUE

7、ST軟件輸出的參數(shù)Xcorr,△Cn,Sp(preliminary score)和實(shí)驗(yàn)室自制的AMASS(Sun et al.Mol Cell Proteomics.2004Dec;3(12):1194—9)軟件的輸出參數(shù)Rscore,Cont,Matchpct,以及多肽電荷數(shù)和漏切位點(diǎn)數(shù)(numberofmissedinternalcleavagesites)。AMASS的三個(gè)參數(shù)考慮了子離子強(qiáng)度和b/y系列離子的連續(xù)性的信息,有助于

8、區(qū)分陽性和陰性的多肽鑒定。由于上述的8個(gè)參數(shù)之間具有復(fù)雜的相關(guān)關(guān)系,將它們組合成Oscore可以提高鑒定的準(zhǔn)確度。 與常用的軟件PeptideProphet相比,Oscore同時(shí)在多個(gè)數(shù)據(jù)集上表現(xiàn)出更好的特異性(低假陽性率)和靈敏度(低假陰性率)。這些數(shù)據(jù)集包括標(biāo)準(zhǔn)蛋白混合物數(shù)據(jù)集和3個(gè)蛋白質(zhì)組水平的數(shù)據(jù)集,涵蓋了不同的樣品復(fù)雜度、數(shù)據(jù)庫規(guī)模和分離方式,在一定程度上表明了Oscore的泛化能力。通過一個(gè)同樣基于logistic回

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論