

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、統(tǒng)計關系學習是人工智能領域的一個新研究熱點,其目的是在多關系的數(shù)據(jù)集中挖掘出數(shù)據(jù)中的統(tǒng)計關系模型。統(tǒng)計關系學習是集關系、邏輯表示,似然推理機制,機器學習、數(shù)據(jù)挖掘于一體?,F(xiàn)有的統(tǒng)計關系學習,大多數(shù)似然關系模型下的研究都是基于完備數(shù)據(jù)條件下進行的,而現(xiàn)實問題中,數(shù)據(jù)通常是不完備的。同時也由于不完備的關系數(shù)據(jù)問題非常復雜,因此傳統(tǒng)的機器學習領域中處理不完備數(shù)據(jù)的學習的方法,也很難直接應用到統(tǒng)計關系學習中。因此解決從不完備數(shù)據(jù)中學習統(tǒng)計關系模
2、型的問題是非常必要的。 在傳統(tǒng)的機器學習方法中,數(shù)據(jù)通常以“屬性一值”的方式存在,即表示為單表形式。但在現(xiàn)實世界中,許多數(shù)據(jù)都存在著內部關系,即表示為多表形式的關系數(shù)據(jù)。因此,該問題不滿足傳統(tǒng)機器學習中普遍要求的獨立同分布假設。在此類數(shù)據(jù)的樣本之間或者樣本的屬性之間,往往存在著內在的關系或結構。由于關系數(shù)據(jù)的表示形式與“屬性一值”的形式截然不同,傳統(tǒng)的基于“屬性一值”表示的機器學習技術難以用于解決這類問題。于是,統(tǒng)計關系學習這一
3、研究領域應運而生,并且受到了越來越多研究者的重視。 似然關系模型(Probabilistic Relational Models,PRM)是一類基于貝葉斯網(Bayesian)的統(tǒng)計關系學習方法,它是標準貝葉斯網模型的擴展,PRM使用表示實體間關系的實體關系模型(Entity Relationship Model,ER)作為基本的表示框架,將PRM看成是描述關系型數(shù)據(jù)庫上概率分布的模板[9]。模型的結構描述關系模式及屬性間的依賴
4、,模板的參數(shù)定義對象屬性依賴關系的概率分布。于是,該模型除了能使用概率進行表示和不確定推理外,還可以處理關系數(shù)據(jù),具有更強的表達能力,可以用來在復雜的系統(tǒng)上建模,這對智能信息系統(tǒng)的開發(fā)研究有著特別重要的意義。 GDT(Generalization Distribution table)的方法,描述了屬性值的所有組合可能情況,對實例的所有泛式的可能概括,以及實例與其泛式間的概率分布。同時GDT方法,通過概括強度、規(guī)則置信度和規(guī)則
5、強度,充分考慮到數(shù)據(jù)的不完整性,并可以把背景知識,背景知識的先驗概率自然得用于學習過程。目前,GDT的思想在處理不完備數(shù)據(jù)的完備化問題中,缺省數(shù)據(jù)規(guī)則發(fā)現(xiàn),應用背景知識對已有不完備數(shù)據(jù)進行優(yōu)化學習一階規(guī)則等方面已經有了廣泛的應用。所以GDT的方法能夠很高的解決不完備數(shù)據(jù)完備化的問題。 現(xiàn)有的關系學習研究大多是基于完備數(shù)據(jù)進行的,而現(xiàn)實問題中,數(shù)據(jù)通常是不完備的。在傳統(tǒng)的機器學習領域中,從不完備數(shù)據(jù)中學習的問題已經得到了研究,但不
6、完備的關系數(shù)據(jù)問題非常復雜,因此,幾乎沒有任何一項技術可以直接被擴展到關系學習領域。傳統(tǒng)的機器學習算法可以被看成是數(shù)據(jù)集中僅有的一個表,并且不存在關系的學習算法。例如,Bayesian網絡可以看成是僅包含一個屬性類,并且不存在關系的PRM。因此,PRM結構學習的復雜度至少相當于Bayesian網絡學習的復雜度。由于具有多個局部極值,如果將傳統(tǒng)的機器學習中處理不完備數(shù)據(jù)問題的算法直接擴展到關系學習中,學習的復雜度將會明顯提高,并且會得到較
7、差的結果。因此,從不完備的關系數(shù)據(jù)中學習是關系學習領域中一個重要的、有待解決的問題。 在此基礎上本文主要完成了以下工作:本文提出了一種基于GDT的從不完備關系數(shù)據(jù)中學習似然關系模型probabilistic relational models,簡稱PRMs)的方法。該方法首先使用GDT技術來對缺失數(shù)據(jù)進行預處理,填充不完備關系數(shù)據(jù)得到完備關系數(shù)據(jù);然后從通過GDT填充的數(shù)據(jù)樣本中,采用啟發(fā)式搜索方法學習得到似然關系模型并作為初始
8、PRM網絡,并利用學習過程中前一步得到的網絡結構中的規(guī)則強度形式的一節(jié)規(guī)則對數(shù)據(jù)集進行重優(yōu)化:直到學習得出概率關系模型。 本文分別在一個模擬問題和一個真實問題域上進行了實驗討論。在模擬的School問題域上,生成具有5000個數(shù)據(jù)樣本的4個數(shù)據(jù)集。分別在具有10%,20%,30%,40%的丟失數(shù)據(jù)這4個數(shù)據(jù)集上進行測試。在真實的movie域問題上,我們在數(shù)據(jù)庫中選出了一個含有5000個movle、3000個actor和1500個
9、director的子集。 由于現(xiàn)存的放法中幾乎沒有從不完備數(shù)據(jù)中學習PRMs的方法,因此,實驗中用于比較的方法是先隨機填充不完備數(shù)據(jù),然后開始學習得到PRMs的方法?;贕DT的方法填充不完備關系數(shù)據(jù)并得到完備的關系數(shù)據(jù),然后,算法通過將進化過程中最好的網絡結構嵌入到不完備數(shù)據(jù)集中,有效地修復噪聲數(shù)據(jù)。隨著迭代的進行,修正的數(shù)據(jù)越來越好,數(shù)據(jù)趨于穩(wěn)定并最終收斂。通過實驗我們發(fā)現(xiàn)基于GDT的這種學習似然關系模型的方法,能夠很有效的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 群智學習若干問題研究.pdf
- 迭代學習控制若干問題研究.pdf
- 基于上下文的統(tǒng)計關系學習研究.pdf
- 合同關系委托代理若干問題研究.pdf
- 標記分布學習若干問題研究.pdf
- 迭代學習控制若干問題的研究.pdf
- 統(tǒng)計相依與隨機比較的若干問題研究.pdf
- 基于PCA統(tǒng)計過程監(jiān)控的若干問題研究.pdf
- 描述邏輯公理的統(tǒng)計關系學習方法.pdf
- 組合反演關系的若干問題的研究.pdf
- 采光關系糾紛審判實務若干問題研究.pdf
- 供應鏈成員關系若干問題研究.pdf
- 關于我國失業(yè)統(tǒng)計若干問題的研究.pdf
- 流形學習中的若干問題研究.pdf
- 有關強化學習的若干問題研究.pdf
- 半監(jiān)督學習若干問題的研究.pdf
- 核機器學習方法若干問題研究.pdf
- 不確定統(tǒng)計的若干問題及應用研究.pdf
- 子空間學習若干問題研究及其應用.pdf
- 中國政府財政統(tǒng)計若干問題的研究.pdf
評論
0/150
提交評論