基于Fp-growth算法的關聯(lián)規(guī)則挖掘算法研究和應用.pdf_第1頁
已閱讀1頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、關聯(lián)規(guī)則揭示項集間有趣的相聯(lián)關系,可廣泛應用于市場營銷、醫(yī)學、金融、生物、電信、農業(yè)等領域,是數(shù)據(jù)挖掘的重要研究課題。自1993年R.Agrawal,R.Srikant首次提出該問題以來,已出現(xiàn)了許多關聯(lián)規(guī)則挖掘算法。 Fp-growth算法是當前挖掘頻繁項目集算法中應用最廣,并且不需要候選集的一種挖掘關聯(lián)規(guī)則的算法。但是,F(xiàn)p-gorwth算法在挖掘大型數(shù)據(jù)庫時占用內存大和運行速度慢。為了克服這些不足,本文基于Fp-growt

2、h算法提出了兩種新的適合于挖掘大型數(shù)據(jù)庫的關聯(lián)規(guī)則算法,即新算法1和新算法2。 這兩種新算法采用不同的數(shù)據(jù)庫分解方法將數(shù)據(jù)庫分解,然后對分解得到的各個數(shù)據(jù)庫子集用Fp-growth算法進行約束頻繁項挖掘,得到含有各個頻繁1-項集的項的頻繁項集,最后將這些頻繁項集合并起來便得到整個數(shù)據(jù)庫的所有頻繁項集。在進行數(shù)據(jù)庫分解時,新算法1是對數(shù)據(jù)庫進行頻繁1-項集的項總數(shù)次掃描,每次掃描分別得到各個頻繁1-項集的項的數(shù)據(jù)庫子集;而新算法2

3、則是將數(shù)據(jù)庫分解為一個保存事務信息的數(shù)據(jù)鏈表組,并用消除頭項、迭加后繼項的方式將數(shù)據(jù)鏈表組中的首數(shù)據(jù)鏈表分解,然后組合成新的數(shù)據(jù)鏈表組,并繼續(xù)分解其首數(shù)據(jù)鏈表。如此反復下去,逐步地組合成頻繁1-項集的項總數(shù)個數(shù)據(jù)庫子集。 本文通過實驗比較了兩個新算法與Fp-growth算法的性能。實驗表明,當最小支持度較小或者數(shù)據(jù)庫很大時,新算法1和新算法2由于所采用的數(shù)據(jù)庫劃分策略緩解了Fp-growth算法單獨使用時對內存的巨大需求,占用內

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論