

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、信息存儲技術和通信技術的飛速發(fā)展使得越來越多的文字信息開始以計算機可讀的形式存在,并且其數量每天都在增加和更新。對大量電子文檔進行有效的過濾并進行自動分類組織,將有助于文檔的檢索和分析。 關聯分類作為基于規(guī)則分類方法的一種擴展,已經引起了眾多研究者的興趣,但其在文本領域的應用仍未得到充分的重視。為了使關聯分類更好地適合文本分類的需要,對關聯文本分類中存在的主要問題進行了深入細致的分析,提出了相應的解決策略,取得了比現有文本分類系
2、統更好的精度和效率。 圍繞關聯文本分類的關鍵技術完成了以下工作: 比較和分析了不同支持度閾值對關聯分類系統性能的影響。證明了在文本分類中,較低的支持度設置可以提供更大的詞典和對數據更全面的描述,因而有利于分類性能的提高,但這同時也會導致規(guī)則數目的急劇膨脹和噪聲比例的上升,規(guī)則抽取工作將變得更加低效和困難。 在深入探討影響規(guī)則抽取速度因素的基礎上,針對規(guī)則抽取中的規(guī)則評估和規(guī)則篩選,分別提出了兩種優(yōu)化技術。在評估階
3、段,提出一種“數據緩存”和“倒轉匹配”相結合的優(yōu)化技術,避免了對原始數據集的多次遍歷及對每個文檔求子集操作所帶來的巨大開銷;在篩選階段,提出一種“垂直修剪”的優(yōu)化技術,代替目前常用的完全方式的“一般-特殊”序裁剪,該方法在保證區(qū)分性能的同時可明顯減少計算時間。 系統研究了關聯分類環(huán)境下的特征選擇問題。分析了在關聯分類中按傳統的預處理方式選擇特征所導致的問題,闡述了在關聯分類環(huán)境下設計新的特征選擇方法的必要性。通過證明支持度、置信
4、度與特征選擇常用度量之間存在的轉換關系,提出一種將特征選擇集成到規(guī)則評估階段的新方法,從而解決了預選特征不能保證成為頻繁項的難題,同時總結對比了各種特征選擇的常用度量在關聯分類中的性能表現。在此基礎上,提出了一個結合特征選擇和規(guī)則選擇的快速規(guī)則抽取算法FARE。 提出一種新的關聯區(qū)分算法ACA,該算法引入了一種“接受者決定”思想,以便當多條存在“一般-特殊”序的規(guī)則匹配同一測試文檔時,由測試文檔本身自適應地選擇其最佳匹配規(guī)則,以
5、取得準確率和召回率之間的合理平衡。ACA還引入規(guī)范因子和置信區(qū)間的概念,以消除因分類器之間規(guī)則數量和質量差異而導致的區(qū)分性能下降。此外,ACA提出利用類別特征詞形成虛擬規(guī)則以對部分無法匹配的測試文檔進行區(qū)分。對比實驗表明利用ACA區(qū)分算法可以取得比其它區(qū)分算法更高的精度。 對不同關聯模式在文本分類中的應用進行了深入的探索。提出了一種基于句子級別約束的2-階段規(guī)則選擇方法,同時對句子級別分類方法的優(yōu)缺點進行了深入分析:利用句子級別
6、約束可加快規(guī)則選擇的速度,在某些應用中表現出良好的區(qū)分性能,但另一方面,規(guī)則過少、難以匹配等問題限制了其進一步的推廣使用。因循這一研究思路,進一步提出在文檔級別利用超級關聯組合替代頻繁項進行分類的方法,并從候選規(guī)則數目、訓練時間和區(qū)分性能等多個角度比較了兩種模式對分類系統的影響,得出了超級關聯組合比頻繁項更適合作為候選模式的重要結論。與其它著名文本分類算法如SVM的對比還表明,以超級關聯組合作為候選模式,結合快速規(guī)則抽取算法FARE和關
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Web文本分類關鍵技術研究.pdf
- 文本分類中的關鍵技術研究.pdf
- Web文本分類關鍵技術研究與應用.pdf
- 中文Web文本分類關鍵技術研究與實現.pdf
- 多層文本分類與增量學習關鍵技術研究.pdf
- 中文文本分類關鍵技術研究與實現.pdf
- 面向領域的文本分類與挖掘關鍵技術研究.pdf
- 面向專利文獻數據的文本分類若干關鍵技術研究.pdf
- 多標簽中文文本分類中的關鍵技術研究.pdf
- 基于改進KNN分類算法的文本分類關鍵技術研究與實現.pdf
- Web文本分類關鍵技術的研究與實現.pdf
- 短文本分類技術研究.pdf
- 文本分類相關技術研究.pdf
- 文本分類特征選取技術研究.pdf
- 維吾爾文文本分類技術研究.pdf
- 大規(guī)模Web文本快速分類關鍵技術研究.pdf
- 中文Web文本分類技術研究.pdf
- 文本語義表示及多層分類關鍵技術研究.pdf
- 基于關聯技術的中文文本分類研究.pdf
- 面向文本分類的文本特征學習技術研究.pdf
評論
0/150
提交評論