PHP站內中文搜索技術的研究與實現.pdf_第1頁
已閱讀1頁,還剩48頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、本論文以站內中文全文搜索技術為背景,結合PHP(PHP:Hypertext Preprocessor)在實踐領域中對Web應用的性能和內存消耗的要求,提出了一種純PHP的以預索引字典為基礎的輕量高效的站內中文搜索引擎的解決力案。即:通過索引器在數據庫中保存生成的站內全文數據的帶權重索引和詞頻權重索引,檢索器基于此全文數據可以按多個類別的權重定義計算相關度得到搜索結果,表示器將結果高亮排序返回給搜索用戶完成搜索功能。一個基于海量字典的中文

2、分詞器作為中文數據處理的核心,將中英文及數字信息正確的切分并使得索引器可以進行按詞匯權重索引,實現豐富靈活的搜索或索引相關功能。文章針對PHP站內中文搜索技術中最突出的三個方面進行研究。 1.輕量高效的PHP中文搜索框架設計,并統(tǒng)一考慮了檢索器和索引器的中文分詞問題,使得索引和搜索時處理同樣的分詞結果。這樣,在以較小的代價保證分詞器90%以上準確度的同時,對不準確的分詞結果具有很好的容忍度,保證了PHP應用的輕量性和可用性。對實

3、踐中對性能非常敏感的Web應用的設計開發(fā)有一定的借鑒意義。 2.對站內數據的搜索結果提出了一種多權重因素的相關度計算的方法,該方法在傳統(tǒng)的本論文以站內中文全文搜索技術為背景,結合PHP(PHP:Hypertext Preprocessor)在實踐領域中對Web應用的性能和內存消耗的要求,提出了一種純PHP的以預索引字典為基礎的輕量高效的站內中文搜索引擎的解決力案。即:通過索引器在數據庫中保存生成的站內全文數據的帶權重索引和詞頻權

4、重索引,檢索器基于此全文數據可以按多個類別的權重定義計算相關度得到搜索結果,表示器將結果高亮排序返回給搜索用戶完成搜索功能。一個基于海量字典的中文分詞器作為中文數據處理的核心,將中英文及數字信息正確的切分并使得索引器可以進行按詞匯權重索引,實現豐富靈活的搜索或索引相關功能。 本文結合PHP技術以及搜索引擎、中文分詞等理論背景,對PHP領域內實現輕量高效的站內中文搜索提出了行之有效的分析解決方法。隨著Web應用的持續(xù)發(fā)展和PHP普

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論