基于本體的Deep Web語(yǔ)義搜索引擎.pdf_第1頁(yè)
已閱讀1頁(yè),還剩73頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著WWW的迅速發(fā)展和普及,WWW 成為一個(gè)巨大的信息資源庫(kù),對(duì)這個(gè)信息資源庫(kù)的搜索出現(xiàn)了“信息過(guò)載”和“信息迷航”的問(wèn)題。由于WWW的自治性、開(kāi)放性、異構(gòu)性、動(dòng)態(tài)性和指數(shù)增長(zhǎng)等特點(diǎn),目錄式搜索引擎、全文搜索引擎都暴露出了根本的缺點(diǎn)。基于關(guān)鍵字查詢(xún),只檢索靜態(tài)頁(yè)面,只能進(jìn)行“導(dǎo)航式”的檢索,導(dǎo)致了索引容量指數(shù)增長(zhǎng)、查全率和查準(zhǔn)率不斷降低等問(wèn)題。提高搜索引擎的查全率和查準(zhǔn)率,滿足用戶(hù)“知識(shí)粒度”檢索的要求,同時(shí)能夠進(jìn)行語(yǔ)義層面的搜索,成為

2、用戶(hù)對(duì)新一代搜索引擎提出的要求。為了從根本上解決這些問(wèn)題,新一代的搜索引擎要求必須對(duì)WWW 進(jìn)行新的知識(shí)表示。萬(wàn)維網(wǎng)的創(chuàng)始人Tim Berners-lee為此提出了新一代萬(wàn)維網(wǎng)的架構(gòu)—Semantic Web,其上的信息具有良好的定義,使得人與機(jī)器、機(jī)器間能夠更好的實(shí)現(xiàn)信息的共享與協(xié)作。Semantic Web能夠從根本上解決傳統(tǒng)搜索引擎所暴露出來(lái)的問(wèn)題。由于WWW的自治性特點(diǎn),SemanticWeb的接受需要一個(gè)相當(dāng)長(zhǎng)的時(shí)間,并且由于

3、Semantic Web的研究大都停留在理論研究階段,所以新一代搜索引擎難以實(shí)現(xiàn)。本文在新一代搜索引擎和WWW 之間找到了一個(gè)結(jié)合點(diǎn),將Semantic Web的架構(gòu)應(yīng)用到Deep Web的搜索,提出了基于本體的Deep Web語(yǔ)義搜索引擎?;诒倔w的Deep Web語(yǔ)義搜索引擎可以解決傳統(tǒng)搜索引擎只能搜索靜態(tài)頁(yè)面,無(wú)法進(jìn)行語(yǔ)義搜索,無(wú)法為用戶(hù)提供“知識(shí)粒度”檢索的缺點(diǎn)。本文的創(chuàng)新點(diǎn)如下: 1、本文基于Semantic Web

4、架構(gòu)對(duì)Deep Web 進(jìn)行語(yǔ)義搜索,解決了傳統(tǒng)搜索引擎只能搜索靜態(tài)頁(yè)面,無(wú)法對(duì)Deep Web 進(jìn)行搜索,只能基于關(guān)鍵字搜索,無(wú)法進(jìn)行語(yǔ)義搜索,只對(duì)靜態(tài)頁(yè)面的內(nèi)容進(jìn)行索引,而不能進(jìn)行元數(shù)據(jù)索引的缺點(diǎn),提高了搜索引擎的查全率和查準(zhǔn)率,避免了搜索引擎索引容量的瓶頸問(wèn)題。 2、本文通過(guò)對(duì)Deep Web 查詢(xún)接口進(jìn)行元數(shù)據(jù)提取,將查詢(xún)接口看作后臺(tái)數(shù)據(jù)庫(kù)的元模式,利用元數(shù)據(jù)描述語(yǔ)言RDF 對(duì)查詢(xún)接口進(jìn)行RDF 描述,然后結(jié)合領(lǐng)域本體對(duì)

5、查詢(xún)接口的RDF 元數(shù)據(jù)進(jìn)行RDF 檢索,從而實(shí)現(xiàn)查詢(xún)接口的語(yǔ)義搜索,提高了查詢(xún)接口檢索的準(zhǔn)確率,由于查詢(xún)接口具有高度的領(lǐng)域相關(guān)性,所以提高了搜索引擎的查準(zhǔn)率。 3、本文提出了基于領(lǐng)域本體的Deep Web語(yǔ)義搜索引擎的框架,由Deep Web 爬蟲(chóng)、Deep Web 分類(lèi)器、Deep Web 表單提取、自然語(yǔ)言查詢(xún)接口、語(yǔ)義推理、表單檢索器、Web檢索器、統(tǒng)一接口查詢(xún)和結(jié)果集成模塊組成。在本文中重點(diǎn)分析了Deep Web的發(fā)現(xiàn)

6、、分類(lèi)和查詢(xún)接口RDF的語(yǔ)義檢索,整個(gè)RDF 檢索系統(tǒng)以Jena 平臺(tái)為開(kāi)發(fā)平臺(tái),以汽車(chē)領(lǐng)域本體和查詢(xún)接口RDF模型為例進(jìn)行了驗(yàn)證。 4、基于知網(wǎng)的詞匯語(yǔ)義關(guān)系判斷算法以知網(wǎng)做為本體,采用基于結(jié)構(gòu)的模式匹配算法進(jìn)行詞匯邏輯關(guān)系的判斷;Deep Web 特征選擇算法采用詞匯頻度作為類(lèi)內(nèi)、類(lèi)間可分性判據(jù)以Tabu 搜索策略進(jìn)行特征選擇;Deep Web 查詢(xún)接口RDF提取算法根據(jù)查詢(xún)接口Html代碼的特征進(jìn)行查詢(xún)接口Html代碼和查

7、詢(xún)接口RDF模型的映射;Deep Web 查詢(xún)接口RDF查詢(xún)算法以用戶(hù)輸入的關(guān)鍵詞序列為檢索條件,進(jìn)行關(guān)鍵詞序列的分類(lèi)操作,概念推理算子操作,得到概念關(guān)鍵詞對(duì)序列和實(shí)例關(guān)鍵詞對(duì)序列,根據(jù)概念關(guān)鍵詞對(duì)序列采用RDQL語(yǔ)言對(duì)RDF進(jìn)行檢索,然后根據(jù)檢索結(jié)果和實(shí)例關(guān)鍵詞對(duì)序列以Http協(xié)議格式對(duì)Web 進(jìn)行數(shù)據(jù)檢索。本文對(duì)上述算法進(jìn)行了實(shí)例驗(yàn)證。 本文從理論上對(duì)基于Semantic Web 架構(gòu)的Deep Web 搜索引擎進(jìn)行了研究,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論