

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、在電子商務方興未艾的今天,企業(yè)上網不但是為了展示企業(yè)形象,提高知名度;也意味著無窮的商機與財富。而內部網Intranet則為企業(yè)帶來了全新的溝通方式和管理理念。因此構建企業(yè)Web站點已經排上了許多企業(yè)信息部門的日程。Web的優(yōu)點在于可以方便的展示大量信息,但同時也帶來了信息的泛濫使得尋找有效信息非常困難。為此,好的企業(yè)網站都擁有強大的搜索引擎,使得網站更加友好和便利。對于有政策法規(guī)、合同定單等大量文檔上網的企業(yè)網站,信息搜索的服務必不可
2、少。 IndexServer是專門為企業(yè)網站設計的專業(yè)搜索引擎,利用它可以非常輕松的在網站中加入功能強大的信息搜索功能。并且IndexServer搜索的文件不局限于HTML格式,還支持TXT、DOC、EXL、RTF、GIF、JPEG等多種文件格式,并可以通過插入第三方插件來支持更多的文件格式。搜索范圍可以是存放在本地服務器中的內容,也可以是網絡中其他機器的共享資源,包括INTERNET中的資源。搜索時除了文檔中的關鍵字詞以外,還
3、可以就文件大小、修改日期、作者等屬性進行搜索。此外IndexServer還支持英文、簡體中文、德語、法語、日語等語種,無須編程,就可在網站中實現多語種的搜索引擎。由于IndexServer是零維護設計,故只需啟動IndexServer服務,搜索引擎就會自動運行。而在Web服務器端,需要加入與IndexServer連接的頁面。傳統(tǒng)IndexServer的工作過程由瀏覽器通過HTML文檔的FORM表單向Web服務器發(fā)出請求開始,Web服務器
4、通過一個類似于數據庫接口的專用文件.IDQ與IndexServer連接,將客戶的請求轉換成IndexServer理解的語句。IndexServer再將查詢結果按照模板文件HTX定義的格式組織成HTML文檔,通過Web服務器返回給瀏覽器。這種方式稱為HTML/IDQ/HTX方式,需要三個文件配合完成查詢。使用這種方式不能對查詢結果進行處理,并且模板文件HTX格式單一。因此微軟在IndexServer2.0中加入了對asp.net的支持,用
5、一個ASPX文件替代先前的三個文件。由于asp.net有靈活且功能強大的腳本語言操縱,因此Web開發(fā)者可以設計條件復雜的查詢,并能更加精確的處理查詢結果。 本文圍繞站內搜索這一課題,對Index.server索引技術、數據采集這兩大站內搜索的核心支撐技術進行了深入細致的研究與分析,并在對google、百度、搜狗等已有站內搜索產品和市場詳細調研的基礎上實現了一個實時站內搜索系統(tǒng)。本文所做的主要工作、技術難點與創(chuàng)新處如下:
6、1.大量查閱了站內搜索的相關資料,追溯了站內搜索興起的原因及其發(fā)展過程,認真學習了站內搜索的體系結構、架構過程及應用實施的知識,深入領會了站內搜索的概念及其核心支撐技術。 2.深入細致的學習了IndexServer索引的概念、特點以及IndexServer系統(tǒng)的體系結構,并研究了數據的索引過程:過濾,字分離和規(guī)范化,并對實現索引查詢的數據流程、體系結構、查詢后的結果集以及將Indexserver索引服務器的數據庫連接器做為二次開
7、發(fā)的類庫進行了詳細的分析與研究,而且也從應用的角度對IndexServer服務器中的時間排序、精確排序做了深入的學習。 3.認真學習了SQL數據庫的相關知識,分析了數據庫的體系結構,并重點學習了如何實現對數據庫的監(jiān)控和安全訪問。 4.深入學習VisualStudio2003開發(fā)工具,詳細的研究了Windows服務的開發(fā)模式,把Windows服務應用到Socket通信服務器端,充分利用Windows服務的優(yōu)點,揚長避短,不
8、僅大大提高了生產效率,而且明晰了系統(tǒng)結構,為系統(tǒng)穩(wěn)定安全的運行提供了保障。 5.深入的學習了網絡通信編程技術,以及TCP/IP協議和信息包的知識,并將之用在數據采集的C/S系統(tǒng)中。 6.基于上述原理和已有的研究成果,設計并實現了站內搜索系統(tǒng),該系統(tǒng)具有的特點與創(chuàng)新如下: 1)本系統(tǒng)中數據采集子系統(tǒng)采用了C/S結構,系統(tǒng)的所有用戶可以通過Internet使用本查詢系統(tǒng),不受時間和地點的限制,而且系統(tǒng)基于web的操作
9、方式,對于有著龐大的互聯網用戶數量的中國市場來說更加具有競爭力。 2)實時信息查詢:百度和Google等著名的搜索引擎巨頭他們也提供了免費的站內搜索系統(tǒng),他們也可以完成快速的站內搜索功能,但是百度或Google的站內搜索系統(tǒng)卻不能查到網站內的最新的新聞內容或查到網站中已經不存在的信息,因為他們的網絡蜘蛛不能實時的對每一個網站的內容進行數據的采集,然后進行索引。所以對于很多數據有一個延遲性。而本站內搜索系統(tǒng)通過對網站內的數據庫進行
10、實時監(jiān)控處理,有效地采集到網站的最新信息變動,實現了實時查詢。 3)信息數據的生成和管理,為了能使網站的客戶能查詢到最新的信息,使用Window后臺服務對SQL的數據庫信息更新進行實時的監(jiān)控,及時的把變更信息用TXT文件形式存儲并添加到索引服務器中。 4)采用TXT文件形式存儲數據信息,IndexServer支持HTML、XML等多種文件形式的索引功能,但是TXT是最穩(wěn)定、高效的存儲格式。 目前,本系統(tǒng)已經在證券
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于Herixtrix和Lucene的Web站內搜索系統(tǒng).pdf
- 基于Lucene的站內搜索引擎技術的研究與應用.pdf
- 基于XML的站內搜索引擎研究.pdf
- 基于CSCW的站內搜索引擎的應用研究.pdf
- 基于Ajax-Lucene的站內搜索技術研究.pdf
- 基于Ajax-Lucene的站內搜索技術研究與實現.pdf
- Sphinx站內搜索技術在論壇產品中的應用研究.pdf
- 基于J2EE的站內搜索引擎的研究.pdf
- 基于Lucene的證照管理系統(tǒng)站內搜索引擎的實現.pdf
- 基于雙分詞器的醫(yī)療類網站站內搜索研究與實現.pdf
- 醫(yī)學網站站內搜索引擎研究與實現.pdf
- 基于倒排索引和字典樹的站內搜索引擎的設計與實現.pdf
- 一種用于站內搜索的層次鏈接分析算法.pdf
- 個性化站內搜索引擎的設計與應用—基于華貿易貨交易平臺.pdf
- 面向電子商務網站的站內搜索引擎研究與實現.pdf
- 作文素材的多角度轉化-鄭州教育網——站內搜索
- 基于Lucene的Web站內信息搜索系統(tǒng).pdf
- 基于Sphinx構建Web站內全文搜索系統(tǒng)的研究.pdf
- 基于ISA Server的計費系統(tǒng)研究與實現.pdf
- 基于Nutch的醫(yī)學信息搜索推薦系統(tǒng)研究與應用.pdf
評論
0/150
提交評論