微博信息檢索系統(tǒng)研究與開(kāi)發(fā).pdf_第1頁(yè)
已閱讀1頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)媒體正日益成為當(dāng)今社會(huì)人們獲取資訊的重要方式之一。這其中,微博自誕生之日起,就以其便捷性和實(shí)時(shí)性越來(lái)越受到網(wǎng)民的重視。每時(shí)每刻都有大量的微博消息被發(fā)布出來(lái),如何處理這些海量數(shù)據(jù),成為現(xiàn)代工業(yè)界和學(xué)術(shù)界的研究重點(diǎn)。
  微博網(wǎng)絡(luò)中人與人的關(guān)系和現(xiàn)實(shí)世界中關(guān)系類(lèi)似,會(huì)形成一個(gè)個(gè)類(lèi)似的社區(qū)結(jié)構(gòu)。在一定的時(shí)間段內(nèi),社區(qū)內(nèi)部人與人之間聯(lián)系密切,用戶之間會(huì)有共同的興趣。通過(guò)發(fā)現(xiàn)社區(qū)的興趣得到社區(qū)關(guān)鍵詞,可以得到與關(guān)鍵詞

2、相關(guān)的微博用戶。通過(guò)發(fā)現(xiàn)用戶的興趣,可以得到與用戶興趣相同的其他用戶和其感興趣的微博內(nèi)容。
  本文提出新的算法來(lái)發(fā)現(xiàn)微博網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),結(jié)合微博社區(qū)興趣模型和微博用戶興趣模型,可以查詢與關(guān)鍵詞相關(guān)的微博用戶和推薦興趣相同的其他用戶及感興趣的微博內(nèi)容。通過(guò)計(jì)算與其他用戶興趣模型概率分布的相似程度來(lái)得到興趣相同的用戶;通過(guò)計(jì)算微博用戶的興趣模型概率分布與微博的主題模型分布之間的相似程度來(lái)得到用戶可能感興趣的微博內(nèi)容。本文利用Luc

3、ene對(duì)微博內(nèi)容進(jìn)行建索引,在查詢擴(kuò)展的基礎(chǔ)之上,可以收到更好的檢索效果。
  本文主要做了以下幾方面的工作:
  1、提出一種新的微博社區(qū)發(fā)現(xiàn)算法Label-Influence-Algorithm(LIA)。LIA算法考慮到社交網(wǎng)絡(luò)中人與人之間的關(guān)系,即一個(gè)人的朋友中大多數(shù)屬于一個(gè)社區(qū),自己也很大概率屬于這個(gè)社區(qū),同時(shí)借鑒社會(huì)學(xué)的研究成果,在發(fā)現(xiàn)微博社區(qū)時(shí)考慮到微博用戶的影響力。微博中用戶的粉絲數(shù)目并不能客觀反映用戶的影響

4、力,還需要考慮關(guān)注數(shù)目、評(píng)論數(shù)和被提到的數(shù)量等,重點(diǎn)需要考慮如何排除“僵尸粉”(即主要是由機(jī)器來(lái)運(yùn)營(yíng)單純只是為了增加粉絲的數(shù)量)。
  2、微博社區(qū)用戶興趣模型建模。由于微博消息限定為140個(gè)字,屬于典型的短文本內(nèi)容,所以單純的對(duì)每條微博進(jìn)行主題發(fā)現(xiàn)效果很差,而且也沒(méi)有多大的實(shí)際意義。在一定的時(shí)間段內(nèi),微博用戶的興趣相對(duì)固定,而社區(qū)內(nèi)的用戶也具有相對(duì)固定的話題,由此可以發(fā)現(xiàn)微博用戶的興趣模型,并由此得到與用戶興趣相同的用戶和其感興

5、趣的微博內(nèi)容。對(duì)于每個(gè)微博用戶,利用其所發(fā)表和轉(zhuǎn)發(fā)微博的主題模型來(lái)表示其興趣模型;對(duì)于每個(gè)社區(qū),利用其社區(qū)成員所發(fā)表和轉(zhuǎn)發(fā)微博的主題模型來(lái)表示其興趣模型。
  3、構(gòu)建微博信息檢索系統(tǒng)。本系統(tǒng)主要有查詢功能和推薦功能:在查詢功能中,用戶輸入檢索詞,在經(jīng)過(guò)查詢擴(kuò)展之后得到擴(kuò)展詞集,會(huì)得到與擴(kuò)展詞集相關(guān)的微博內(nèi)容和微博用戶;在推薦功能中,用戶輸入微博昵稱,通過(guò)計(jì)算該昵稱的微博用戶興趣模型概率分布與其他分布和社區(qū)內(nèi)微博主題分布的相似程度

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論