基于Spark的高考推薦系統(tǒng)設計與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、為了解決用戶無法獲取有價值信息和信息無法被需要的用戶所利用的困境,人們提出推薦系統(tǒng)的概念。隨著大數(shù)據時代的到來,推薦系統(tǒng)也開始面臨難以處理海量數(shù)據的困境,為了走出困境,與大數(shù)據處理技術相結合是必然的趨勢。Spark作為大數(shù)據處理技術中的佼佼者,提出了 RDD的數(shù)據模型與基于內存的計算模式,現(xiàn)已被廣泛應用于電子商務、視頻、社交等領域。但在教育領域內,無論是推薦系統(tǒng)還是大數(shù)據處理技術,都涉及較少。高考作為教育領域中的大事件,其志愿填報更是考

2、生關注的焦點。歷年的考生志愿錄取信息作為考生志愿填報的重要參考數(shù)據,因其數(shù)據龐大且復雜的特點造成其利用率極低。
  本文將推薦系統(tǒng)與大數(shù)據處理框架Spark相結合,應用于推薦系統(tǒng)與Spark較少涉及的教育領域,幫助考生解決高考志愿填報環(huán)節(jié)的志愿選擇問題。本文完成的工作有以下幾點:
 ?。?)利用 HTML+CSS級聯(lián)樣式表+JSP的前端開發(fā)技術,設計開發(fā)了高考志愿推薦的Web前端界面。其中包括用戶注冊界面、用戶登錄界面、志愿

3、推薦結果展示界面以及相關高考信息(政策、新聞、高校信息與專業(yè)信息)的瀏覽界面。在保證本系統(tǒng)實用性和易用性的同時為用戶提供良好的交互體驗。
 ?。?)以Web前端作為用戶日志的生產方,設計性能良好的日志收集模塊。首先,采用Flume日志收集工具收集日志信息;其次,通過Sink組件將收集到的信息傳送給Kafka消息中間件,利用其功能對日志信息進行統(tǒng)一下發(fā);最后,使用Spark Streaming流式處理框架對Kafka中收集到的日志信

4、息進行清理與提取,并將其存儲于HDFS文件系統(tǒng)中。
 ?。?)設計高考志愿場景下的志愿推薦引擎。首先,通過閱讀大量高考志愿填報文獻,選取合適的用戶屬性,計算相似性,建立相似矩陣,尋找相似用戶;其次,分析幾種最常見的推薦算法,結合高考志愿填報的真實場景選擇基于用戶的協(xié)同過濾算法作為本系統(tǒng)的推薦算法;最后通過Spark計算框架的并行化計算方式生成最終的推薦列表。
 ?。?)搭建Spark分布式集群開發(fā)環(huán)境,實現(xiàn)系統(tǒng)整體的開發(fā)和相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論