

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、日志數據記錄著系統(tǒng)與網絡用戶行為等豐富的信息,在網絡管理、用戶行為分析等諸多領域具有較高的實用價值。隨著大數據時代的來臨,單位時間內產生的日志數據規(guī)模呈幾何級數不斷增長,日志數據的多樣性、異構性與動態(tài)變化給日志數據采集、存儲和深入分析提出了挑戰(zhàn)。傳統(tǒng)的日志處理方式主要是基于單節(jié)點服務器,沒有擴展性,單節(jié)點在CPU、I/O與存儲方面的性能,都是十分有限的。當前,在實際應用中對日志數據分析的響應時間要求越來越高,實時性已和針對大數據量的高吞
2、吐率并行計算成為了日志數據處理的基本需求。在實時處理的應用場景中,流式計算處理能完成日志流數據的實時處理,可針對一定時間段內規(guī)模不大的數據集完成知識提取,但數據量的局限性限制了可應用的算法和結果的可靠程度,因此,實時計算所提取和依賴的知識亟需與離線批處理技術針對大規(guī)模離線數據的分析結果相結合。
針對信息化和大數據背景下飛速增長的日志數據的采集、存儲和分析面臨的主要問題與離線數據與實時流數據的知識提取及其整合問題,通過對大數據技
3、術發(fā)展理論和實踐成果的研究,在分布式系統(tǒng)基礎架構Hadoop上通過Storm On YARN從資源調度層面集成MapReduce和Storm兩種不同計算框架構建日志數據實時處理平臺,采用Flume與HBase完成日志數據分布式采集與存儲,利用吞吐率較高的MapReduce完成大規(guī)模離線數據的全局性知識提取,通過 Storm進行 Kafka緩沖區(qū)中小規(guī)模數據的突發(fā)性知識提取、結合知識進行流數據的實時持續(xù)計算,在保證實時性的同時提高準確率。
4、本文主要研究內容與結果如下:
(1)日志數據實時處理平臺研究
研究設計具有3層結構的日志數據實時處理平臺架構,包括負責數據采集與存儲的數據服務層、負責數據分析的業(yè)務邏輯層以及實現(xiàn)數據可視化的Web展示層,其中利用共享知識庫實現(xiàn)離線分析與實時分析的結合,并整合Hadoop、Storm、Flume、HBase與Kafka等大數據構件實現(xiàn)整體架構的分布式集群環(huán)境搭建。
(2)日志數據的分布式采集與存儲
5、采用 Flume將從多源前端服務器中采集到的日志數據幾近實時地存儲到分布式數據庫HBase,其中采用預分區(qū)與 RowKey隨機散列技術對 HBase進行優(yōu)化。實驗結果表明,平臺有效完成了前端服務器中日志數據幾近實時的采集與存儲,經過優(yōu)化后的 HBase在日志存儲過程中更加充分的利用集群中的I/O和CPU資源,負載更加均衡,有效解決了HBase的“熱點”問題。
(3)基于MapReduce的離線日志數據深度分析
結合M
6、apReduce計算模型將傳統(tǒng)數據挖掘算法進行并行化處理,并將算法移植到平臺上執(zhí)行以實現(xiàn)對 HBase中歷史日志數據的全局性知識提取并存入離線知識庫。并針對實際應用將 K-means與Apriori進行并行化處理在 MapReduce分布式環(huán)境下完成聚類分析與關聯(lián)規(guī)則分析。實驗結果表明,實驗結果表明平臺能有效從歷史日志數據中提取出高可靠度的知識,并利用MapReduce并行技術使深度分析獲得更高的運行效率與擴展性,充分滿足大規(guī)模日志數據
7、知識提取的應用需求。
(4)基于Storm的日志流數據實時分析
整合 Storm與 Kafka實現(xiàn)實時計算的日志流數據源的穩(wěn)定接入。將傳統(tǒng)數據挖掘算法結合 Storm模型完成對一定時間窗口內小規(guī)模實時數據的突發(fā)性知識提取并存入實時知識庫,并以共享知識庫中的信息作為決策支持對日志流數據進行 Storm實時流式計算,完成離線計算與實時計算的結合。并針對實際應用混合 K-means、KNN等多個算法完成網絡異常識別。實驗結
8、果表明,平臺能有效提取出實時數據中的突發(fā)性知識,并依賴共享知識庫完成高精準度的實時持續(xù)計算,Storm技術的應用使得實時分析獲得更高的實時性,在流式數據處理方面表現(xiàn)出了較大的優(yōu)勢。
綜上所述,本研究構建的日志數據實時處理平臺有效地解決了日志數據的采集、存儲與知識提取等問題,融合了Hadoop與Storm的優(yōu)勢,在利用MapReduce提取隱藏在歷史日志數據中的全局性知識的同時,基于 Storm提取小規(guī)模實時日志數據中的突發(fā)性知
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于GPU的遙感數據實時處理研究.pdf
- 基于多線程的雷達數據實時處理的研究與應用.pdf
- 基于twitter storm的數據實時分析處理工具研究
- 基于twitter storm的數據實時分析處理工具研究
- 基于storm的訂單大數據實時監(jiān)控系統(tǒng)
- 基于Storm的訂單大數據實時監(jiān)控系統(tǒng).pdf
- 海洋重力測量數據實時處理技術研究.pdf
- 外測數據實時處理軟件設計與實現(xiàn).pdf
- 基于Apache S4的交通流數據實時處理系統(tǒng)的設計與實現(xiàn).pdf
- 視頻數據實時處理和圖像去底色算法方法.pdf
- 基于Hadoop的海量日志數據處理研究與應用.pdf
- 物流數據實時采集與分析處理.pdf
- 基于RFID的車間作業(yè)數據實時采集與處理技術研究.pdf
- 基于Storm實時日志分析存儲系統(tǒng)的設計與實現(xiàn).pdf
- 基于副本選擇的大數據實時查詢處理并行調度.pdf
- 空間多點檢測數據實時傳輸與處理的研究.pdf
- 基于Storm的實時大數據分析系統(tǒng)的研究與實現(xiàn).pdf
- 基于DSP的超聲圖像實時處理平臺研究.pdf
- 基于成本模型的Hadoop與Storm混合系統(tǒng)的研究.pdf
- 一種基于Storm和Mongodb的分布式實時日志數據存儲與處理系統(tǒng)的設計與實現(xiàn)及應用.pdf
評論
0/150
提交評論