大數據架構與關鍵技術_第1頁
已閱讀1頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、4大數據參考架構和關鍵技術4.1大數據參考架構大數據作為一種新興技術,目前尚未形成完善、達成共識的技術標準體系。本章結合NIST和JTC1SC32的研究成果,結合我們對大數據的理解和分析,提出了大數據參考架構(見圖5)。圖5大數據參考架構圖大數據參考架構總體上可以概括為“一個概念體系,二個價值鏈維度”?!耙粋€概念體系”是指它為大數據參考架構中使用的概念提供了一個構件層級分類體系即“角色—活動—功能組件”,用于描述參考架構中的邏輯構件及其

2、關系;“二個價值鏈維度”分別為“IT價值鏈”和“信息價值鏈”,其中“IT價值鏈”反映的是大數據作為一種新興的數據應用范式對IT技術產生的新需求所帶來的價值,“信息價值鏈”反映的是大數據作為一種數據科學方法論對數據到知識的處理過程中所實現的信息流價值。這些內涵在大數據參考模型圖中得到了體現。大數據參考架構是一個通用的大數據系統概念模型。它表示了通用的、技術無關的大數據系統的邏輯功能構件及構件之間的互操作接口,可以作為開發(fā)各種具體類型大數據

3、應用系統架構的通用技術參考框架。其目標是建立一個開放的大數據技術參考架構,使系統工程師、數據科學家、軟件開發(fā)人員、數據架構師和高級決策者,能夠在可以互操作的大數據生態(tài)系統中制定一個解決方案,解決由各種大數據特征融合而帶來的需要使用多種方法的問題。它提供了一個通用的大數據應用系統框架,支持各種商業(yè)環(huán)境,包括緊密集成的企業(yè)系統和松散耦合的垂直行業(yè),有助于理解大數據系統如何補充并有別于已有的分析、商業(yè)智能、數據庫等傳統的數據應用系統。等。在一

4、個大數據系統中,數據提供者的活動通常包括采集數據、持久化數據、對敏感信息進行轉換和清洗、創(chuàng)建數據源的元數據及訪問策略、訪問控制、通過軟件的可編程接口接口實現推或拉式的數據訪問、發(fā)布數據可用及訪問方法的信息等。數據提供者通常需要為各種數據源(原始數據或由其它系統預先轉換的數據)創(chuàng)建一個抽象的數據源,通過不同的接口提供發(fā)現和訪問數據功能。這些接口通常包括一個注冊表,使得大數據應用程序能夠找到數據提供者、確定包含感興趣的數據、理解允許訪問的類

5、型、了解所支持的分析類型、定位數據源、確定數據訪問方法、識別數據安全要求、識別數據保密要求以及其他相關信息。因此,該接口將提供注冊數據源、查詢注冊表、識別注冊表中包含標準數據集等功能。針對大數據的4V特性和系統設計方面的考慮,暴露和訪問數據的接口需要根據變化的復雜性采用推和拉兩種軟件機制。這兩種軟件機制包括訂閱事件、監(jiān)聽數據饋送、查詢特定數據屬性或內容,以及提交一段代碼來執(zhí)行數據處理功能。由于需要考慮大數據量跨網絡移動的經濟性,接口還可

6、以允許提交分析請求(例如,執(zhí)行一段實現特定算法的軟件代碼),只把結果返回給請求者。數據訪問可能不總是自動進行,可以讓人類角色登錄到系統提供新數據應傳送的方式(例如,基于數據饋送建立訂閱電子郵件)。(3)大數據應用提供者大數據應用提供者在數據的生命周期中執(zhí)行一系列操作,以滿足系統協調者建立的系統要求及安全和隱私要求。大數據應用提供者通過把大數據框架中的一般性資源和服務能力相結合,把業(yè)務邏輯和功能封裝成架構組件,構造出特定的大數據應用系統。

7、大數據應用提供者角色的扮演者包括應用程序專家、平臺專家、咨詢師等。大數據應用提供者角色執(zhí)行的活動包括數據的收集、預處理、分析、可視化和訪問。大數據應用程序提供者可以是單個實例,也可以是一組更細粒度大數據應用提供者實例的集合,集合中的每個實例執(zhí)行數據生命周期中的不同活動。每個大數據應用提供者的活動可能是由系統協調者、數據提供者或數據消費者調用的一般服務,如Web服務器、文件服務器、一個或多個應用程序的集合或組合。每個活動可以由多個不同實例

8、執(zhí)行,或者單個程序也可能執(zhí)行多個活動。每個活動都能夠與大數據框架提供者、數據提供者以及數據消費者交互。這些活動可以并行執(zhí)行,也可以按照任意的數字順序執(zhí)行,活動之間經常需要通過大數據框架提供者的消息和通信框架進行通信。大數據應用提供者執(zhí)行的活動和功能,特別是數據收集和數據訪問活動,需要與安全和隱私角色進行交互,執(zhí)行認證授權并記錄或維護數據的出處。收集活動用于處理與數據提供者的接口。它可以是一般服務,如由系統協調者配置的用于接收或執(zhí)行數據收

9、集任務的文件服務器或Web服務器;也可以是特定于應用的服務,如用來從數據提供者拉數據或接收數據提供者推送數據的服務。收集活動執(zhí)行的任務類似于ETL的抽?。╡xtraction)環(huán)節(jié)。收集活動接收到的數據通常需要大數據框架提供者的處理框架來執(zhí)行內存隊列緩存或其他數據持久化服務。預處理活動執(zhí)行的任務類似于ETL的轉換(transfmation)環(huán)節(jié),包括數據驗證、清洗、去除異常值、標準化、格式化或封裝。預處理活動也是大數據框架提供者歸檔存儲

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論