1 引言
大數(shù)據(jù)處理系統(tǒng)始終是分析大數(shù)據(jù)的基礎(chǔ),因為大數(shù)據(jù)本身具有信息量繁多冗雜、擴(kuò)展速度極快、信息多樣性且價值密度高等特點,所以要求大數(shù)據(jù)處理系統(tǒng)具有極強的專業(yè)性和高效性,能夠合理并有效的處理大規(guī)模的數(shù)據(jù)并形成可用的數(shù)據(jù)體系[1-3]。目前較為典型的大數(shù)據(jù)處理系統(tǒng)有三種。分別為大數(shù)據(jù)實時流式處理系統(tǒng)、離線批量處理系統(tǒng)、交互式處理系統(tǒng)以及大數(shù)據(jù)可視化處理系統(tǒng),本文將依次介紹這三種大數(shù)據(jù)處理系統(tǒng)的概念及其特點并分析其應(yīng)用場景。
2 實時流式處理系統(tǒng)及應(yīng)用場景
(1)流式大數(shù)據(jù)概念及其特點。流式大數(shù)據(jù)又被稱為實時大數(shù)據(jù),流式處理系統(tǒng)是以分析實時數(shù)據(jù)為基礎(chǔ),是基于實時數(shù)據(jù)流的數(shù)據(jù)處理,一般處理時間是在數(shù)百毫秒到數(shù)秒之間。
(2)大數(shù)據(jù)實時處理系統(tǒng)的技術(shù)架構(gòu)。根據(jù)大數(shù)據(jù)實時流式處理的特點可以總結(jié)出,這種數(shù)據(jù)處理系統(tǒng)其實就是數(shù)據(jù)的收集、傳輸、處理和展現(xiàn)的過程。其中數(shù)據(jù)的處理中涉及數(shù)據(jù)的聚合,而且整個過程需要能夠在秒級或毫秒級得到相應(yīng)的響應(yīng)。目前針對這一系列特點形成了 Flume + kafka + Storm / Spark + Hbase / Redis 的技術(shù)框架。
(3)大數(shù)據(jù)實時流式處理系統(tǒng)的應(yīng)用場景。流式大數(shù)據(jù)實時處理系統(tǒng)主要廣泛應(yīng)用于金融、公安、電信、交通等領(lǐng)域,在金融行業(yè),流式大數(shù)據(jù)實時處理系統(tǒng)在金融風(fēng)控反欺詐方面發(fā)揮著重要作用,能夠搜集融合眾多專家知識以及機器研究結(jié)果的數(shù)百條規(guī)則,作為對每筆交易的風(fēng)險評估依據(jù),判斷該筆交易是否能夠安全進(jìn)行。
3 離線處理系統(tǒng)及應(yīng)用場景
(1)大數(shù)據(jù)離線處理系統(tǒng)概念及其特點。根據(jù)數(shù)據(jù)分析的時效性,我們可以把大數(shù)據(jù)分析處理系統(tǒng)分為實時處理和離線處理兩種類型。
(2)大數(shù)據(jù)離線處理處理系統(tǒng)的常用工具。相對于在線處理系統(tǒng)所呈現(xiàn)的技術(shù)架構(gòu),大數(shù)據(jù)離線處理系統(tǒng)已經(jīng)相對成熟,大數(shù)據(jù)離線處理的流程通常是利用 Hdfs 存儲數(shù)據(jù),確保數(shù)據(jù)有效存儲之后,再利用 MapReduce 進(jìn)行離線數(shù)據(jù)的批量運算,批量計算所得出的數(shù)據(jù)如果需要進(jìn)入數(shù)據(jù)倉庫進(jìn)行存儲,可以直接接入 Hive,用過 Hive 進(jìn)行展示。① Hdfs 是一種分布式的文件系統(tǒng),可以對數(shù)據(jù)進(jìn)行多次備份。② MapReduce 是一種批量計算技術(shù)框架,同樣是分布式布局,分為兩個階段:Map 階段和 Reduce 階段。③ Hive 中的數(shù)據(jù)存儲于文件系統(tǒng)中,并且大部分?jǐn)?shù)據(jù)是使用 Hdfs 來存儲的。Hive 為方便訪問數(shù)據(jù)倉庫中的數(shù)據(jù)提供了一種方法,HQL 方法,該方法能夠滿足大數(shù)據(jù)離線處理中需要對批量處理的數(shù)據(jù)結(jié)果進(jìn)行查詢的要求。
(3)大數(shù)據(jù)離線處理系統(tǒng)目前較常見的應(yīng)用場景是,大數(shù)據(jù)團(tuán)隊通過統(tǒng)一計算引擎入口,降低用戶接入門檻。充分利用集群本身數(shù)據(jù),有效促進(jìn)集群本身的建設(shè),加強對隊列、任務(wù)及主機失敗率的監(jiān)控,使用戶能夠自主分析任務(wù)性能并進(jìn)行自主調(diào)整。
4 交互可視化處理系統(tǒng)及應(yīng)用場景
(1)大數(shù)據(jù)交互可視化處理的概念及其特點。大數(shù)據(jù)交互可視化處理是將大數(shù)據(jù)形象化,可視化也就是將數(shù)據(jù)呈現(xiàn)出可視效果。大數(shù)據(jù)交互可視化處理具有兩個特點:首先表現(xiàn)方式多樣化,包括圖形、地圖、故事情節(jié)圖、結(jié)構(gòu)化插圖等。其次是適用范圍廣泛,具有領(lǐng)域創(chuàng)新性,隨著大數(shù)據(jù)的發(fā)展,傳統(tǒng)的數(shù)據(jù)表現(xiàn)形式已經(jīng)不能滿足需要,就要求對數(shù)據(jù)進(jìn)行可視化處理。
(2)大數(shù)據(jù)交互可視化處理的主要手段。① D3 經(jīng)常出現(xiàn)在表格插件中,是目前最受歡迎的可視化庫之一。D3 可以將數(shù)據(jù)綁定到 DOM 并將其驅(qū)動轉(zhuǎn)移應(yīng)用到 Document 之中。同時 D3 是繪制交互桑葚圖的一種非常簡單的工具,桑葚圖也就是桑葚能量分流圖,它作為一種類型獨特的流程圖,一般多用于能源、金融等大數(shù)據(jù)的可視化分析。另外,D3 也可以作為對 Sunburst Partition 的可視化工具,主要用來描述用戶群體的路徑點擊狀況。② ECharts 即商業(yè)級數(shù)據(jù)圖表,可以在 PC 端和移動設(shè)備上流暢運行的純 Javascript 圖表庫,為我們提供生動形象,可交互,可個性定制的大數(shù)據(jù)可視化圖表,能夠高效增強用戶體驗效果。③ R 語言是目前功能比較強大的大數(shù)據(jù)可視化解決路徑,R 語言基本可以獨立自主地完成數(shù)據(jù)處理、可視化分析、建模以及模型分析等工作,同時可以作為配合完成與其他工具的數(shù)據(jù)交互。
除此之外,R 語言能夠完成頂尖的制圖工作,不僅可以完成lattcie 包、ggplot2 包的復(fù)雜數(shù)據(jù)可視化,還可以完成rCharts 包、recharts 包、plotly 包的數(shù)據(jù)交互可視化。
(3)大數(shù)據(jù)交互可視化處理的應(yīng)用場景。大數(shù)據(jù)作為一個新的研究領(lǐng)域在近幾年受到越來越多的關(guān)注,大數(shù)據(jù)可視化也正成為一大熱點。以下將介紹三種大數(shù)據(jù)交互可視化較典型的應(yīng)用場景。
第一是應(yīng)用于社會關(guān)系的可視化,隨著移動互聯(lián)網(wǎng)的不斷發(fā)展,互聯(lián)網(wǎng)社會網(wǎng)絡(luò)數(shù)據(jù)已成為十分重要的數(shù)據(jù)資源,社會網(wǎng)絡(luò)分析就是利用這些數(shù)據(jù)資源分析各種網(wǎng)絡(luò)現(xiàn)象。另外,用戶社交性設(shè)計在最近幾年的移動端網(wǎng)游中也受到越來越多的關(guān)注和重視,用戶社交型設(shè)計就需要以數(shù)據(jù)交互可視化為基礎(chǔ),從而建立并美化游戲模式,增強用戶游戲體驗。
第二個應(yīng)用場景是地理信息的可視化。例如百度遷移圖,就是基于大數(shù)據(jù)可視化的地理信息可視化的典型例子,可以通過分析處理動態(tài)數(shù)據(jù),將數(shù)據(jù)進(jìn)行動態(tài)連線處理,從而形成流向圖,一目了然。除此之外也可以利用 Remap 實現(xiàn)天氣預(yù)報的功能,也可以實現(xiàn)會議在地圖上的可視化,如中國 2015 年 R 語言會議在各個城市舉行情況的可視化展示。近幾年較為流行的另外一種地理信息可視化方式是城市熱力圖,圖示以不同深淺的顏色來表示各個地區(qū)的實際數(shù)據(jù)。
第三是美國大選的大數(shù)據(jù)可視化,在美國大選期間,美國媒體產(chǎn)出大量選舉相關(guān)的數(shù)據(jù)報道,通過對這些大數(shù)據(jù)的可視化,選民可以清晰了解選舉動態(tài)。通過以上幾種大數(shù)據(jù)可視化的典型例子,我們可以看出,大數(shù)據(jù)可視化是一個具有多種可能,且并不難以實現(xiàn)的大數(shù)據(jù)處理系統(tǒng),而且具有極大的發(fā)展空間。
5 結(jié)語
大數(shù)據(jù)處理系統(tǒng)會隨著大數(shù)據(jù)研究的深入以及數(shù)據(jù)處理技術(shù)的發(fā)展而更加多元更加完善,也將會在更多行業(yè)或領(lǐng)域中被實際應(yīng)用。大數(shù)據(jù)已經(jīng)深入到我們生活的方方面面,如何能夠更有效更充分挖掘大數(shù)據(jù)中的價值仍需要不斷地研究和探索。
-
處理系統(tǒng)
+關(guān)注
關(guān)注
0文章
93瀏覽量
16695 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8908瀏覽量
137791
原文標(biāo)題:大數(shù)據(jù)處理系統(tǒng)模式及其應(yīng)用分析
文章出處:【微信號:appic-cn,微信公眾號:集成電路應(yīng)用雜志】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論