一、Hadoop框架
Hadoop是目前世界上應用最廣泛的大數據工具。Hadoop具有高容錯率,且其硬件價格低,可以使用普通PC服務器(個人理解:普通PC服務器的具體形式包括個人計算機等)構成大數據集群。
Hadoop的Map和Reduce函數(Map和Reduce函數是大數據主要編程模型)的計算模式簡潔,且開發人員可以通過多種編程語言編寫Map和Reduce函數。Hadoop的生態圈(個人理解:此處的生態圈指可以使用Hadoop的開發工具集合)包含大量算法和組件。
Hadoop的數據吞吐量超過其他大數據計算框架,但速度稍慢于其他大數據計算框架。
二、Storm框架
Storm框架采用的是流計算框架(根據網絡資料理解:流計算框架可處理實時且持續進入流計算框架數據的計算),也可被稱為實時大數據處理框架,在數據處理延時(根據網絡資料理解:數據處理延遲的原因是存儲或檢索數據包需要時間)方面具有較大優勢。
但Storm框架只能進行數據處理,不能進行數據存儲,因此,Storm框架需借助Hadoop框架的HDFS(分布式文件系統)存儲數據。
Storm框架由Twitter(推特)開發,為開源框架,并托管于GitHub(根據百度百科:GitHub是一個面向開源及私有軟件項目的托管平臺),Storm框架可被免費使用。Storm框架支持的編程語言包括:Java、Ruby、Python。
三、Spark框架
Spark框架包含實時流處理工具,Spark框架沒有存儲數據功能。Spark框架可以與Hadoop框架集成,代替Hadoop框架的Map和Reduce函數;也可以將Spark框架單獨部署集群(根據網絡資料理解:部署集群的含義是在集群內的所有電腦或服務器中安裝同一應用),但需要借助HDFS等分布式存儲系統存儲數據。
Spark框架是基于內存的框架,因此,Spark框架的運算速度快,其速度約為Hadoop框架的100倍。
四、Flink框架
(1)與Spark框架相同,Flink框架也是基于內存的實時計算框架。
(2)Flink框架的數據處理速度快于Spark框架的數據處理速度。Flink框架支持毫秒級的流計算,Spark框架支持秒級的流計算。
(3)相比于Spark框架,Flink框架與Hadoop框架具有更好的兼容性。
(4)Flink框架支持API(根據百度百科理解:API一般指應用程序編程接口,可將此處接口理解為服務的傳遞者。API可使開發人員訪問其他系統對外提供的功能接口或服務,且開發人員無需訪問該功能接口或服務的源代碼或理解該功能接口或服務的內部工作機制細節)接口數量與Spark框架支持API接口數量相近(此句由網絡資料總結),但Flink框架對SQL的支持相較于Spark框架對SQL的支持較差。
圖片來源:網絡資料
(5)因為Flink框架較新,使用Flink框架的開發人員較少,所以Flink框架的社區活躍度低于Spark框架,即有關Spark框架的問題更容易得到解答。
五、Yarn架構
Yarn架構屬于Hadoop2.0的分支。如圖一所示,Yarn架構處于HDFS和MapReduce之間。
圖一,圖片來源:學堂在線《大數據導論》
Yarn架構主要由ResourceManager、NodeManager、ApplicationMaster(根據網絡資料:ApplicationMaster負責與ResourceManager協商資源,并與NodeManager協同來執行和監控Container) 、Container(根據網絡資料:Container可被理解為單個節點RAM、CPU、磁盤的集合)組件構成。
Yarn架構的結構是master/slave結構(master的中文含義是主人,slave的中文含義是奴隸,master/slave結構即為主從結構)。如圖二所示,ResourceManager是master,即主節點;NodeManager是slave,即從節點。
圖二,圖片來源:學堂在線《大數據導論》
審核編輯:劉清
-
JAVA
+關注
關注
19文章
2975瀏覽量
105160 -
PC服務器
+關注
關注
0文章
10瀏覽量
7593 -
編程語言
+關注
關注
10文章
1950瀏覽量
34989 -
Hadoop
+關注
關注
1文章
90瀏覽量
16042 -
HDFS
+關注
關注
1文章
30瀏覽量
9641
原文標題:大數據相關介紹(21)——大數據計算框架簡介
文章出處:【微信號:行業學習與研究,微信公眾號:行業學習與研究】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論