首頁: 電子電路圖,電子技術資料網站首頁

電子資料下載: 電子資料下載頻道 -- 為電子工程師提供激發創新靈感的新方案、新的參考設計、新的設計構想等可下載的電子資料！

電子技術應用: 電子技術應用頻道 -- 為電子工程師提供電子產品設計所需的技術分析、設計技巧、設計工具、測試工具等技術文章！

電子元器件: 專業的電子元器件平臺 -- 及時發布大量最新IC、分立器件、模組等電子元器件產品信息！

電子電路圖: 電路圖頻道 -- 提供電子電路圖,原理圖,汽車電路圖,手機電路圖,功放電路圖,電源電路圖等電路圖紙

電子技術論壇: 構建電子工程師交流的平臺 -- 在交流中進一步學習設計技巧、規劃技術人生、提升自我價值！

源碼下載: 源碼下載頻道; uCOS編程 C/C++語言編程 Symbian編程 Linux/uClinux/Unix編程 Windows編程 matlab源程序 php源碼下載 asp.net源碼下載 java源碼下載匯編編程驅動程序單片機編程數值算法/人工智能

您的位置：電子發燒友網>源碼下載>數值算法/人工智能>

Netflix數據管道的演進歷程

大?。?/span>0.3 MB 人氣： 2017-10-11 需要積分：1

推薦 + 挑錯 + 收藏(0) + 用戶評論（0）

前往下載地址

分享到:

標簽：Netflix(10954)

去年12月我們的Keystone數據管道正式投入使用，本文我們就來講講這些年Netflix數據管道的變化歷程。
　　數據是Netflix的中心，很多的商業決策和產品設計都是依據數據分析而做出的決定。在Netflix，數據管道的目的是對數據進行收集歸納和處理，幾乎我們所有的應用都會用到數據管道。下面我們先來看看有關Netflix數據管道的一些統計數據：
　　每天約5000億個事件，1.3PB的數據高峰時段約每秒800萬個事件，24GB數據
　　我們用另外的Atlas系統來管理運營相關的數據所以它并沒有出現在上面的列表中。
　　由于需求的變化和技術的進步，過去幾年我們的數據管道發生了很大的改變。下面我們就來介紹一下。
　　V1.0 Chukwa數據管道
　　最初數據管道唯一的目的就是把事件信息上傳到Hadoop/Hive。如下圖中所示，整個架構是比較簡單的。Chukwa收集事件信息并將sequencefile寫入亞馬遜S3，之后大數據平臺部門會進一步處理并寫入Hive。從事件發生到以Parquet格式寫入Hive整個過程不超過十分鐘，對于每小時甚至每天才運行一次的batch job來說已經足夠了。
　　 Netflix數據管道的演進歷程

　　V1.5 能夠進行實時處理的Chukwa數據管道
　　隨著Kafka和Elasticsearch等技術的發展，公司內部對于實時分析的需求愈加強烈，我們必須保證處理所需時間在一分鐘之內。
　　 Netflix數據管道的演進歷程

　　除了將數據寫入S3，Chukwa還可以將數據發送到Kafka，新的實時分支（虛線框住的部分）處理的事件大約占到總事件的30%。處于實時處理分支中心位置的是事件路由模塊，它負責將數據從Kafka傳遞到Elasticsearch和下一級Kafka（進行數據的篩選）。終端用戶可以自由選擇趁手的工具進行分析，比如Mantis、Spark或其他定制工具。
　　Elasticsearch在Netflix的應用過去兩年經歷了爆炸式的發展，現在共有約150個集群和約3500個節點，總數據量約1.3PB，而這其中大部分數據都是通過我們的數據管道采集處理的。
　　數據路由的部分是由我所在的小組管理的，下面是一些我們碰到過的問題：
　　Kafka high level consumer會喪失消息分區的所有權并停止讀取一些分區，唯一的解決辦法是重啟。有時部署代碼之后high level consumer在rebalance時會出錯。我們有幾十個集群用于事件路由，運營上的開銷正持續增長，所以對于路由job的管理還要想個更好的辦法。

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

下載地址

不能下載？請通知我們

Netflix數據管道的演進歷程下載

普通下載普通下載

用戶評論

發表評論即可獲得積分！ 詳見積分規則

發表評論

用戶評論

評價:好評中評差評

發表評論，獲取積分！請遵守相關規定！

注冊會員

游客:

衡阳派盒市场营销有限公司

Netflix數據管道的演進歷程

下載地址

Netflix數據管道的演進歷程下載

相關電子資料下載

用戶評論

發表評論

分享你我的電子世界

實用電子設計資料下載

源碼下載排行

熱門詞