大規模機器學習框架的四重境界 - 全文

自從google發表著名的GFS、MapReduce、BigTable三篇paper以后，互聯網正式迎來了大數據時代。大數據的顯著特點是大，哪里都大的大。本篇主要針對volume大的數據時，使用機器學習來進行數據處理過程中遇到的架構方面的問題做一個系統的梳理。

有了GFS我們有能力積累海量的數據樣本，比如在線廣告的曝光和點擊數據，天然具有正負樣本的特性，累積一兩個月往往就能輕松獲得百億、千億級的訓練樣本。這樣海量的樣本如何存儲？用什么樣的模型可以學習海量樣本中有用的pattern？這些問題不止是工程問題，也值得每個做算法的同學去深入思考。

1.1簡單模型or復雜模型

在深度學習概念提出之前，算法工程師手頭能用的工具其實并不多，就LR、SVM、感知機等寥寥可數、相對固定的若干個模型和算法；那時候要解決一個實際的問題，算法工程師更多的工作主要是在特征工程方面。而特征工程本身并沒有很系統化的指導理論（至少目前沒有看到系統介紹特征工程的書籍），所以很多時候特征的構造技法顯得光怪陸離，是否有用也取決于問題本身、數據樣本、模型以及運氣。

在特征工程作為算法工程師主要工作內容的時候，構造新特征的嘗試往往很大部分都不能在實際工作中work。據我了解，國內幾家大公司在特征構造方面的成功率在后期一般不會超過20%。也就是80%的新構造特征往往并沒什么正向提升效果。如果給這種方式起一個名字的話，大概是簡單模型+復雜特征；簡單模型說的是算法比如LR、SVM本身并不服務，參數和表達能力基本呈現一種線性關系，易于理解。復雜特征則是指特征工程方面不斷嘗試使用各種奇技淫巧構造的可能有用、可能沒用的特征，這部分特征的構造方式可能會有各種trick，比如窗口滑動、離散化、歸一化、開方、平方、笛卡爾積、多重笛卡爾積等等；順便提一句，因為特征工程本身并沒有特別系統的理論和總結，所以初入行的同學想要構造特征就需要多讀paper，特別是和自己業務場景一樣或類似的場景的paper，從里面學習作者分析、理解數據的方法以及對應的構造特征的技法；久而久之，有望形成自己的知識體系。

深度學習概念提出以后，人們發現通過深度神經網絡可以進行一定程度的表示學習（representation learning），例如在圖像領域，通過CNN提取圖像feature并在此基礎上進行分類的方法，一舉打破了之前算法的天花板，而且是以極大的差距打破。這給所有算法工程師帶來了新的思路，既然深度學習本身有提取特征的能力，干嘛還要苦哈哈的自己去做人工特征設計呢？

深度學習雖然一定程度上緩解了特征工程的壓力，但這里要強調兩點：1.緩解并不等于徹底解決，除了圖像這種特定領域，在個性化推薦等領域，深度學習目前還沒有完全取得絕對的優勢；究其原因，可能還是數據自身內在結構的問題，使得在其他領域目前還沒有發現類似圖像+CNN這樣的完美CP。2.深度學習在緩解特征工程的同時，也帶來了模型復雜、不可解釋的問題。算法工程師在網絡結構設計方面一樣要花很多心思來提升效果。概括起來，深度學習代表的簡單特征+復雜模型是解決實際問題的另一種方式。

兩種模式孰優孰劣還難有定論，以點擊率預測為例，在計算廣告領域往往以海量特征+LR為主流，根據VC維理論，LR的表達能力和特征個數成正比，因此海量的feature也完全可以使LR擁有足夠的描述能力。而在個性化推薦領域，深度學習剛剛萌芽，目前google play采用了WDL的結構[1]，youtube采用了雙重DNN的結構[2]。

不管是那種模式，當模型足夠龐大的時候，都會出現模型參數一臺機器無法存放的情況。比如百億級feature的LR對應的權重w有好幾十個G，這在很多單機上存儲都是困難的，大規模神經網絡則更復雜，不僅難以單機存儲，而且參數和參數之間還有邏輯上的強依賴；要對超大規模的模型進行訓練勢必要借用分布式系統的技法，本文主要是系統總結這方面的一些思路。

1.2數據并行vs模型并行

數據并行和模型并行是理解大規模機器學習框架的基礎概念，其緣起未深究，第一次看到是在姐夫（Jeff Dean）的blog里，當時匆匆一瞥，以為自己懂了。多年以后，再次開始調研這個問題的時候才想起長者的教訓，年輕人啊，還是圖樣，圖森破。如果你和我一樣曾經忽略過這個概念，今天不放復習一下。

這兩個概念在[3]中沐帥曾經給出了一個非常直觀而經典的解釋，可惜不知道什么原因，當我想引用時卻發現已經被刪除了。我在這里簡單介紹下這個比喻：如果要修兩棟樓，有一個工程隊，怎么操作？第一個方案是將人分成兩組，分別蓋樓，改好了就裝修；第二種做法是一組人蓋樓，等第一棟樓蓋好，另一組裝修第一棟，然后第一組繼續蓋第二棟樓，改完以后等裝修隊裝修第二棟樓。咋一看，第二種方法似乎并行度并不高，但第一種方案需要每個工程人員都擁有“蓋樓”和“裝修”兩種能力，而第二個方案只需要每個人擁有其中一種能力即可。第一個方案和數據并行類似，第二個方案則道出了模型并行的精髓。
數據并行理解起來比較簡單，當樣本比較多的時候，為了使用所有樣本來訓練模型，我們不妨把數據分布到不同的機器上，然后每臺機器都來對模型參數進行迭代，如下圖所示

大規模機器學習框架的四重境界

圖片取材于TensorFlow的paper[4]，圖中ABC代表三臺不同的機器，上面存儲著不同的樣本，模型P在各臺機器上計算對應的增量，然后在參數存儲的機器上進行匯總和更新，這就是數據并行。先忽略synchronous，這是同步機制相關的概念，在第三節會有專門介紹。

數據并行概念簡單，而且不依賴于具體的模型，因此數據并行機制可以作為框架的一種基礎功能，對所有算法都生效。與之不同的是，模型并行因為參數間存在依賴關系（其實數據并行參數更新也可能會依賴所有的參數，但區別在于往往是依賴于上一個迭代的全量參數。而模型并行往往是同一個迭代內的參數之間有強依賴關系，比如DNN網絡的不同層之間的參數依照BP算法形成的先后依賴），無法類比數據并行這樣直接將模型參數分片而破壞其依賴關系，所以模型并行不僅要對模型分片，同時需要調度器來控制參數間的依賴關系。而每個模型的依賴關系往往并不同，所以模型并行的調度器因模型而異，較難做到完全通用。關于這個問題，CMU的Erix Xing在[5]中有所介紹，感興趣的可以參考。

模型并行的問題定義可以參考姐夫的[6]，這篇paper也是tensorflow的前身相關的總結，其中圖

大規模機器學習框架的四重境界

解釋了模型并行的物理圖景，當一個超大神經網絡無法存儲在一臺機器上時，我們可以切割網絡存到不同的機器上，但是為了保持不同參數分片之間的依賴，如圖中粗黑線的部分，則需要在不同的機器之間進行concurrent控制；同一個機器內部的參數依賴，即途中細黑線部分在機器內即可完成控制。

黑線部分如何有效控制呢？如下圖所示

大規模機器學習框架的四重境界

在將模型切分到不同機器以后，我們將參數和樣本一起在不同機器間流轉，圖中ABC代表模型的不同部分的參數；假設C依賴B，B依賴A，機器1上得到A的一個迭代后，將A和必要的樣本信息一起傳到機器2，機器2根據A和樣本對P2更新得到，以此類推；當機器2計算B的時候，機器1可以展開A的第二個迭代的計算。了解CPU流水線操作的同學一定感到熟悉，是的，模型并行是通過數據流水線來實現并行的。想想那個蓋樓的第二種方案，就能理解模型并行的精髓了。

大規模機器學習框架的四重境界

上圖則是對控制模型參數依賴的調度器的一個示意圖，實際框架中一般都會用DAG（有向無環圖）調度技術來實現類似功能，未深入研究，以后有機會再補充說明。

理解了數據并行和模型并行對后面參數服務器的理解至關重要，但現在讓我先蕩開一筆，簡單介紹下并行計算框架的一些背景信息。

2. 并行算法演進

2.1 MapReduce路線

從函數式編程中的受到啟發，google發布了MapReduce[7]的分布式計算方式；通過將任務切分成多個疊加的Map+Reduce任務，來完成復雜的計算任務，示意圖如下

大規模機器學習框架的四重境界

MapReduce的主要問題有兩個，一是原語的語義過于低級，直接使用其來寫復雜算法，開發量比較大；另一個問題是依賴于磁盤進行數據傳遞，性能跟不上業務需求。

為了解決MapReduce的兩個問題，Matei在[8]中提出了一種新的數據結構RDD，并構建了Spark框架。Spark框架在MR語義之上封裝了DAG調度器，極大降低了算法使用的門檻。較長時間內spark幾乎可以說是大規模機器學習的代表，直至后來沐帥的參數服務器進一步開拓了大規模機器學習的領域以后，spark才暴露出一點點不足。如下圖

大規模機器學習框架的四重境界

從圖中可以看出，spark框架以Driver為核心，任務調度和參數匯總都在driver，而driver是單機結構，所以spark的瓶頸非常明顯，就在Driver這里。當模型規模大到一臺機器存不下的時候，Spark就無法正常運行了。所以從今天的眼光來看，Spark只能稱為一個中等規模的機器學習框架。劇透一句，公司開源的Angel通過修改Driver的底層協議將Spark擴展到了一個高一層的境界。后面還會再詳細介紹這部分。

MapReduce不僅是一個框架，還是一種思想，google開創性的工作為我們找到了大數據分析的一個可行方向，時至今日，仍不過時。只是逐漸從業務層下沉到底層語義應該處于的框架下層。

2.2 MPI技術

沐帥在[9]中對MPI的前景做了簡要介紹；和Spark不同，MPI是類似socket的一種系統通信API，只是支持了消息廣播等功能。因為對MPI研究不深入，這里簡單介紹下優點和缺點吧；優點是系統級支持，性能杠杠的；缺點也比較多，一是和MR一樣因為原語過于低級，用MPI寫算法，往往代碼量比較大。另一方面是基于MPI的集群，如果某個任務失敗，往往需要重啟整個集群，而MPI集群的任務成功率并不高。阿里在[10]中給出了下圖：

大規模機器學習框架的四重境界

從圖中可以看出，MPI作業失敗的幾率接近五成。MPI也并不是完全沒有可取之處，正如沐帥所說，在超算集群上還是有場景的。對于工業屆依賴于云計算、依賴于commodity計算機來說，則顯得性價比不夠高。當然如果在參數服務器的框架下，對單組worker再使用MPI未嘗不是個好的嘗試，[10]的鯤鵬系統正式這么設計的。

3. 參數服務器演進

3.1 歷史演進

沐帥在[12]中將參數服務器的歷史劃分為三個階段，第一代參數服務器萌芽于沐帥的導師Smola的[11]，如下圖所示：

大規模機器學習框架的四重境界

這個工作中僅僅引入memcached來存放key-value數據，不同的處理進程并行對其進行處理。[13]中也有類似的想法，第二代參數服務器叫application-specific參數服務器，主要針對特定應用而開發，其中最典型的代表應該是tensorflow的前身[6]。

第三代參數服務器，也即是通用參數服務器框架是由百度少帥李沐正式提出的，和前兩代不同，第三代參數服務器從設計上就是作為一個通用大規模機器學習框架來定位的。要擺脫具體應用、算法的束縛，做一個通用的大規模機器學習框架，首先就要定義好框架的功能；而所謂框架，往往就是把大量重復的、瑣碎的、做了一次就不想再來第二次的臟活、累活進行良好而優雅的封裝，讓使用框架的人可以只關注與自己的核心邏輯。第三代參數服務器要對那些功能進行封裝呢？沐帥總結了這幾點，我照搬如下：

1）高效的網絡通信：因為不管是模型還是樣本都十分巨大，因此對網絡通信的高效支持以及高配的網絡設備都是大規模機器學習系統不可缺少的；

2）靈活的一致性模型：不同的一致性模型其實是在模型收斂速度和集群計算量之間做tradeoff；要理解這個概念需要對模型性能的評價做些分析，暫且留到下節再介紹。

3）彈性可擴展：顯而易見

4）容災容錯：大規模集群協作進行計算任務的時候，出現Straggler或者機器故障是非常常見的事，因此系統設計本身就要考慮到應對；沒有故障的時候，也可能因為對任務時效性要求的變化而隨時更改集群的機器配置。這也需要框架能在不影響任務的情況下能做到機器的熱插拔。

5）易用性：主要針對使用框架進行算法調優的工程師而言，顯然，一個難用的框架是沒有生命力的。

在正式介紹第三代參數服務器的主要技術之前，先從另一個角度來看下大規模機器學習框架的演進

大規模機器學習框架的四重境界

這張圖可以看出，在參數服務器出來之前，人們已經做了多方面的并行嘗試，不過往往只是針對某個特定算法或特定領域，比如YahooLDA是針對LDA算法的。當模型參數突破十億以后，則可以看出參數服務器一統江湖，再無敵手。

首先我們看看第三代參數服務器的基本架構

大規模機器學習框架的四重境界

上圖的resource manager可以先放一放，因為實際系統中這部分往往是復用現有的資源管理系統，比如yarn或者mesos；底下的training data毋庸置疑的需要類似GFS的分布式文件系統的支持；剩下的部分就是參數服務器的核心組件了。

圖中畫了一個server group和三個worker group；實際應用中往往也是類似，server group用一個，而worker group按需配置；server manager是server group中的管理節點，一般不會有什么邏輯，只有當有server node加入或退出的時候，為了維持一致性哈希而做一些調整。

Worker group中的task schedule則是一個簡單的任務協調器，一個具體任務運行的時候，task schedule負責通知每個worker加載自己對應的數據，然后去server node上拉取一個要更新的參數分片，用本地數據樣本計算參數分片對應的變化量，然后同步給server node；server node在收到本機負責的參數分片對應的所有worker的更新后，對參數分片做一次update。

大規模機器學習框架的四重境界

如圖所示，不同的worker同時并行運算的時候，可能因為網絡、機器配置等外界原因，導致不同的worker的進度是不一樣的，如何控制worker的同步機制是一個比較重要的課題。詳見下節分解。

3.2同步協議

本節假設讀者已經對隨機梯度優化算法比較熟悉，如果不熟悉的同學請參考吳恩達經典課程機器學習中對SGD的介紹，或者我之前多次推薦過的書籍《最優化導論》。

我們先看一個單機算法的運行過程，假設一個模型的參數切分成三個分片k1，k2，k3；比如你可以假設是一個邏輯回歸算法的權重向量被分成三段。我們將訓練樣本集合也切分成三個分片s1，s2，s3；在單機運行的情況下，我們假設運行的序列是（k1，s1）、（k2，s1）、（k3、s1）、（k1、s2）、（k2、s2）、（k3、s2）。。?？疵靼琢藛?？就是假設先用s1中的樣本一次對參數分片k1、k2、k3進行訓練，然后換s2；這就是典型的單機運行的情況，而我們知道這樣的運行序列最后算法會收斂。

現在我們開始并行化，假設k1、k2、k3分布在三個server node上，s1、s2、s3分布在三個worker上，這時候如果我們還要保持之前的計算順序，則會變成怎樣？work1計算的時候，work2和worker3只能等待，同樣worker2計算的時候，worker1和work3都得等待，以此類推；可以看出這樣的并行化并沒有提升性能；但是也算簡單解決了超大規模模型的存儲問題。

為了解決性能的問題，業界開始探索這里的一致性模型，最先出來的版本是前面提到的[11]中的ASP模式，就是完全不顧worker之間的順序，每個worker按照自己的節奏走，跑完一個迭代就update，然后繼續，這應該是大規模機器學習中的freestyle了，如圖所示

大規模機器學習框架的四重境界

ASP的優勢是最大限度利用了集群的計算能力，所有的worker所在的機器都不用等待，但缺點也顯而易見，除了少數幾個模型，比如LDA，ASP協議可能導致模型無法收斂。也就是SGD徹底跑飛了，梯度不知道飛到哪里去了。

在ASP之后提出了另一種相對極端的同步協議BSP，spark用的就是這種方式，如圖所示

大規模機器學習框架的四重境界

每個worker都必須在同一個迭代運行，只有一個迭代任務所有的worker都完成了，才會進行一次worker和server之間的同步和分片更新。這個算法和嚴格一直的算法非常類似，區別僅僅在于單機版本的batch size在BSP的時候變成了有所有worker的單個batch size求和得到的總的butch size替換。毫無疑問，BSP的模式和單機串行因為僅僅是batch size的區別，所以在模型收斂性上是完全一樣的。同時，因為每個worker在一個周期內是可以并行計算的，所以有了一定的并行能力。

以此協議為基礎的spark在很長時間內成為機器學習領域實際的霸主，不是沒有理由的。此種協議的缺陷之處在于，整個worker group的性能由其中最慢的worker決定；這個worker一般稱為straggler。讀過GFS文章的同學應該都知道straggler的存在是非常普遍的現象。

能否將ASP和BSP做一下折中呢？答案當然是可以的，這就是目前我認為最好的同步協議SSP；SSP的思路其實很簡單，既然ASP是允許不同worker之間的迭代次數間隔任意大，而BSP則只允許為0，那我是否可以取一個常數s？如圖所示

大規模機器學習框架的四重境界

不同的worker之間允許有迭代的間隔，但這個間隔數不允許超出一個指定的數值s，圖中s=3.

SSP協議的詳細介紹參見[14]，CMU的大拿Eric Xing在其中詳細介紹了SSP的定義，以及其收斂性的保證。理論推導證明常數s不等于無窮大的情況下，算法一定可以在若干次迭代以后進入收斂狀態。其實在Eric提出理論證明之前，工業界已經這么嘗試過了：）

順便提一句，考察分布式算法的性能，一般會分為statistical performance和hard performance來看。前者指不同的同步協議導致算法收斂需要的迭代次數的多少，后者是單次迭代所對應的耗時。兩者的關系和precision\recall關系類似，就不贅述了。有了SSP，BSP就可以通過指定s=0而得到。而ASP同樣可以通過制定s=∞來達到。

3.3核心技術

除了參數服務器的架構、同步協議之外，本節再對其他技術做一個簡要的介紹，詳細的了解請直接閱讀沐帥的博士論文和相關發表的論文。

熱備、冷備技術：為了防止server node掛掉，導致任務中斷，可以采用兩個技術，一個是對參數分片進行熱備，每個分片存儲在三個不同的server node中，以master-slave的形式存活。如果master掛掉，可以快速從slave獲取并重啟相關task。

除了熱備，還可以定時寫入checkpoint文件到分布式文件系統來對參數分片及其狀態進行備份。進一步保證其安全性。

Server node管理：可以使用一致性哈希技術來解決server node的加入和退出問題，如圖所示

大規模機器學習框架的四重境界

當有server node加入或退出的時候，server manager負責對參數進行重新分片或者合并。注意在對參數進行分片管理的情況下，一個分片只需要一把鎖，這大大提升了系統的性能，也是參數服務器可以實用的一個關鍵點。

4. 大規模機器學習的四重境界

到這里可以回到我們的標題了，大規模機器學習的四重境界到底是什么呢？

這四重境界的劃分是作者個人閱讀總結的一種想法，并不是業界標準，僅供大家參考。

境界1：參數可單機存儲和更新

此種境界較為簡單，但仍可以使用參數服務器，通過數據并行來加速模型的訓練。

境界2：參數不可單機存儲，可以單機更新

此種情況對應的是一些簡單模型，比如sparse logistic regression；當feature的數量突破百億的時候，LR的權重參數不太可能在一臺機器上完全存下，此時必須使用參數服務器架構對模型參數進行分片。但是注意一點，SGD的更新公式

w’=w-α，其中可以分開到單個維度進行計算，但是單個維度的wi=f(w)xi

這里的f(w)表示是全部參數w的一個函數，具體推倒比較簡單，這里篇幅所限就不贅述了。只是想說明worker在計算梯度的時候可能需要使用到上一輪迭代的所有參數。而我們之所以對參數進行分片就是因為我們無法將所有參數存放到一臺機器，現在單個worker有需要使用所有的參數才能計算某個參數分片的梯度，這不是矛盾嗎？可能嗎？

答案是可能的，因為單個樣本的feature具有很高的稀疏性（sparseness）。例如一個百億feature的模型，單個訓練樣本往往只在其中很小一部分feature上有取值，其他都為0（假設feature取值都已經離散化了）。因此計算f(w)的時候可以只拉取不為0的feature對應的那部分w即可。有文章統計一般這個級別的系統，稀疏性往往在0.1%（or 0.01%，記得不是很準，大致這樣）以下。這樣的稀疏性，可以讓單機沒有任何阻礙的計算f(w)。

目前公司開源的angel和AILab正在做的系統都處于這個境界。而原生spark還沒有達到這個境界，只能在中小規模的圈子里廝混。Angel改造的基于Angel的Spark則達到了這個境界。

境界3：參數不可單機存儲，不可單機更新，但無需模型并行

境界3順延境界2二來，當百億級feature且feature比較稠密的時候，就需要計算框架進入到這層境界了，此時單個worker的能力有限，無法完整加載一個樣本，也無法完整計算f(w)。怎么辦呢？其實很簡單，學過線性代數的都知道，矩陣可以分塊。向量是最簡單的矩陣，自然可以切成一段一段的來計算。只是調度器需要支持算符分段而已了。

境界4：參數不可單機存儲，不可單機更新，需要模型并行

進入到這個層次的計算框架，可以算是世界一流了?？梢蕴幚沓笠幠５纳窠浘W絡。這也是最典型的應用場景。此時不僅模型的參數不能單機存儲，而且同一個迭代內，模型參數之間還有強的依賴關系，可以參見姐夫對distbelief的介紹里的模型切分。

此時首先需要增加一個coordinator組件來進行模型并行的concurrent控制。同時參數服務器框架需要支持namespace切分，coordinator將依賴關系通過namespace來進行表示。

一般參數間的依賴關系因模型而已，所以較難抽象出通用的coordinator來，而必須以某種形式通過腳本parser來生產整個計算任務的DAG圖，然后通過DAG調度器來完成。對這個問題的介紹可以參考Erix Xing的分享[5]。

Tensorflow

目前業界比較知名的深度學習框架有Caffee、MXNet、Torch、Keras、Theano等，但目前最炙手可熱的應該是google發布的Tensorflow。這里單獨拿出來稍微分解下。

前面不少圖片引自此文，從TF的論文來看，TF框架本身是支持模型并行和數據并行的，內置了一個參數服務器模塊，但從開源版本所曝光的API來看，TF無法用來10B級別feature的稀疏LR模型。原因是已經曝光的API只支持在神經網絡的不同層和層間進行參數切分，而超大規模LR可以看做一個神經單元，TF不支持單個神經單元參數切分到多個參數服務器node上。

當然，以google的實力，絕對是可以做到第四重境界的，之所以沒有曝光，可能是基于其他商業目的的考量，比如使用他們的云計算服務。

綜上，個人認為如果能做到第四重境界，目前可以說的上是世界一流的大規模機器學習框架。僅從沐帥的ppt里看他曾經達到過，google內部應該也是沒有問題的。第三重境界應該是國內一流，第二充應該是國內前列吧。

5. 其他

5.1 資源管理

本文沒有涉及到的部分是資源管理，大規模機器學習框架部署的集群往往資源消耗也比較大，需要專門的資源管理工具來維護。這方面yarn和mesos都是佼佼者，細節這里也就不介紹了。

5.2 設備

除了資源管理工具，本身部署大規模機器學習集群本身對硬件也還是有些要求的，雖然理論上來說，所有commodity機器都可以用來搭建這類集群，但是考慮到性能，我們建議盡量用高內存的機器+萬兆及以上的網卡。沒有超快速的網卡，玩參數傳遞和樣本加載估計會比較苦逼。

6. 結語

從后臺轉算法以來，長期沉浸于算法推理的論文無法自拔，對自己之前的后臺工程能力漸漸輕視起來，覺得工程對算法的幫助不大。直到最近一個契機，需要做一個這方面的調研，才豁然發現，之前的工程經驗對我理解大規模機器學習框架非常有用，果然如李宗盛所說，人生每一步路，都不是白走的。

在一個月左右的調研中，腦子每天都充斥這各種疑問和困惑，曾經半夜4點醒來，思考同步機制而再也睡不著，干脆起來躲衛生間看書，而那天我一點多才睡。當腦子里有放不下的問題的時候，整個人會處于一種非?？簥^的狀態，除非徹底想清楚這個問題，否則失眠是必然的，上一次這種狀態已經是很多年前了。好在最后我總算理清了這方面的所有關鍵細節。以此，記之。Carbon zhang于2017年8月26日凌晨！

致謝

感謝wills、janwang、joey、roberty、suzi等同學一起討論，特別感謝burness在TF方面的深厚造詣和調研。因為本人水平所限，錯漏難免，另外還有相當多的細節因為篇幅限制并未一一展開，僅僅是從較高抽象層面上簡述了下大規模機器學習框架的關鍵思路，其他如分片向量鎖、通信協議、時鐘邏輯、DAG調度器、資源調度模塊等均為展開來講，希望以后有機會能補上。

引用

1. Wide& Deep Learning for Recommender Systems

2. Deep Neural Networks for YouTube Recommendations
3. https://www.zhihu.com/question/53851014

4. TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems

6. Large Scale Distributed Deep Networks

7. MapReduce: Simplified Data Processing on Large
Clusters

8. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing

9. https://www.zhihu.com/question/55119470

10. KunPeng:Parameter Server based Distributed Learning Systems and Its Applications in
Alibaba and Ant Financial

11. An Architecture for Parallel Topic Models

12. Scaling Distributed Machine Learning with the Parameter Server

13. Piccolo:Building fast, distributed pro- grams with partitioned tables

14. More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server

15. Angel-A Flexible and Powerful Parameter Server；黃明ppt

原文鏈接： https://zhuanlan.zhihu.com/p/29968773

閱讀全文

上一頁 1 2全文

本文導航

第 1 頁：大規模機器學習框架的四重境界
第 2 頁：3.2同步協議

機器學習(130422) 機器學習(130422)

專注AI和機器學習蘋果擴大西雅圖AI團隊規模

2月24日消息，據國外媒體報道，蘋果的西雅圖辦事處將在面積和勞動力方面擴大規模，專注于人工智能和機器學習技術。蘋果機器學習總監Carlos Guestrin告訴美國科技媒體GeekWire，我們正在尋找最優秀的人工智能和機器學習領域人才，能夠激發研究和長期思考，將這些想法帶入到產品中。

2017-02-24 13:40:31

2277

3G上網本大規模使用不會影響網速

3G上網本大規模使用不會影響網速 　近日，三大運營商紛紛開始推廣3G上網本。所謂3G上網本，就是內置了中國移動、中國電信或者中國聯通3G無線上網模塊的筆記本電腦，這些電腦一般

2010-03-16 09:10:48

5G大規模MIMO天線陣列3D OTA測試

Reliable LowLatency Communications, uRLLC) 和大規模機器類型通信(massive Machine Type Communications, mMTC)。軟件定義

2019-06-10 07:36:36

5G大規模多入多出(MIMO)測試臺：從理論到現實

應用程序框架。它包含了搭建世界上最通用的、靈活的、可擴展的大規模MIMO測試臺所需的硬件和軟件，該測試臺支持實時處理以及在研發團隊所感興趣的頻段和帶寬上進行雙向通信。使用NI軟件無線電（SDRs

2014-12-24 14:13:12

5G毫米波終端大規模天線技術及測試方案介紹

【摘要】本文首先介紹了全球毫米波頻譜劃分情況，然后通過對毫米波特性的分析，總結了毫米波終端將面臨的技術挑戰，著重介紹了終端側大規模天線技術、毫米波射頻前端技術的研究進展，并根據毫米波終端的特點分析了

2019-07-18 08:04:55

大規模FPGA設計中的多點綜合技術

大規模FPGA設計中的多點綜合技術

2012-08-17 10:27:46

大規模MIMO的利弊

IEEE Transactions on Information Forensics and Security上的一篇論文探討了這種類型的攻擊。他們發現，在某些情況下，當使用大規模多入多出技術

2019-06-18 07:54:32

大規模MIMO的性能

軌跡產生的容量斜坡仍然比需求線平坦。面對此挑戰，3GPP 標準實體近來提出了數據容量“到2020 年增長1000 倍”的目標，以滿足演進性或革命性創意的需要。這種概念要求基站部署極大規模的天線陣

2019-07-17 07:54:10

大規模區域監控與通信系統的SOPC芯片組，看完你就懂了

大規模區域監控與通信系統的SOPC芯片組，看完你就懂了

2021-05-26 06:46:11

大規模天線技術商用測試

作為提升5G系統頻譜效率最直觀的物理層技術之一，大規模天線技術自問世以來，受到了來自學術界、工業界的廣泛關注。樣機測試為了克服信道信息獲取困難、解決導頻污染、以及計算復雜度大幅提升等問題，測試

2019-06-13 07:49:29

大規模天線陣列介紹

解讀5G通信的殺手锏大規模天線陣列

2021-01-06 07:11:35

大規模數據集的相似度計算原理

Spark MLlib 之 大規模數據集的相似度計算原理探索

2020-06-04 08:19:16

大規模特征構建實踐總結

背景一般大公司的機器學習團隊，才會嘗試構建大規模機器學習模型，如果去看百度、頭條、阿里等分享，都有提到過這類模型。當然，大家現在都在說深度學習，但在推薦、搜索的場景，據我所知，ROI并沒有很高，大家

2018-11-19 09:35:28

大規模集成電路在信息系統中的廣泛應用

信息系統處理的共同點如下：1、處理種類不多，且多系固定的、復用的；2、要求實時性；3、是決定信息質量的因素之一考慮到這些條件，設備結構則以硬件控制為宜，因此，需要邏輯運算和存儲器用的大規模

2014-09-11 11:27:25

機器學習的創新/開發和應用能力

機器學習的未來在工業領域采用機器學習機器學習和大數據工業人工智能生態系統

2020-12-16 07:47:35

機器學習的未來

機器學習的未來在工業領域采用機器學習機器學習和大數據

2021-01-27 06:02:18

機器學習簡介與經典機器學習算法人才培養

上課時間安排：2022年05月27日 — 2022年05月30日No.1 第一天一、機器學習簡介與經典機器學習算法介紹什么是機器學習？機器學習框架與基本組成機器學習的訓練步驟機器學習問題的分類

2022-04-28 18:56:07

Duang!一大波大規模邏輯設計流程時序優化案例正在來襲

解決的方法。在這里，我們會分享大規模邏輯設計的開發流程，以及解決復雜時序問題的工程案例。此外，還將分享如何利用業界最新的大數據分析和機器學習功能來優化時序設計。3.28，讓我們相聚深圳，且聽資深工程師

2015-03-11 16:13:48

RFSoC數位射頻在大規模MIMO無線電系統有什么應用？

)服務，與第四代無線網絡相比，約提升100倍。大規模MIMO，或稱大規模數組天線(Massive MIMO)是達成效能提升的關鍵技術，尤其適合于6GHz以下不常使用的時分雙工(TDD)頻段，如Band

2019-09-11 11:52:36

Veloce平臺在大規模SOC仿真驗證中的應用

隨著現代集成電路技術的發展,尤其是IP的大量使用,芯片的規模越來越大,系統功能越來越復雜,普通的EDA和FPGA仿真在速度和性能上已經無法勝任芯片仿真驗證的要求,功能驗證已經成為大規模芯片設計的一個

2010-05-28 13:41:35

tensorflow機器學習日志

tensorflow學習日志(四)機器學習（泛化,過擬合, 數據集，驗證集，測試集）

2020-04-14 06:32:33

一個大規模電路是怎么設計出來的？？？

組合成電路，比如一個電視機的電路板上電子元件縱橫交錯，怎么設計組合成那樣的，還有各與器件參數大小怎么算的?數字電路的各個門，模擬電路的三極管，單個是簡單，就是不明白怎么組合成大規模電路的。書上就那么幾個簡單的電路圖，網上也查詢過，還是沒得出答案，誰能幫忙解決下。非常感謝?。?！

2012-12-24 20:34:42

一個benchmark實現大規模數據集上的OOD檢測

評價算法的性能。為此，這份工作建立了新的benchmark，在ImageNet-1k級別的數據集上設立了一個全新的benchmark。并提出了一種基于group的OOD檢測框架，該框架對大規模圖像分類

2022-08-31 15:11:09

一種工作于Sub-6G的5G大規模天線的系統架構探討

本文針對第5代移動通信的關鍵技術之一——大規模陣列天線，提出一種天線系統架構，包括密集輻射陣、功分網絡、耦合校準網絡、盲插型連接器和收發單元。并對5G大規模天線系統的每個組成部分進行詳細介紹，對在

2019-07-16 08:12:54

中文版CMOS超大規模集成電路設計第4版

本帖最后由 lee_st 于 2018-2-27 09:09 編輯中文版CMOS超大規模集成電路設計第4版

2018-02-25 22:29:45

什么是機器學習? 機器學習基礎入門

大規模工作負載的云計算事實上，這個領域已經如此專注于桌面和基于云計算的應用，以至于許多嵌入式工程師沒有太多考慮機器學習如何影響他們。大多數情況下，并沒有。然而，隨著 TinyML 或微型機器學習(在

2022-06-21 11:06:37

介紹一種適合大規模數字信號處理的并行處理結構

本文提出了一種基于FPGA的適合大規模數字信號處理的并行處理結構。

2021-04-30 07:16:52

勻一枯大規模奪頂替

頂替枯大規模奪頂替頂替

2018-01-05 18:50:55

華為大規模邏輯設計指導書方法論

華為 大規模邏輯設計指導書方法論

2019-11-22 22:52:12

華為大規模邏輯設計指導書

華為大規模邏輯設計指導書。非常詳細地介紹了邏輯設計的規范要求及方法。

2020-01-27 17:58:38

華為_大規模邏輯設計指導書

本帖最后由 eyesee 于 2017-3-2 09:29 編輯華為_大規模邏輯設計指導書

2017-03-01 11:56:34

華為_大規模邏輯設計指導書

華為大規模邏輯設計指導書

2015-04-20 13:41:35

華為_大規模邏輯設計指導書

2012-08-18 08:11:53

基于SCADE Vision的主動學習框架

基于SCADE Vision的主動學習框架Ansys SCADE Vision-感知算法魯棒性分析測試工具

2021-02-05 06:31:06

如何去推進FTTH大規模建設？

如何去推進FTTH大規模建設？影響FTTH大規模建設的原因有哪些？

2021-05-27 06:58:13

小型絕緣電阻驅動大規模電容負載驗證設計

描述此 TI 驗證設計采用各種運算放大器，以絕緣電阻驅動 100pF 至 1uF 的電容負載。OPA192 的亮點在于其能夠以小型絕緣電阻驅動大規模電容負載。主要特色電源電壓：30 V (+/-15

2018-11-15 11:40:22

怎么實現大規模電動汽車的生產

大規模電動汽車生產需要先進的電池化成和測試系統

2021-01-27 06:59:50

最值得學習的機器學習編程語言

如果你對人工智能和機器學習感興趣，而且正在積極地規劃著自己的程序員職業生涯，那么你肯定面臨著一個問題：你應該學習哪些編程語言，才能真正了解并掌握 AI 和機器學習？可供選擇的語言很多，你需要通過戰略

2021-03-02 06:22:38

構建大規模MIMO的難點在哪？

構建大規模MIMO的難點在哪？高功率硅開關的應用案列分析

2021-03-11 07:05:03

每秒幾十萬的大規模網絡爬蟲的煉成

每秒幾十萬的大規模網絡爬蟲是如何煉成的？

2019-05-27 15:02:25

深度學習框架只為GPU?

CPU優化深度學習框架和函數庫機器學***器

2021-02-22 06:01:02

請教大神如何去管理大規模數據？

請教大神如何去管理大規模數據？

2021-05-11 06:56:54

請問F*s出廠時固化在ROM中的bootloader通過串口最大規模**的程序？

請問F***S出廠時，固化在ROM中的bootloader通過串口最大規模的程序？有的型號的芯片由于受地址總線尋址限制最大能夠加載16K的程序，如果程序規模超過16K，就得使用用戶bootloader程序二次加載，請問F***S是否有同樣的限制？

2018-08-31 15:17:50

請問一下大規模MIMO的原型怎么制作？

大規模MIMO的原型怎么制作？

2021-05-24 06:25:09

請問怎么用MATLAB畫含參量四重積分圖?

怎么會用MATLAB畫含參量四重積分圖？

2019-11-24 23:31:51

輪胎壓力監測（TPM）系統有望獲得大規模應用

輪胎壓力監測（TPM）系統有望獲得大規模應用。

2021-05-12 06:02:56

阿里巴巴統一的超大規模數據計算平臺MaxCompute的探索與實踐

阿里關濤談大規模計算—從數字化阿里到數字化城市的進化

2019-05-16 07:46:04

怎樣在iOS機器學習框架Core ML

2017年的WWDC上，蘋果發布了Core ML這個機器學習框架?，F在，開發者可以輕松的使用Core ML把機器學習功能集成到自己的應用里，讓應用變得更加智能，給用戶更牛逼的體驗。 Core ML

2017-09-25 15:59:34

大規模分布式機器學習系統分析

針對構建大規模機器學習系統在可擴展性、算法收斂性能、運行效率等方面面臨的問題，分析了大規模樣本、模型和網絡通信給機器學習系統帶來的挑戰和現有系統的應對方案。以隱含狄利克雷分布（ LDA）模型

2017-12-05 19:02:42

面向大規模圖像分類的深度卷積神經網絡的優化

摘在圖像分類任務中，為了獲得更高的分類精度，需要對圖像提取不同層次的特征信息．深度學習被越來越多的應用于大規模圖像分類任務中．本文提出了一種基于深度卷積神經網絡的?？蓱糜?b class="flag-6" style="color: red">大規模圖像分類的深度學習

2017-12-15 13:58:51

Airbnb機器學習和數據科學團隊經驗分享

Airbnb資深機器學習科學家Shijing Yao、前Airbnb數據科學負責人Qiang Zhu、Airbnb機器學習工程師Phillippe Siclait分享了在Airbnb產品上大規模應用深度學習技術的經驗。

2018-07-07 09:24:03

3610

你最看好哪個深度學習框架呢？

開源的深度學習神經網絡正步入成熟，而現在有許多框架具備為個性化方案提供先進的機器學習和人工智能的能力。

2018-09-21 17:02:53

6364

微軟新的機器學習框架核心產品機器學習引擎infer.NET的概述

感覺微軟對開源上癮了。在開源了跨平臺機器學習框架ML.NET之后，微軟又開源了一個非常重要的機器學習框架：infer.NET，而且采用的還是MIT許可證。

2018-10-14 11:01:45

3887

深度學習框架不能“包治百病”什么樣的深度學習框架才是適合自己的呢？

PaddlePaddle：百度出品，跟 TF 類似，PaddlePaddle 也是在百度內部實際應用的工業框架。值得一提的是，PaddlePaddle 為大量工業級模型提供官方支持；大規模分布式訓練

2019-02-11 09:41:07

3690

微軟推出開源跨平臺的機器學習框架 ML.NET

微軟最近推出了ML.NET，這是一個用于構建自定義機器學習庫解決方案的框架。

2019-05-22 14:17:22

2633

深度學習框架你了解多少

開源的深度學習神經網絡正步入成熟，而現在有許多框架具備為個性化方案提供先進的機器學習和人工智能的能力。

2019-07-08 10:31:30

2056

谷歌發布機器學習框架：一個名叫NSL的神經結構學習框架

神經結構學習框架（NSL）的作用很大，它可以制作計算機視覺模型、執行自然語言處理（NLP）、從醫療記錄或知識圖等圖形數據集中運行預測，還可以與 TensorFlow 機器學習平臺配合使用，適用于有經驗或缺乏經驗的機器學習從業者。

2019-09-20 14:30:51

3006

如何去擴大機器學習規模

臉書將機器學習用于很多領域。在臉書主頁上，機器學習可以搜索內容，翻譯語言，掃描動態消息并識別用戶上傳的照片中的面孔，以及查廣告展示的內容。

2020-03-14 09:52:11

408

LinkedIn機器學習解決方案

LinkedIn已實現了非常先進的體系結構，可大規模開發機器學習解決方案。

2020-05-03 18:37:00

1750

機器學習規模怎樣去擴大

機器學習正在不斷發展，新的商業突破、科學進步、框架改進和實踐常常見諸各大媒體。

2020-05-01 21:15:00

243

7種最佳的開源AI /機器學習系統和框架

　Torch是為LuaJIT編寫的完整的科學計算環境，它是針對Lua語言的即時（JIT）編譯器。 Torch不僅是機器學習框架/庫，還是更大的科學計算環境，但是它提供的功能之一是對機器學習的支持。

2020-04-15 16:33:40

5532

OpenAI推出Jukebox機器學習框架，可自動生成音樂

近日，由諸多硅谷大亨聯合建立的人工智能非營利組織OpenAI，推出了一款可自動生成音樂的機器學習框架Jukebox。

2020-05-07 08:41:23

2008

Java和Python機器學習框架都有哪些

機器學習的爆炸性增長推動了許多開源工具的發展，使得開發人員更容易學習其技術。接下來，我們來看看開發者最喜歡的Java和Python機器學習框架都有哪些？

2020-05-18 11:48:44

1331

阿里云機器學習研究員對大規模機器學習實踐的見解

近年來，機器學習技術的發展歸因于我們有極其龐大的數據用來訓練算法。當企業需要落地大規模機器學習時，往往會面臨很多難題，如何解決這些問題？如何系統了解大規模機器學習落地的技巧？其適用

2020-07-31 16:22:12

648

5G無線知識，從“大規模MIMO”開始

本期干貨講解5G無線里面的重要知識：大規模MIMO，即多輸入多輸出。它是開啟5G用戶體驗的關鍵技術之一！如果，你也不是很了解。那就跟隨本期主題，一起學習大規模MIMO吧。 1、大規模MIMO

2020-10-16 10:55:05

3638

如何使用TensorFlow進行大規模和分布式的QML模擬

發布人：Google 團隊 Cheng Xing 和 Michael Broughton 訓練大型機器學習模型是 TensorFlow 的核心能力。多年來，訓練規模已成為 NLP、圖像識別和藥物研發

2021-08-10 17:31:18

2321

2021 OPPO開發者大會主會場：端云協同的大規模機器學習系統

2021 OPPO開發者大會主會場：端云協同的大規模機器學習系統

2021-10-27 11:18:36

1221

2021 OPPO開發者大會：端云協同的大規模機器學習系統

2021 OPPO開發者大會：端云協同的大規模機器學習系統 2021 OPPO開發者大會上介紹了端云協同的大規模機器學習系統。責任編輯：haq

2021-10-27 11:29:32

1315

達摩院發布開源新型聯邦學習框架FederatedScope

5月5日，達摩院發布并開源新型聯邦學習框架FederatedScope，該框架支持大規模、高效率的聯邦學習異步訓練，能兼容不同設備運行環境，且提供豐富功能模塊，大幅降低了隱私保護計算技術開發與部署難度。

2022-05-05 15:22:00

1104

一個大規模多任務學習框架μ2Net

這種方法可以提高每個任務的質量，并在收斂時間、訓練實例數量、能源消耗等方面提高模型效率。本文提出的機器學習問題框架，可以視作標準多任務和持續學習形式化的概括和綜合。

2022-07-21 10:19:04

1039

用于弱監督大規模點云語義分割的混合對比正則化框架

為了解決大規模點云語義分割中的巨大標記成本，我們提出了一種新的弱監督環境下的混合對比正則化（HybridCR）框架，該框架與全監督的框架相比具有競爭性。

2022-09-05 14:38:00

998

扎克伯格承認臉書大規模裁員

扎克伯格承認臉書大規模裁員裁員不止是特斯拉的專項，還有臉書。現在扎克伯格承認臉書大規模裁員，Meta此前一直燒錢但是沒有什么產出，元宇宙沒有能夠快速讓臉書回血。而且在市場下行的情況下大佬都已

2022-11-09 16:22:09

374

基于隱式表達的大規模三維建圖的方法

/PRBonn/SHINE_mapping? ? 該工作提出了一種基于隱式表達的大規模三維建圖的方法，它利用分層八叉樹的結構來存儲可學習的局部特征，并通過共享的淺層MLP將局部特征轉換為有符號距離場。相比于以往的工作，該

2023-06-27 11:01:55

464

深度學習框架pytorch入門與實踐

深度學習框架pytorch入門與實踐深度學習是機器學習中的一個分支，它使用多層神經網絡對大量數據進行學習，以實現人工智能的目標。在實現深度學習的過程中，選擇一個適用的開發框架是非常關鍵

2023-08-17 16:03:06

1075

深度學習框架是什么？深度學習框架有哪些？

高模型的精度和性能。隨著人工智能和機器學習的迅猛發展，深度學習框架已成為了研究和開發人員們必備的工具之一。目前，市場上存在許多深度學習框架可供選擇。本文將為您介紹一些較為常見的深度學習框架，并探究它們的特點

2023-08-17 16:03:09

1585

深度學習框架pytorch介紹

深度學習框架pytorch介紹 PyTorch是由Facebook創建的開源機器學習框架，其中TensorFlow是完全基于數據流圖的。它是一個使用動態計算圖的框架，允許用戶更靈活地定義和修改模型

2023-08-17 16:10:59

989

深度學習算法庫框架學習

深度學習算法庫框架學習深度學習是一種非常強大的機器學習方法，它可以用于許多不同的應用程序，例如計算機視覺、語言處理和自然語言處理。然而，實現深度學習技術需要使用一些算法庫框架。在本文中，我們將探討

2023-08-17 16:11:07

411

深度學習框架連接技術

深度學習框架連接技術深度學習框架是一個能夠幫助機器學習和人工智能開發人員輕松進行模型訓練、優化及評估的軟件庫。深度學習框架連接技術則是需要使用深度學習模型的應用程序必不可少的技術，通過連接技術

2023-08-17 16:11:16

443

深度學習cntk框架介紹

深度學習cntk框架介紹? 深度學習是最近幾年來非常熱門的話題，它正在徹底改變我們生活和工作的方式。隨著越來越多的創新和發展，人工智能和機器學習的應用范圍正在大大擴展。而對于深度學習這個領域來說

2023-08-17 16:11:23

881

深度學習框架和深度學習算法教程

深度學習框架和深度學習算法教程深度學習是機器學習領域中的一個重要分支，多年來深度學習一直在各個領域的應用中發揮著極其重要的作用，成為了人工智能技術的重要組成部分。許多深度學習算法和框架提供

2023-08-17 16:11:26

637

谷歌模型框架是什么軟件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌開發的用于機器學習和人工智能的軟件框架，其中最著名的是TensorFlow。TensorFlow是一個開源的機器學習框架，由谷歌的機器學習團隊開發，用于構建和訓練各種機器學習模型。

2024-03-01 16:25:27

158

已全部加載完成

搜索歷史

大規模機器學習框架的四重境界 - 全文

2. 并行算法演進

3. 參數服務器演進

4. 大規模機器學習的四重境界

5. 其他

6. 結語

本文導航

評論