“人工智能正在吞噬世界。”
硅谷人工智能計算機制造商Cerebras的首席執行官Andrew Feldman就是這樣開始介紹他的公司的最新成就的:一臺每秒能夠進行20億次運算(2億次浮點運算)的人工智能超級計算機。該系統名為“Condor Galaxy 1”,有望在12周內將其規模擴大一倍。2024年初,將有另外兩個規模加倍的系統加入。這家硅谷公司計劃明年繼續增加Condor Galaxy的安裝,直到它運行一個由9臺超級計算機組成的網絡,總運算能力為36億次。
如果大型語言模型和其他生成人工智能正在吞噬世界,Cerebras的計劃是幫助他們消化它。加州森尼維爾的這家公司并不是唯一一家。其他專注于人工智能的計算機制造商正在圍繞自己的專用處理器或英偉達最新的GPU H100構建大規模系統。雖然很難判斷大多數系統的大小和功能,但Feldman聲稱Condor Galaxy 1已經是最大的系統之一。
Condor Galaxy 1在短短10天內組裝并啟動,由32臺Cerebras CS-2計算機組成,并將擴展到64臺。接下來的兩個系統將在德克薩斯州奧斯汀和北卡羅來納州阿什維爾建造,每個系統還將容納64個CS-2。每臺CS-2的核心是Waferscale Engine-2,這是一款人工智能專用處理器,由2.6萬億個晶體管和85萬個全硅晶圓制成的人工智能核心。
CEREBRAS
Feldman說,Cerebras在建造大型人工智能超級計算機方面的最大優勢之一是它能夠簡單地擴大資源規模。例如,如果你投入40倍以上的硬件資源,400億參數網絡可以在與10億參數網絡大致相同的時間內進行訓練。重要的是,這種放大不需要額外的代碼行。他說:“我們通過按鍵從1到32(CS-2s)線性縮放。”
Condor Galaxy系列由總部位于阿布扎比的G42公司所有,G42是一家控股公司,擁有九家基于人工智能的企業,其中包括中東最大的云計算提供商之一G42 Cloud。Feldman將這種關系描述為“深度戰略伙伴關系”,他說,這是在短短18個月內完成36次EB失敗所需要的。Feldman計劃在今年晚些時候搬到阿聯酋幾個月,以幫助管理合作,他說,這將“大大增加人工智能計算的global inventory”。 Cerebras將為G42操作超級計算機,并可以租用其合作伙伴未用于內部工作的資源。
Feldman表示,對訓練大型神經網絡的需求激增。他說,用500億或更多參數訓練神經網絡模型的公司數量從2021年的2家增加到今年的100多家。
顯然,Cerebras并不是唯一一家追求需要訓練真正大型神經網絡的企業。亞馬遜、谷歌、Meta和微軟等大公司都有自己的產品。圍繞英偉達GPU構建的計算機集群主導了這項業務的大部分,但其中一些公司已經為人工智能開發了自己的硅,例如谷歌的TPU系列和亞馬遜的Trainium。Cerebras也有初創公司的競爭對手,他們生產自己的人工智能加速器和計算機,包括Habana(現在是英特爾的一部分)、Graphcore和Samba Nova。
例如,Meta使用6000多個Nvidia A100 GPU構建了其AI研究超級集群。計劃中的第二階段將使集群達到5個EB。谷歌構建了一個包含4096個TPU v4加速器的系統,總共1.1億次。該系統在短短10多秒內就突破了比今天的LLM小得多的BERT自然語言處理器神經網絡。谷歌還運行Compute Engine A3,該引擎圍繞英偉達H100 GPU和英特爾制造的定制基礎設施處理單元構建。云提供商CoreWeave與英偉達合作,測試了一個由3584個H100 GPU組成的系統,該系統在10多分鐘內訓練出了代表大型語言模型GPT-3的基準。2024年,Graphcore計劃建造一個名為Good Computer的10 exaflop系統,該系統由8000多個Bow處理器組成。
-
神經網絡
+關注
關注
42文章
4779瀏覽量
101171 -
超級計算機
+關注
關注
2文章
464瀏覽量
42030 -
人工智能
+關注
關注
1796文章
47672瀏覽量
240289
原文標題:Cerebras推出2 Exaflops人工智能超級計算機
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論