高端GPU持續(xù)缺貨之下,一家要挑戰(zhàn)英偉達的芯片初創(chuàng)公司成為行業(yè)熱議焦點。
8枚芯片跑大模型,就能支持5萬億參數(shù)(GPT-4的三倍)。
這是獨角獸企業(yè)SambaNova剛剛發(fā)布的新型AI芯片SN40L——
型號中40代表是他們第四代產(chǎn)品,L代表專為大模型(LLM)優(yōu)化:高達1.5T的內(nèi)存,支持25.6萬個token的序列長度。
CEORodrigo Liang表示,當前行業(yè)標準做法下運行萬億參數(shù)大模型需要數(shù)百枚芯片,我們的方法使總擁有成本只有標準方法的1/25。
SambaNova目前估值50億美元(約365億人民幣),累計完成了6輪總計11億美元的融資,投資方包括英特爾、軟銀、三星、GV等。
他們不僅在芯片上要挑戰(zhàn)英偉達,業(yè)務(wù)模式上也說要比英偉達走的更遠:直接參與幫助企業(yè)訓(xùn)練私有大模型。
目標客戶上野心更是很大:瞄準世界上最大的2000家企業(yè)。
1.5TB內(nèi)存的AI芯片
最新產(chǎn)品SN40L,由臺積電5納米工藝制造,包含1020億晶體管,峰值速度638TeraFLOPS。
與英偉達等其他AI芯片更大的不同在于新的三層Dataflow內(nèi)存系統(tǒng)。
520MB片上SRAM內(nèi)存
65GB的高帶寬HBM3內(nèi)存
以及高達1.5TB的外部DRAM內(nèi)存
與主要競品相比,英偉達H100最高擁有80GB HBM3內(nèi)存,AMD MI300擁有192GB HBM3內(nèi)存。
SN40L的高帶寬HBM3內(nèi)存實際比前兩者小,更多依靠大容量DRAM。
Rodrigo Liang表示,雖然DRAM速度更慢,但專用的軟件編譯器可以智能地分配三個內(nèi)存層之間的負載,還允許編譯器將8個芯片視為單個系統(tǒng)。
除了硬件指標,SN40L針對大模型做的優(yōu)化還有同時提供密集和稀疏計算加速。
他們認為大模型中許多權(quán)重設(shè)置為0,像其他數(shù)據(jù)一樣去執(zhí)行操作很浪費。
他們找到一種軟件層面的加速辦法,與調(diào)度和數(shù)據(jù)傳輸有關(guān),但沒有透露細節(jié),“我們還沒準備好向公布是如何做到這一點的”。
咨詢機構(gòu)Gartner的分析師Chirag Dekate認為,SN40L的一個可能優(yōu)勢在于多模態(tài)AI。
GPU的架構(gòu)非常嚴格,面對圖像、視頻、文本等多樣數(shù)據(jù)時可能不夠靈活,而SambaNova可以調(diào)整硬件來滿足工作負載的要求。
目前,SambaNova的芯片和系統(tǒng)已獲得不少大型客戶,包括世界排名前列的超算實驗室,日本富岳、美國阿貢國家實驗室、勞倫斯國家實驗室,以及咨詢公司埃森哲等。
業(yè)務(wù)模式也比較特別,芯片不單賣,而是出售其定制技術(shù)堆棧,從芯片到服務(wù)器系統(tǒng),甚至包括部署大模型。
為此,他們與TogetherML聯(lián)合開發(fā)了BloomChat,一個1760億參數(shù)的多語言聊天大模型。
BloomChat建立在BigScience組織的開源大模型Bloom之上,并在來自O(shè)penChatKit、Dolly 2.0和OASST1的OIG上進行了微調(diào)。
訓(xùn)練過程中,它使用了SambaNova獨特的可重配置數(shù)據(jù)流架構(gòu),然后在SambaNova DataScale系統(tǒng)進行訓(xùn)練。
這也是這家公司最大被投資者熱捧之外的最大爭議點之一,很多人不看好一家公司既做芯片又做大模型。
給每家大企業(yè)打造150個大模型
在與The Next Platform網(wǎng)站交流時,CEO Rodrigo Liang表示:
用于大模型訓(xùn)練的公開數(shù)據(jù)已快耗盡,但對參數(shù)數(shù)量的追求還在不斷增加。
各種大模型的性能相差只有幾個百分點,這不是大家應(yīng)該玩的游戲。
他認為大模型與生成式AI商業(yè)化的下一個戰(zhàn)場是企業(yè)的私有數(shù)據(jù),尤其是大企業(yè)。
這些企業(yè)坐擁大量的數(shù)據(jù),但自己不知道其中大部分內(nèi)容是什么。
對于企業(yè)私有大模型的形態(tài),SambaNova也有與眾不同的觀點。
他們認為最終企業(yè)內(nèi)部不會運行一個GPT-4或谷歌Gemini那樣的超大模型,而是根據(jù)不同數(shù)據(jù)子集創(chuàng)建150個獨特的模型,聚合參數(shù)超過萬億。
相當于把GPT-4等大模型內(nèi)部的Mixture of Experts(專家混合)架構(gòu)擴展到整個系統(tǒng),稱為Composition of Experts(專家合成)。
在企業(yè)運轉(zhuǎn)的每個節(jié)點運行一個完整且經(jīng)過專門調(diào)整的基礎(chǔ)模型,分別用法律語料庫、制造語料庫、風險管理語料庫、財富管理語料庫、客戶銷售語料庫、客戶支持語料庫等等不同數(shù)據(jù)訓(xùn)練。
這些專家模型之間通過一種軟件路由或負載平衡器聯(lián)在一起,收到推理請求后決定具體向哪個模型推送提示詞。
這一策略與GPT-4和谷歌Gemini等做法形成鮮明對比,巨頭大多希望創(chuàng)建一個能泛化到數(shù)百萬個任務(wù)的巨型模型。
分析師認為技術(shù)上可能谷歌的做法性能更強,但SambaNova的方法對企業(yè)來說更實用。
沒有任何一個模型或人能完整訪問企業(yè)的所有數(shù)據(jù),限制每個部門能訪問的專家模型,就能限制他們能訪問的數(shù)據(jù)。
斯坦福系芯片公司,華人工程師主力
SambaNova成立于2017年,2020年之前都比較低調(diào)。
聯(lián)創(chuàng)3人都是斯坦福背景,連產(chǎn)品系列名Cardinal(深紅色)都是斯坦福的昵稱與代表顏色。
CEO Rodrigo Liang是前Sun/甲骨文工程副總裁,也有人將這個名字解讀為暗指甲骨文老對頭IBM的DeepBlue(深藍)。
另外兩位聯(lián)合創(chuàng)始人都是斯坦福教授。
CTOKunle Olukotun是電氣工程教授,因多核芯片架構(gòu)方面的研究而聞名,開發(fā)了首批支持線程級推測 (TLS) 的芯片之一。
Christopher Ré是計算機科學副教授,重點研究方向機器學習和數(shù)據(jù)分析的速度和可擴展性。
此外團隊中還有不少華人工程師。
從官網(wǎng)公開信息來看,SambaNova的領(lǐng)導(dǎo)團隊中,至少有3名華人。
Jonathan Chang,擁有UC伯克利的機械工程學士學位以及南加州大學的MBA學位。
他在構(gòu)建高增長方面擁有20多年的經(jīng)驗。加入SambaNova之前,Chang在特斯拉工作了近9年。
Marshall Choy,此前曾擔任甲骨文公司系統(tǒng)產(chǎn)品管理和解決方案開發(fā)副總裁,監(jiān)督了數(shù)十個行業(yè)的企業(yè)硬件和軟件產(chǎn)品的上市。
Penny Li,在EDA工具和微處理器設(shè)計方面擁有超過27年的經(jīng)驗。此前,她曾在IBM和甲骨文工作過。
如果去領(lǐng)英搜索還能發(fā)現(xiàn)更多華人團隊成員。
目前SambaNova包含SN40L芯片的人工智能引擎已上市,但定價沒有公開。
根據(jù)Rodrigo Liang的說法,8個SN40L組成的集群總共可處理5萬億參數(shù),相當于70個700億參數(shù)大模型。
全球2000強的企業(yè)只需購買兩個這樣的8芯片集群,就能滿足所有大模型需求。
-
gpu
+關(guān)注
關(guān)注
28文章
4777瀏覽量
129362 -
英偉達
+關(guān)注
關(guān)注
22文章
3848瀏覽量
91995 -
AI芯片
+關(guān)注
關(guān)注
17文章
1906瀏覽量
35219
原文標題:1.5T內(nèi)存挑戰(zhàn)英偉達!8枚芯片撐起3個GPT-4,華人AI芯片獨角獸估值365億
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論