近日,備受矚目的“2024中國(guó)信息通信大會(huì)暨中國(guó)通信學(xué)會(huì)學(xué)術(shù)年會(huì)”在四川成都順利舉行。此屆大會(huì)以“科技領(lǐng)航創(chuàng)新,產(chǎn)業(yè)共筑未來(lái)”為主題,聚集了來(lái)自“政產(chǎn)學(xué)研用”各方代表,集中展示算力及網(wǎng)絡(luò)通信領(lǐng)域的最新研究成果。
在“算力網(wǎng)絡(luò)算網(wǎng)一體創(chuàng)新發(fā)展論壇”上,壁仞科技攜手中國(guó)移動(dòng)、中興通訊等產(chǎn)業(yè)合作伙伴共同發(fā)布了通用異構(gòu)混合并行訓(xùn)練系統(tǒng)——“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng)1.0。該系統(tǒng)可解決大模型異構(gòu)算力孤島難題,實(shí)現(xiàn)同一訓(xùn)練任務(wù)在異構(gòu)算力集群的任務(wù)拆解和協(xié)同訓(xùn)練,對(duì)推動(dòng)我國(guó)智算產(chǎn)業(yè)生態(tài)融通發(fā)展,構(gòu)建開(kāi)放協(xié)同的新型智算基礎(chǔ)設(shè)施具有積極意義。
當(dāng)前,我國(guó)智算產(chǎn)業(yè)形成了軟硬件綁定的豎井式生態(tài),不同廠商、不同架構(gòu)的智能算力之間無(wú)法兼容互通,限制了異構(gòu)智能算力的有效整合和充分利用。大模型訓(xùn)練需要千卡集群甚至萬(wàn)卡集群資源,目前國(guó)產(chǎn)芯片廠家百花齊放,移動(dòng)新型智算中心已經(jīng)落地使用的算力資源類(lèi)型多樣,形成了一些算力孤島。但由于目前Megatron等主流的分布式訓(xùn)練框架僅支持同構(gòu)算力集群,導(dǎo)致無(wú)論是不同廠商的智算芯片之間,亦或是同一廠商不同代際芯片之間都無(wú)法形成“合力”,極大地限制了智算中心對(duì)現(xiàn)有異構(gòu)算力資源使用的充分性和調(diào)度的靈活性,因此亟需面向異構(gòu)算力混合訓(xùn)練需求進(jìn)行技術(shù)研究。
為屏蔽異構(gòu)硬件差異、融通智算豎井生態(tài),中國(guó)移動(dòng)充分發(fā)揮移動(dòng)信息現(xiàn)代產(chǎn)業(yè)鏈“鏈長(zhǎng)”職責(zé),以異構(gòu)混訓(xùn)技術(shù)為攻關(guān)要點(diǎn),率先提出通用異構(gòu)混合訓(xùn)練技術(shù),并開(kāi)展“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng)1.0研發(fā),開(kāi)辟以智算軟件帶動(dòng)智算產(chǎn)業(yè)融通發(fā)展的全新路徑。
本次壁仞科技聯(lián)合中國(guó)移動(dòng)發(fā)布的“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng)1.0依托基于 Inhomogeneous Task Distribution (ITD)算法的3D并行非均勻切分和基于GPUDirect RDMA(GDR)的異構(gòu)芯片高速通信兩大關(guān)鍵技術(shù)提供通用混合訓(xùn)練能力。其中,基于ITD算法的3D并行非均勻切分可通過(guò)通用混合訓(xùn)練框架實(shí)現(xiàn)異構(gòu)數(shù)據(jù)并行、異構(gòu)流水線并行,實(shí)現(xiàn)數(shù)據(jù)微批次大小、數(shù)量、流水線并行度等參數(shù)在異構(gòu)算力上的自適應(yīng)調(diào)整;基于GDR的異構(gòu)芯片高速通信可在不改變芯片原有通信接口基礎(chǔ)上,基于GDR芯片高速互聯(lián)技術(shù),通過(guò)定義數(shù)據(jù)傳輸架構(gòu)、流程及接口標(biāo)準(zhǔn)約束,屏蔽底層硬件差異,實(shí)現(xiàn)頂層訓(xùn)練任務(wù)在異構(gòu)算力集群上分布式通信的無(wú)感拆解。當(dāng)前系統(tǒng)已實(shí)現(xiàn)百億參數(shù)大模型在壁仞科技、英偉達(dá)等多家智算芯片上的交叉混合訓(xùn)練,異構(gòu)混訓(xùn)效率達(dá)95%以上,未來(lái)將在提升智能算力資源利用率及促進(jìn)國(guó)產(chǎn)算力發(fā)展等方面發(fā)揮重要作用。
此前壁仞科技的壁礪系列通用GPU算力產(chǎn)品已經(jīng)在中國(guó)移動(dòng)智算中心(呼和浩特)成功上線運(yùn)營(yíng),為該智算中心提供強(qiáng)大算力。該項(xiàng)目成功上線運(yùn)營(yíng),標(biāo)志著雙方在智能計(jì)算領(lǐng)域的深度合作邁出了堅(jiān)實(shí)的步伐。國(guó)產(chǎn)GPU加快落地的過(guò)程中正在在逐步擴(kuò)大算力規(guī)模,為破解這一過(guò)程中的“大模型算力孤島”難題,壁仞科技一直在積極開(kāi)展異構(gòu)GPU協(xié)同訓(xùn)練技術(shù)攻關(guān),已發(fā)布自主原創(chuàng)的異構(gòu)GPU協(xié)同訓(xùn)練方案HGCT,業(yè)界首次支持3種及以上異構(gòu)GPU混合訓(xùn)練同一個(gè)大模型,用一套統(tǒng)一方案支持多種不同廠商、不同型號(hào)的GPU,而且一行代碼適配多種框架。此次壁仞科技攜手中國(guó)移動(dòng)強(qiáng)強(qiáng)聯(lián)合,發(fā)揮雙方在底層通信庫(kù)和上層并行拆分策略的優(yōu)勢(shì),聯(lián)合打造“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng)1.0,有利于幫助中國(guó)移動(dòng)充分利用國(guó)產(chǎn)算力,加快國(guó)產(chǎn)GPU遷移落地,形成開(kāi)放的國(guó)產(chǎn)智算生態(tài)。
大會(huì)同期舉辦了中國(guó)通信學(xué)會(huì)算力網(wǎng)絡(luò)委員會(huì)閉門(mén)會(huì)議及委員聘用儀式,壁仞科技AI軟件首席架構(gòu)師丁云帆被評(píng)選為中國(guó)通信學(xué)會(huì)第一屆算力網(wǎng)絡(luò)委員會(huì)委員,其將發(fā)揮在大規(guī)模智算集群、AI平臺(tái)、異構(gòu)訓(xùn)練系統(tǒng)、大模型分布式并行加速等方面的經(jīng)驗(yàn)和能力,為中國(guó)算力網(wǎng)絡(luò)的發(fā)展貢獻(xiàn)力量。
未來(lái),壁仞將繼續(xù)秉承開(kāi)放與融合的理念,與中國(guó)移動(dòng)等產(chǎn)業(yè)鏈的合作伙伴攜手并進(jìn),共同推進(jìn)智算異構(gòu)混訓(xùn)系統(tǒng)的創(chuàng)新與建設(shè),支撐更多業(yè)務(wù)場(chǎng)景、支持更大參數(shù)規(guī)模模型、支持更大規(guī)模異構(gòu)集群、融通更多異構(gòu)芯片,真正打造以基礎(chǔ)軟件棧引領(lǐng)的全新智算生態(tài),為我國(guó)算力強(qiáng)國(guó)戰(zhàn)略落地提供堅(jiān)實(shí)的支撐。
-
中國(guó)移動(dòng)
+關(guān)注
關(guān)注
22文章
5556瀏覽量
71793 -
算力
+關(guān)注
關(guān)注
1文章
1013瀏覽量
14955 -
壁仞科技
+關(guān)注
關(guān)注
1文章
56瀏覽量
2783
原文標(biāo)題:破解“算力孤島”|壁仞科技聯(lián)合中國(guó)移動(dòng)等生態(tài)伙伴共同發(fā)布“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng)1.0
文章出處:【微信號(hào):Birentech,微信公眾號(hào):壁仞科技Birentech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論