衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

萬卡時代不打群架,中國智算正過三關

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2024-05-08 21:22 ? 次閱讀

我前兩天看到了一個挺震撼的視頻,科學家們在NASA戈達德空間飛行中心的天體物理學家指導下,使用Discover超級計算機模擬了跳入黑洞的過程。

畫面視覺效果攝人心魄,而一組數據同樣讓我感到震撼:該視頻生成10TB的數據,只用了5天,耗費了0.3%總算力。如果我們想用自己的筆記本電腦模擬這個場景,需要花費的時間是10年。

“時間就是金錢,效率就是生命”,這句改開時代的口號,在大模型驅動的智算時代,仍舊不過時。

算力作為生產力,所節約的不只是金錢,更重要的是時間。

目前算力集群已經從千卡,邁入了萬卡、五萬卡集群。甚至有媒體預測,GPT6未來部署的時候,需要70萬-80萬張卡才能支撐。

那問題來了,萬卡集群在執行大規模訓練任務時負載重,發生軟硬件錯誤的概率,當然也就更高。萬卡時代,一張卡、一臺機器或一個鏈路的故障,都可能導致中斷,拖慢進程。那么十萬卡、百萬卡等更大數量級的提升,未來如何應對?

最近幾個月,我們團隊跟不少ICT廠商做了交流,簡單總結一下行業動向,那就是:邁入萬卡時代,必須“過三關”。

萬卡時代,做AI=“中彩票”?

有必要首先說明一下,為什么智能計算仍在“堆卡”?從千卡、萬卡到十萬卡、百萬卡,這個趨勢是可持續的嗎?

伴隨著模型規模與數據參數愈發龐大,在可以預見的未來,基礎設施層面的“堆卡”競賽仍將繼續。

目前,國際科技巨頭如谷歌、微軟、蘋果等,在算力集群建設上持續投入,其中AI算力占總算力支出的比例持續增長,預計到2025年將達到25%。放眼國內,萬卡及以上的組網也成為下一代智算中心的建設重點。

然而,算力集群卡的數量非線性增加,會帶來更大的不穩定性和協作難度。正如新華三在前不久的媒體與分析師大會上所說,單卡單打獨斗我們(與N卡)有差距,多卡集群服務不能打群架。

wKgZomY7XLaAXni9AATBFxeGOjg564.jpg

(拍攝自新華三集團2024媒體與分析師溝通會)

我們知道,分布式并行訓練能夠加速訓練過程,是大模型常用的訓練方式,相當于將任務分配給多個AI硬件,組成協作節點和集群,主打一個“人多力量大”。但是,人多還得心齊啊,讓多卡用高效一致的步伐進行協作,卻是一件難事,容易出現“打群架”的情況。

多卡“打架”,集群就會因故障而中斷。

一位清華大學計算機教授曾分享過一個數據,其團隊寫一次容錯檢查點checkpoint需要三小時,這還是世界先進水平(未經優化前)。

工作三小時就得被迫停下,活(訓練過程)又一點不能少,只能加班加點。普通打工人聽了都得“抓狂”,更別說要跟技術創新搶速度、作業生產要效率的產學界了。

多卡集群“不打群架”,將算力最大化地有效使用起來,發揮每一張GPU的價值,提升訓練效率,對開發人員來說,堪比中“彩票”,價值很大,但概率卻不定。

顯然,千行百業智能化,當然不能靠“中彩”和運氣。

當算力集群即將從萬卡,邁入五萬、十萬乃至百萬卡的清晰未來,我們不能只以單一的規模和FLOPS浮點運算次數,來衡量智算中心的綜合水平。其他因素也同樣重要,比如集群擴展性、兼容性、算效比、能耗比等。

如何提供一個穩定可靠高性能的智算基礎設施,萬卡時代要“過三關”。

第一關:闖過資源墻

超大規模集群的不穩定性,一方面要對抗硬件數量非線性增長帶來的“增熵”。

隨著集群增大,AI芯片也會出現算力衰減的情況。支撐穩定高效的訓練,就需要優化分布式計算系統的并行加速比。

更高的加速比,可以讓集群在執行同一任務時,獲得更高的速度和效率。也就是說,算力集群能夠最大限度地一直運轉,那么有效訓練時間的比例更高,是開發人員衡量集群性能的一個關鍵。

比如國產大模型文心4.0,就通過百度智能云的萬卡集群進行訓練,支持模型的穩定高效迭代進化。目前,百度智能云上萬卡訓練集群的加速比和有效訓練時間,達到 95% 以上。

wKgaomY7XLiAe_x6AANoU-Sp9e8566.jpg

(拍攝自IPF2024浪潮信息生態伙伴大會)

另一方面,中國智算還有一個特殊的要求,那就是闖過多元異構算力的“資源墻(resource wall)”。

不少智算中心,使用不一樣的AI芯片服務器組成異構集群合池訓練,共同完成一個大模型訓練。尤其是此前GPU緊缺的情況下,一些數據中心、智算中心在不同時期,購買了不同的GPU,形成了不同類型、不同版本的異構集群。

多元異構的國產算力,既能以用促建,促進國產AI芯片的發展,減少對海外單一供應鏈的依賴,也能發揮不同類型芯片的特性,提高計算資源的利用率和訓練效率。

但要將多元異構算力進行合池訓練,會帶來精度誤差、同步問題,以及更復雜的資源管理和調度策略,更高的開發運維難度等。

未來,每個行業、每家公司都可能訓練自己的大模型,帶來充沛、高效、穩定的AI算力需求。讓十萬百萬級集群、多元異構的算卡,以高效一致的步伐進行協作,將成為中國智算行業的關鍵挑戰。

第二關:踏寬通信

如果網絡通信的聯接能力不暢,大量算力資源折損在傳輸過程中,給智算中心與AI模型開發者帶來的損失都是難以估量的。

如何將大量算卡有效地連接起來,形成一個高效穩定的計算網絡,是支撐超大規模集群的關鍵。

需要說明的是,網絡作為算力運輸的道路,并不能無止境地拓寬。集群網絡,尤其是萬卡、十萬卡集群網絡的拓展,會受到幾方面的制約。

首先是成本上,萬卡乃至五萬卡集群,所需要的網絡設備數、端口數、光模塊數量,可能會達到百萬級別。而一個普通的400G光模塊功耗就在10瓦到12瓦,當一個網絡需要一萬多個光模塊,僅僅是電費成本都非常龐大。

wKgZomY7XLiAcfSsAANqXSCC1kA090.jpg

此外,有業內人士向我們表示,萬卡集群還容易搭建起來,未來如果要有百萬卡集群來訓練的大模型,可能整個城市的電都不夠用。解決這個問題,那就需要分區、跨城域的算網,比如將多個萬卡集群連起來,組成五萬卡、十萬卡集群。這就需要超高帶寬的400G甚至800G網絡,低時延、無損地支撐算力資源調度。

而一張運力強大、輻射范圍廣的算力網絡,意味著管理運維的難度,也前所未有地增大了,依靠傳統人力運維是不現實、不高效的。通過智能化、平臺化、自動化,來實現更有效的網絡納管,是華為、新華三等ICT廠商正在探索的方向。

第三關:走出軟件生態叢林

鄭緯民院士曾提到一個觀點:目前國內已經有30多家公司推出了國產AI芯片,“但用戶不太喜歡用,核心問題就是生態不好”。

這里的生態,指的是國產軟件生態。

目前,編程框架、并行加速、通信庫、算子庫、AI編譯器、編程語言、調度器、內存分配系統、容錯系統、存儲系統等關鍵軟件,雖然都有國產的,但仍有不足之處,比如功能不夠齊全、性能不夠好、生態貢獻者不夠繁榮等。

在鄭院士看來,如果能把軟件問題解決好,那么國產AI芯片硬件性能達到國外芯片的60%,大多數用戶也可以是滿意的,國產AI卡也會大受歡迎。軟件做不好,國產硬件再好,也沒有市場。

而萬卡時代,意味著AI硬件的種類更多,既有不同架構,還有不同品類、不同版本。企業或開發者想要著手AI模型和應用開發,會在復雜的軟件生態中暈頭轉向,很難快速找到路徑。

比如說,每個芯片廠商都有自己的底層軟件棧,且彼此不兼容,這就給AI開發者帶來了大量移植工作,適配遷移的操作繁瑣,時間、人力、金錢成本都很高。

我們注意到,2024年以來,幫助企業和AI開發者加快走出軟件叢林,不少智算廠商都在強化AI軟件賦能。比如寧暢在3月提出了“全局智算”戰略,以“AI軟動力”支持“精、準、穩”的AI集群設計,幫助客戶實現大規模AI集群方案架構設計;中科曙光首次提出了“立體計算”體系,在“建、用、生態”三維發力的全新計算體系中,加大對軟件生態的投入和支持;4月浪潮信息發布的企業大模型開發平臺“元腦企智(EPAI)”,通過端到端的解決方案,為企業提供AI應用開發全流程的系列工具。

可以看到,“軟硬兼施”的均衡能力,正在成為智算市場的兵家必爭之地。

wKgaomY7XLmABt3oAAWjkyC_OnM580.jpg

(拍攝自寧暢全局智算發布會)

大模型正在重塑產品、企業和社會,AI將無處不在,也讓萬卡時代成為一個確定性的未來。五萬卡、十萬卡乃至百萬卡的算力集群,將是第四次工業革命的蒸汽機、發動機。

量子力學的創始人海森堡說過,提出正確的問題,往往等于解決了問題的大半。

從這個角度來說,正在闖關的中國智算行業,一定能在萬卡時代,將算力的“心臟”握在自己手中。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 超級計算機
    +關注

    關注

    2

    文章

    464

    瀏覽量

    42027
  • 算力
    +關注

    關注

    1

    文章

    1012

    瀏覽量

    14954
  • 智算中心
    +關注

    關注

    0

    文章

    72

    瀏覽量

    1815
收藏 人收藏

    評論

    相關推薦

    百度智能云點亮昆侖芯集群

    近日,百度智能云宣布成功點亮昆侖芯集群,這一成就不僅在國內尚屬首次,也標志著百度在人工智能力領域取得了重大突破。據了解,百度智能云計劃進一步擴大規模,進一步點亮3
    的頭像 發表于 02-05 14:58 ?121次閱讀

    AI力:智能時代的核心驅動力

    引言在當今數字化時代力的重要性不言而喻。12月28日,央視和國務院國資委聯合制作的紀錄片《大國基石》第期《力引擎》中所強調的“力即
    的頭像 發表于 01-22 12:58 ?170次閱讀
    AI<b class='flag-5'>算</b>力:智能<b class='flag-5'>時代</b>的核心驅動力

    中國信通院栗蔚:云計算與AI加速融合,如何開啟智時代新紀元?

    中國信通院栗蔚:云計算與AI加速融合,如何開啟智時代新紀元?
    的頭像 發表于 01-17 18:48 ?538次閱讀
    <b class='flag-5'>中國</b>信通院栗蔚:云計算與AI加速融合,如何開啟智<b class='flag-5'>算</b><b class='flag-5'>時代</b>新紀元?

    弘信電子旗下安聯通加入集群服務推進方陣

    近日,中國信息通信研究院(以下簡稱“信通院”)在北京召開“集群服務推進方陣”首次工作部署會議。弘信電子集團旗下子公司安聯通受邀出席,展現了其在智
    的頭像 發表于 01-16 11:18 ?297次閱讀

    首個國產力集群!賽思時間同步服務器助力?“東數西”甘肅慶陽樞紐節點打造「中國谷」!

    ”甘肅慶陽樞紐節點數字經濟時代力作為新質生產力,已成為支撐數字經濟高質量發展的關鍵基礎設施。“東數西”工程是中國的一項國家級大工程,旨在通過構建數據中心、云計算
    的頭像 發表于 12-27 21:22 ?149次閱讀
    首個國產<b class='flag-5'>萬</b><b class='flag-5'>卡</b><b class='flag-5'>算</b>力集群!賽思時間同步服務器助力?“東數西<b class='flag-5'>算</b>”甘肅慶陽樞紐節點打造「<b class='flag-5'>中國</b><b class='flag-5'>算</b>谷」!

    大模型時代力需求

    現在AI已進入大模型時代,各企業都爭相部署大模型,但如何保證大模型的力,以及相關的穩定性和性能,是一個極為重要的問題,帶著這個極為重要的問題,我需要在此書中找到答案。
    發表于 08-20 09:04

    中國電信上海、北京兩個集群已經投產

    中國電信在智領域的發展迎來重要里程碑。近日,中國電信宣布,其上海、北京兩個集群已正式投
    的頭像 發表于 08-09 17:47 ?826次閱讀

    從千集群卡到集群,燧原科技打造更好的AI力底座

    :WAIC 2024)上,不僅有國內各大模型廠商同場競技,也有豐富的力基礎設施展示,其中包括專注人工智能領域云端力產品的燧原科技。 ? 燧原科技展臺 從千集群到
    的頭像 發表于 07-07 09:45 ?2444次閱讀
    從千<b class='flag-5'>卡</b>集群卡到<b class='flag-5'>萬</b><b class='flag-5'>卡</b>集群,燧原科技打造更好的AI<b class='flag-5'>算</b>力底座

    壁仞科技為中國移動呼和浩特智中心提供強大

    中心提供強大力。該項目成功上線運營,標志著雙方在智能計算領域的深度合作邁出了堅實的步伐。 ? 中國移動智中心(呼和浩特)屬于全國型N節點
    的頭像 發表于 07-05 17:16 ?1343次閱讀

    集群解決大模型訓力需求,建設面臨哪些挑戰

    解決大模型訓練對力需求的巨大增長問題,尤其是現在模型參數量從百億級、千億級邁向萬億級。 ? 國內外企業積極構建集群 ? 目前,在國際上,包括微軟、Google、Meta等AI領域的巨頭,都已落子超
    的頭像 發表于 06-02 06:18 ?4888次閱讀
    <b class='flag-5'>萬</b><b class='flag-5'>卡</b>集群解決大模型訓<b class='flag-5'>算</b>力需求,建設面臨哪些挑戰

    近6張加速中國移動新建3個超大規模智中心

    在第七屆數字中國建設峰會期間,中國移動正式發布了由級智集群、千億多模態大模型、匯聚百大要素的生態平臺共同構成的“九天”人工智能基座。
    的頭像 發表于 05-29 11:36 ?715次閱讀

    中國移動年內將投產多個超中心

    中國移動人工智能生態大會上,中國移動揭開了其全新“九天”人工智能基座的神秘面紗。這一基座由級智集群、千億多模態大模型及匯聚百大要素的
    的頭像 發表于 05-28 09:27 ?709次閱讀

    中國移動將商用個自主可控集群

    中國移動在近日舉辦的2024年力網絡大會上宣布了重要計劃。據中國移動副總經理高同慶透露,公司今年將正式商用個具有完全自主控制權的
    的頭像 發表于 05-06 10:21 ?628次閱讀

    中國代自主超導量子計算機“本源悟空”入駐國家超互聯網

    中國代自主超導量子計算機“本源悟空”日前正式入駐國家超互聯網平臺,中國最先進的量子力、超級
    的頭像 發表于 04-04 08:21 ?373次閱讀
    <b class='flag-5'>中國</b>第<b class='flag-5'>三</b>代自主超導量子計算機“本源悟空”入駐國家超<b class='flag-5'>算</b>互聯網

    中國電信規劃在上海建設首個國產超大規模力液冷集群

    中國電信規劃建設首個國產超大規模力液冷集群 人工智能技術的快速發展催生了巨大的力需求;中國電信規劃在上海規劃建設可支持萬億參數大模型訓練的智
    的頭像 發表于 02-22 18:48 ?1362次閱讀
    百家乐客户端LV| 大发888赌城| 百家乐官网筹码桌布| 哪个百家乐投注平台信誉好| 揭西县| 百家乐投注系统| 鹤岗市| 揭秘百家乐百分之50| 百家乐官网高手论坮| 百家乐和| 百家乐官网桌台布| 百家乐免费改| 网上百家乐官网有哪些玩法| 卓达太阳城希望之洲| 大发888在线娱乐城代理| 百家乐官网游戏种类| 速博国际| 百家乐时时彩网站| 真钱百家乐官网哪里最好| 百家乐网| 星期8百家乐官网的玩法技巧和规则 | 乐天堂百家乐官网赌场娱乐网规则| 沈阳娱乐棋牌网| 百家乐视频无法显示| 百家乐官网平注法口诀| 新全讯网网址xb112| 玩百家乐官网都是什么人| 凌源市| 明溪百家乐的玩法技巧和规则| 百家乐官网单机版的| 澳门赌场美女| 可信百家乐的玩法技巧和规则| 香港百家乐官网玩| 皇冠网注册送彩金| 游戏百家乐的玩法技巧和规则| 美女百家乐官网的玩法技巧和规则 | 稷山县| 百家乐单注打| 风水学24山看水法| 网上百家乐官网赢钱公式| 顶级赌场dj|