電子發燒友網報道(文/李彎彎)隨著AI技術的飛速發展,大模型的訓練和推理任務對算力的需求日益增長。然而,單一品牌的芯片往往難以滿足所有需求,且可能存在供應鏈風險。因此,異構芯片混訓成為了一種重要的解決方案。通過混合使用多種異構芯片,可以充分利用不同芯片的優勢,提高算力利用率,降低算力成本,并推動AI技術的廣泛應用。
異構混訓能夠整合不同架構芯片資源
在2024年世界人工智能大會AI基礎設施論壇上,無問芯穹聯合創始人兼CEO夏立雪發布了全球首個千卡規模異構芯片混訓平臺,千卡異構混合訓練集群算力利用率最高達到了97.6%。
同時,無問芯穹Infini-AI云平臺已集成大模型異構千卡混訓能力,是全球首個可進行單任務千卡規模異構芯片混合訓練的平臺,具備萬卡擴展性,支持包括AMD、華為昇騰、天數智芯、沐曦、摩爾線程、NVIDIA六種異構芯片在內的大模型混合訓練。通過Infini-AI云平臺,用戶可以在異構算力資源上實現高效的模型訓練和推理,從而加速AI應用的開發和部署。
據稱,已有智譜AI、月之暗面、生數科技等大模型公司客戶在Infini-AI上穩定使用異構算力,還有20余家AI Native應用創業公司在Infini-AI上持續調用各種預置模型。
異構混訓平臺具有多樣化算力資源、高效算力分配、靈活性與可擴展性、降低總體擁有成本(TCO)、推動技術創新和生態整合等特點。
具體來看,異構混訓平臺能夠整合來自不同廠商、不同架構的芯片資源,這些芯片在各自擅長的領域具有不同的性能優勢。通過智能的調度算法和任務分發機制,異構混訓平臺能夠根據任務的特性和需求,將最適合的算力資源分配給相應的芯片,從而實現算力資源的最大化利用。
異構混訓平臺支持多種芯片和算法的組合使用,能夠靈活應對不同規模、不同復雜度的訓練任務。同時,它也具備較高的可擴展性,能夠根據實際需求進行算力資源的動態擴展。通過整合不同架構的芯片資源,避免對單一硬件平臺的過度依賴,異構混訓平臺能夠降低供應鏈風險,并通過提高算力利用率和訓練效率來降低總體擁有成本。
異構混訓平臺為AI技術創新提供了更加廣闊的舞臺,通過整合不同芯片和算法的優勢資源,可以激發更多的創新靈感和技術突破。同時,它也有助于打破不同硬件生態系統之間的壁壘,促進生態整合與協同發展。
異構混訓在AI領域的需求日益凸顯
近年來,隨著人工智能技術的不斷發展,大模型的參數量急劇增加,從十億、百億到千億甚至萬億級別。以ChatGPT、LLama等為代表的大模型技術正持續推動社會變革,引發新一輪人工智能熱潮。這些大模型具有數千億甚至上萬億參數規模,單個計算節點無法滿足訓練需求,訓練過程耗時巨大。
面對如此龐大的模型,傳統的同構算力集群已經無法滿足訓練需求。即使采用分布式訓練框架,也需要充分整合可調動的算力資源進行分布式并行加速。然而,由于不同廠商的智算芯片之間存在計算架構、緩存資源、互聯方式等諸多差異,以及AI計算框架與各廠商基礎軟件棧深度綁定,導致多種智算芯片難以協同工作,限制了算力資源的充分利用。
異構芯片混訓成了解決算力限制的重要方式,目前已經有諸多應用案例。如,醫療機構采用異構芯片混訓平臺,將NVIDIA GPU、Intel CPU以及華為昇騰AI處理器等多種芯片混合使用。通過平臺的高效調度和算力分配,實現了對醫學影像數據的快速處理和分析。
異構芯片混訓平臺能夠顯著提高了醫療影像分析系統的處理速度和精度,為醫生提供了更加準確和及時的診斷支持。
自動駕駛汽車研發公司采用異構芯片混訓平臺,將AMD GPU、NVIDIA GPU以及專用AI加速器等多種芯片混合使用。通過平臺的異構并行訓練能力,實現了對自動駕駛算法模型的高效訓練和優化。
異構芯片混訓平臺能顯著提高自動駕駛算法模型的訓練速度和精度,為自動駕駛汽車的研發提供了有力支持。同時,通過降低算力成本和提高資源利用率,也可以幫助公司加快自動駕駛技術的商業化進程。
寫在最后
當然,在異構芯片混訓過程中,可能會面臨一些技術挑戰,如不同芯片間的通信問題、性能差異等。為了解決這些問題,可以采取相應的措施,如建立通用的集合通信庫,實現不同種芯片的高效通信,兼容多種硬件;提出基于流水線并行的非均勻拆分方案,解決不同硬件效率不一樣的問題,針對自身情況分配最適合的任務等。
-
AI
+關注
關注
87文章
31536瀏覽量
270343 -
算力
+關注
關注
1文章
1016瀏覽量
14959 -
大模型
+關注
關注
2文章
2551瀏覽量
3172
發布評論請先 登錄
相關推薦
![](https://file1.elecfans.com/web3/M00/06/DA/wKgZO2ePxA2AEaTzAAQet3Edt48898.jpg)
壁仞科技聯合中國電信等合作伙伴共同發布智算異構四芯混訓解決方案
華納云:什么是負載均衡?優化資源利用率的策略
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--了解算力芯片CPU
《算力芯片 高性能 CPU/GPU/NPU 微架構分析》第1-4章閱讀心得——算力之巔:從基準測試到CPU微架構的深度探索
交換機內存利用率過高會是什么問題
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--全書概覽
名單公布!【書籍評測活動NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構分析
安謀科技異構算力組合,破局生成式AI算力挑戰
無問芯穹發布千卡規模異構芯片混訓平臺
DC/AC電源模塊:提升光伏發電系統的能源利用率
![DC/AC電源模塊:提升光伏發電系統的能源<b class='flag-5'>利用率</b>](https://file1.elecfans.com/web2/M00/C0/F9/wKgaomXRocGAIs1BAAOQAzowCMs252.png)
鯤泰新聞|神州鯤泰創新智算之旅北京站開幕,發布全新智算架構和液冷整機柜產品應對 “多云、異構、綠色
![鯤泰新聞|神州鯤泰創新智<b class='flag-5'>算</b>之旅北京站開幕,發布全新智<b class='flag-5'>算</b><b class='flag-5'>架構</b>和液冷整機柜產品應對 “多云、<b class='flag-5'>異構</b>、綠色](https://file1.elecfans.com//web2/M00/E8/C9/wKgaomZNXuiAEJUyAALQaTEyk9E739.png)
評論