螞蟻集團AI創新研發部門NextEvo近日宣布,他們將全面開源AI Infra技術,以推動AI研發效率的提升。該技術框架名為DLRover,目標在于實現大規模分布式訓練的智能化。
DLRover技術能夠幫助大模型千卡訓練實現高效運行,有效時間占比超過95%。這意味著在訓練過程中,大部分時間都能夠得到充分利用,而不是浪費在無謂的操作上。通過實現訓練時的“自動駕駛”,該技術能夠顯著提高AI研發的效率。
為了進一步提高大模型訓練的效率和穩定性,NextEvo團隊還對DLRover進行了持續的優化和完善。最新集成進DLRover的是Flash Checkpoint(FCP)方案。在模型訓練過程中,通常需要打Checkpoint以便在中斷時能夠恢復到最近的狀態。然而,常規的Checkpoint做法存在一些缺點,如耗時長、高頻打點易降低訓練可用時間、低頻打點恢復時丟失過多等。
針對這些問題,FCP方案進行了優化。通過應用FCP方案,在千卡千億參數模型訓練中,Checkpoint導致的訓練浪費時間降低了約5倍。此外,持久化時間降低了約70倍,有效訓練時間從90%提升至95%。這一改進顯著提高了模型訓練的效率和穩定性,進一步推動了AI技術的發展。
螞蟻集團開源DLRover技術的舉措將為AI研發領域帶來積極的影響。通過分享和交流,這一技術有望成為推動AI領域發展的重要力量。我們期待看到更多基于DLRover技術的創新應用和突破性成果,為人工智能的發展做出更大的貢獻。
-
AI
+關注
關注
87文章
31520瀏覽量
270339 -
開源
+關注
關注
3文章
3407瀏覽量
42713 -
螞蟻集團
+關注
關注
0文章
100瀏覽量
3657
發布評論請先 登錄
相關推薦
GPU是如何訓練AI大模型的
如何訓練自己的AI大模型
ai模型訓練需要什么配置
《AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得
Mobileye關閉激光雷達研發部門
IBM關閉中國研發部門 稱根據需要調整運營
螞蟻集團成立數字螞力新公司
螞蟻集團去年研發投入達211.9億元
AI+云服務引領行業發展,螞蟻集團大模型自主研發取得新突破
NanoEdge AI的技術原理、應用場景及優勢
螞蟻集團推出20億參數多模態遙感基礎模型SkySense
潞晨科技Colossal-AI + 浪潮信息AIStation,大模型開發效率提升10倍
![潞晨科技Colossal-<b class='flag-5'>AI</b> + 浪潮信息AIStation,大<b class='flag-5'>模型</b>開發<b class='flag-5'>效率</b><b class='flag-5'>提升</b>10倍](https://file1.elecfans.com//web2/M00/C3/20/wKgaomXgh7iAagsqAACRdd6hhXQ904.jpg)
評論