衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于無損數據中心的AI訓練網絡均衡技術實踐

華為數據通信 ? 來源:華為數據通信 ? 作者:華為數據通信 ? 2022-08-03 10:06 ? 次閱讀

2022年7月,在山東濟南舉行的2022中國算力大會上,紫金山實驗室研究員高新平作了“基于無損數據中心AI訓練網絡均衡技術實踐”的主題演講。

紫金山實驗室是江蘇省和南京市共同推進建設的重大科技創新平臺。紫金山實驗室面向網絡通信與安全領域國家重大戰略需求,以引領全球信息科技發展方向、解決行業重大科技問題為使命,通過聚集全球高端人才,開展前瞻性、基礎性研究,力圖突破關鍵核心技術,開展重大示范應用,促進成果在國家經濟建設中落地。紫金山實驗室力圖成為國家科技創新的重要力量,建成具有世界一流水平的戰略科技創新基地。

紫金山實驗室與華為依托紫金山實驗室無損數據中心展開面向AI訓練場景的網絡均衡技術的聯合創新,解決AI集群中網絡負載不均而導致的AI訓練任務性能下降的問題。

高新平研究員指出AI訓練使用的集合通信算法,當前主流的有Ring算法、Tree算法和Halving Doubling算法等,在運行時通信流量都呈現出了共同的特征:周期性、流數量少、長連接,并行任務間有強實時同步性要求,通信效率取決于最慢的節點。同時,AI訓練時,各節點之間傳輸的數據量大。以上這些流量特性使計算集群網絡容易出現負載不均導致AI訓練任務性能下降的問題。

現有網絡均衡的主流技術大體分為三種,逐流ECMP均衡、基于子流flowlet均衡和逐包的負載分擔均衡。逐流ECMP均衡技術,是當前最為常用的負載均衡算法,適用于流鏈接較多場景,它優勢在于無亂序,劣勢在于流數量較少時,例如AI訓練場景下,存在HASH沖突問題,網絡均衡效果不佳。基于子流flowlet均衡技術,它依賴于子流之間的時間間隔GAP值的正確配置來實現均衡,但全局路徑級時延信息不可知、無法配置,且存在接收端側亂序的問題。逐包的負載分擔均衡技術,理論均衡度最好,但實際在接收端側存在大量報文亂序問題,現實中幾乎無使用案例。

發表“基于無損數據中心的AI訓練網絡均衡技術實踐”主題演講

在紫金山實驗室無損數據中心AI訓練集群中驗證了華為創新的網絡均衡技術NSLB(Network Service Load Balance)。基于華為交換芯片高精度telemetry能力,采集流量矩陣作為路由算法輸入,用以控制AI流量的轉發路徑,避免負載不均,提升AI訓練效率。

Ring算法場景,運行單個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,網絡實現100%均衡、平均鏈路利用率34%、比ECMP提升35%,AI訓練集性能最高提升113.41%;

Ring算法場景,同時運行兩個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,網絡實現100%均衡、平均鏈路利用率29%、比ECMP提升15.6%,AI訓練集性能最高提升57.29%;

Tree算法場景下,運行單個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,網絡實現100%均衡、平均鏈路利用率13.8%、比ECMP提升1%,AI訓練集性能最高提升6.50%;

Tree算法場景下,運行兩個計算任務下,使用NSLB技術對比典型ECMP負載分擔技術,網絡實現100%均衡、平均鏈路利用率14%、比ECMP提升10.5%,AI訓練集性能最高提升15.81%。

未來,紫金山實驗將與華為在無損數據中心網絡領域就網絡新拓撲、DCN高性能互聯等方向展開持續的聯合創新,推動無損數據中心網絡在低時延、高吞吐等方向進一步的發展,為高算力提供強有力的底座。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據中心
    +關注

    關注

    16

    文章

    4860

    瀏覽量

    72385
  • AI
    AI
    +關注

    關注

    87

    文章

    31536

    瀏覽量

    270350
  • 網絡通信
    +關注

    關注

    4

    文章

    814

    瀏覽量

    29948

原文標題:2022中國算力大會 | 基于無損數據中心的AI訓練網絡均衡技術實踐

文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數據通信】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AI數據中心的布線考量

    帶來的威脅。最近,DALLE-2 和 ChatGPT 的發布引起了廣大公眾對 AI可以做什么的極大興趣,也引發了人們關于 AI 將如何改變教育和工作性質的討論。AI 也是當前和未來數據中心
    的頭像 發表于 12-05 09:26 ?357次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>數據中心</b>的布線考量

    NIDA發布《智算數據中心網絡建設技術要求》

    Alliance,以下簡稱 “NIDA”)攜手中國信息通信研究院等9家組織成員共同發布了《智算數據中心網絡建設技術要求》(以下簡稱 “技術要求”)。該
    的頭像 發表于 12-04 11:13 ?440次閱讀

    Meta AI數據中心網絡用了哪家的芯片

    ? 在Meta,我們相信開放的硬件會推動創新。在當今世界,越來越多的數據中心基礎設施致力于支持新興的AI技術,開放硬件在協助分解方面發揮著重要作用。通過將傳統數據中心
    的頭像 發表于 11-25 10:05 ?472次閱讀
    Meta <b class='flag-5'>AI</b><b class='flag-5'>數據中心</b><b class='flag-5'>網絡</b>用了哪家的芯片

    簡述數據中心網絡架構的演變

    隨著全球對人工智能(AI)的需求不斷增長,數據中心作為AI計算的重要基礎設施,其網絡架構與連接技術的發展變得尤為關鍵。
    的頭像 發表于 10-22 16:23 ?374次閱讀

    AI時代,我們需要怎樣的數據中心AI重新定義數據中心

    超過60%的中國企業計劃在未來12至24個月內部署生成式人工智能。AI、模型的構建,將顛覆數據中心基礎設施的建設、運維和運營。一個全新的數據中心智能化時代已經拉開序幕。
    發表于 07-16 11:33 ?784次閱讀
    <b class='flag-5'>AI</b>時代,我們需要怎樣的<b class='flag-5'>數據中心</b>?<b class='flag-5'>AI</b>重新定義<b class='flag-5'>數據中心</b>

    數據中心液冷需求、技術及實際應用

    夏日炎炎,數據中心制冷技術全新升級,液冷散熱,讓服務器清涼一夏。本文將帶您一起探索數據中心液冷需求、技術及實際應用。 1 數據中心液冷需求
    的頭像 發表于 06-19 11:12 ?1277次閱讀
    <b class='flag-5'>數據中心</b>液冷需求、<b class='flag-5'>技術</b>及實際應用

    數據中心布線標準有什么

    數據中心布線標準是現代IT基礎設施的基石。它們為組織建立可靠和有效的網絡提供了指導方針和框架。了解這些標準對于尋求優化其數據中心運營和確保無縫連接的組織至關重要。 什么是數據中心布線標
    的頭像 發表于 06-14 10:51 ?573次閱讀

    華為聯合IEEE面向全球發布L4數據中心自動駕駛網絡白皮書

    在華為數據通信創新峰會2024期間,華為聯合IEEE面向全球發布L4數據中心自動駕駛網絡白皮書,全面闡述了數據中心網絡
    的頭像 發表于 05-16 09:09 ?690次閱讀
    華為聯合IEEE面向全球發布L4<b class='flag-5'>數據中心</b>自動駕駛<b class='flag-5'>網絡</b>白皮書

    HNS 2024:星河AI數據中心網絡,賦AI時代新動能

    華為數據通信創新峰會2024在巴庫隆重舉辦,在“星河AI數據中心網絡,賦AI時代新動能”主題論壇中,華為面向中東中亞地區發布星河
    的頭像 發表于 05-15 09:15 ?711次閱讀
    HNS 2024:星河<b class='flag-5'>AI</b><b class='flag-5'>數據中心</b><b class='flag-5'>網絡</b>,賦<b class='flag-5'>AI</b>時代新動能

    管理數據中心電纜的技巧

    電纜是數據中心中最常見的物體之一。不幸的是,它們也可能是最丑陋和最難處理的。一個平均規模的數據中心很容易包含成千上萬的各種類型的單獨的電源和網絡電纜,如果沒有很好地組織它們,數據中心
    的頭像 發表于 04-12 10:21 ?465次閱讀

    #mpo極性 #數據中心mpo

    數據中心MPO
    jf_51241005
    發布于 :2024年04月07日 10:05:13

    華為聯合中國信通院發布《華為星河AI數據中心網絡測試報告》

    2024 開放數據中心委員會(以下簡稱ODCC)春季全會在江西婺源順利召開,全會由ODCC副主席李潔博士主持。全會期間,華為聯合中國信通院云大所數據中心團隊發布《華為星河AI數據中心
    的頭像 發表于 04-02 09:25 ?1545次閱讀

    一圖看懂星河AI數據中心網絡,全面釋放AI時代算力

    華為中國合作伙伴大會 | 一圖看懂星河AI數據中心網絡,以網強算,全面釋放AI時代算力
    的頭像 發表于 03-22 10:28 ?834次閱讀
    一圖看懂星河<b class='flag-5'>AI</b><b class='flag-5'>數據中心</b><b class='flag-5'>網絡</b>,全面釋放<b class='flag-5'>AI</b>時代算力

    是德科技推出AI數據中心測試平臺

    是德科技近期宣布,針對蓬勃發展的AI和ML基礎設施生態系統,隆重推出了全新的AI數據中心測試平臺。該平臺專為加速AI/ML網絡驗證與優化而設
    的頭像 發表于 03-08 10:17 ?789次閱讀

    是德科技推出AI數據中心測試平臺旨在加速AI/ML網絡驗證和優化的創新

    2024年2月29日,是德科技(Keysight Technologies,Inc.)宣布,針對人工智能(AI)和機器學習(ML)基礎設施生態系統,推出了 AI數據中心測試平臺,旨在加速AI
    的頭像 發表于 02-29 09:32 ?702次閱讀
    是德科技推出<b class='flag-5'>AI</b><b class='flag-5'>數據中心</b>測試平臺旨在加速<b class='flag-5'>AI</b>/ML<b class='flag-5'>網絡</b>驗證和優化的創新
    棋牌游戏中心| 玩机器百家乐心得| 百家乐官网百博| 视频百家乐官网是真是假| 百家乐官网对冲套红利| 视频百家乐官网破解| 娱网百家乐官网补丁| 百家乐官网l路单| 包赢百家乐官网的玩法技巧和规则| 有钱人百家乐官网的玩法技巧和规则| 威尼斯人娱乐城活动| 大发888在线娱乐城| 百家娱乐城| 百家乐官网娱乐开户| 澳门百家乐官网牌规| 百家乐官网全部规| 凯时百家乐技巧| 百家乐视频官方下载| 无锡百家乐的玩法技巧和规则| 大发888下载安装| 真钱游戏网| 门赌场百家乐官网的规则| 兴宁市| 利澳娱乐城注册| 百家乐那里可以玩| 大发888官方 df888 gfxzylc8| 棋牌游戏开发商| 棋牌真钱游戏| 百家乐官网线上游戏| 百家乐官网注册优惠平台| 网上百家乐官网必赢玩| 澳门百家乐官网游戏下| 百家乐分析概率原件| 百家乐官| 大发888娱乐城取款| 投注平台网| 百家乐官网娱乐城主页| 百家乐官网技巧方法| 澳门百家乐赢钱| 百家乐最新破| 大发888娱乐城下载平台|