衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

全新NVIDIA Spectrum-X網絡平臺構筑阿里生成式AI云底座

麗臺科技 ? 來源:麗臺科技 ? 2023-11-02 09:07 ? 次閱讀

全新 NVIDIA Spectrum-X 網絡平臺構筑阿里生成式 AI 云底座。

a409b7e6-7913-11ee-939d-92fbcf53809c.png

隨著生成式 AI 的熱潮席卷全球,用于訓練生成式 AI 的大型高性能網絡基礎設施開始受到客戶和行業的關注。這不僅僅是因為巨大的市場潛力,更因為生成式 AI 應用對當前網絡的技術與產品帶來的巨大挑戰。

由于生成式 AI 訓練任務的特性,其對網絡的要求與傳統的 DC 網絡在多方面存在差異。主要體現在:

性能至上,對于網絡帶寬及通信效率的要求高,需要實現從 GPU 到網絡,再到其它 GPU 的端到端帶寬平衡,從而達到充分發揮集群訓練性能的目的。

AI 網絡流量并發性高和突發性流量多,對于數據的完整性要求很高,依賴于 RDMA 轉發保證帶寬最大化和數據的完整性,降低對 CPU 資源消耗。

模型并行加數據并行共存的通信機制導致對于網絡時延敏感,網絡中的任何額外的時延都可能影響數以百計的 GPU 之間的通信效率。

需要無收斂的網絡拓撲保證各種通信場景下的網絡帶寬沒有瓶頸。

由于傳統的網絡解決方案無法滿足這些需求,NVIDIA 依靠多年在 AI 和高速通信領域的積累,推出了 Spectrum-X 以太網解決方案,以推動以太網技術可以更好地適配生成式 AI 基礎設施的要求。

NVIDIA Spectrum-X 是專為基于以太網的 AI 云提高性能和效率而設計的平臺。

NVIDIA Spectrum-X 依托于 NVIDIA Spectrum-4 以太網交換機和 NVIDIA BlueField-3 DPU 的緊密結合,專為 AI 工作負載構建了端到端的創新網絡平臺,大幅提升了以太網在大規模、可擴展環境中的通信效率,并在多租戶環境中實現了一致的、可預測的性能,提高了生成式 AI 云的性能和能效。NVIDIA Spectrum-X 網絡平臺還包括 Cumulus Linux、NetQ、Air 和 DOCA 加速軟件等,以及 NVIDIA 的 LinkX 系列線纜和光模塊產品,共同助力該網絡平臺實現出色的性能。

NVIDIA Spectrum-X 網絡平臺集成了 NVIDIA Spectrum-4 以太網交換機、NVIDIA BlueField-3 DPU、NVIDIA LinkX 線纜及加速軟件和 SDK,通過無損以太網的端到端動態路由、基于可編程擁塞控制的性能隔離技術等先進的 RoCE 擴展功能,構建了一個專為 AI 云而優化和加速的端到端高性能 400GbE 以太網絡。測試顯示,與傳統以太網相比,采用 NVIDIA Spectrum-X 網絡平臺可將大規模 AI 工作負載的性能提高到 1.7 倍,并將網絡的有效通信帶寬提升到 1.6 倍。

NVIDIA Spectrum-X 網絡平臺,實現了 GPU 到 GPU 直接的端到端加速和優化,大幅減少了大規模生成式 AI 模型的運行時間,提升了 GPU 的效率,優化了 AI 平臺的總體擁有成本(TCO)和降低了基礎設施的整體功耗。同時,它還具有高度的通用性,有力地支撐了各種生成式 AI 應用,由于它也是標準的以太網,實現了與已有的基于以太網堆棧的云架構和云服務互通。

阿里云作為全球領先的云供應商,擁有巨型的通用計算平臺。同時,阿里云也持續向加速計算領域擴張,建成并持續擴張以PAI 靈駿”算力服務為代表大型的 GPU 集群。阿里云基礎設施網絡團隊從 2017 年開始構建端網融合的可預期高性能 RDMA 網絡架構,過去幾年已經在高性能存儲領域實現了大規模部署,目前正在大規模 AI 計算領域持續創新迭代和規模部署,以適配 AI 計算對高性能網絡的訴求。阿里云也充分認識到技術創新對以太網方案持續支持高性能網絡,尤其是生成式 AI 基礎設施的重要性。

為此,阿里云聯合 NVIDIA 對 Spectrum-X 解決方案進行測試,以評估新技術對高性能網絡的適應能力。

測試的主要內容和結果

阿里云測試環境配置

測試環境使用了 2 臺 Spine 交換機,4 臺 ToR 交換機,16 臺 HGX GPU 服務器并配置了 NVIDIA BlueField-3 DPU,基于 NVIDIA 51.2T Spectrum-4 交換芯片的 SN5600,以太網交換機,支持 128*400G 或者 64*800G 端口。每臺 GPU 服務器配置 8 張 BlueField-3 DPU,每 4 臺 GPU 服務器為一組連接到一臺 ToR 交換機,共 4 組連接到 4 臺 ToR 交換機。ToR 交換機通過 200G 網絡連接到 BlueField-3 DPU,4 臺 ToR 交換機通過 2 臺 Spine 交換機連接在一起,構成無阻塞胖樹網絡。

a42367d6-7913-11ee-939d-92fbcf53809c.png

主要的測試內容

這些測試由多個級別的工作負載組成,從簡單到復雜:

RDMA 基準性能測試,覆蓋帶寬和延遲。

孤立場景下的 All to All 和 All Reduce 集合通信測試,專注于 NCCL 性能基準。

在共享資源和有背景噪聲環境下的性能測試。

故障場景的測試。

a442808a-7913-11ee-939d-92fbcf53809c.png

測試結果顯示,由于使用了端到端的逐包負載均衡優化技術(Adaptive Routing)和零配置 RoCE 擁塞控制(ZTR CC)使得網絡利用率顯著提升,并顯著減少由于網絡擁塞和 In-Cast 問題帶來的時延和抖動。網絡帶寬利用率在各種測試場景下均可超過 90%。這種逐包負載均衡技術也可以對多種故障情況(本端和遠端)做出響應,合理地利用網絡內的帶寬資源。在真實訓練任務的測試過程中,Spectrum-X 可以降低 20% 以上的訓練時間。在獲得這一切收益的同時,網絡的配置工作量大大降低,運維人員不再需要進行復雜的配置和頻繁的調優工作。

這些測試結果表明 NVIDIA Spectrum-X 加速網絡平臺的突破性技術可大幅提升大規模生成式 AI 工作負載的性能,并大幅縮短生成式 AI 模型的運行時間。

通過采用 NVIDIA Spectrum-X 網絡平臺,客戶可進一步為千行百業的客戶提供具有性能和成本優勢的生成式 AI 云服務,將 AI 通用大模型和行業大模型賦能和融合各種應用場景。NVIDIA 和阿里云的開發人員將基于 NVIDIA Spectrum-X 網絡平臺的加速軟件和 SDK 進一步在虛擬化、定制化可編程擁塞控制、遙測、快速故障響應等方面展開合作,推動這一新解決方案的進一步發展和應用。

針對這一聯合測試,阿里云基礎設施網絡研發事業部總經理蔡德忠表示:“高性能網絡技術是 AI 計算 Scaling Law 的關鍵所在,這個領域需要持續不斷的創新迭代,阿里云始終堅持網絡的開放性,也是網絡開源生態的領導者和積極貢獻者,阿里云與 NVIDIA 在 AI 計算和高性能存儲領域合作多年,將持續探索創新基于 Open Ethernet 的高性能網絡方案,助力 AI 計算集群的大規模高效擴展。”

NVIDIA 網絡高級副總裁 Gilad Shainer表示:“生成式 AI(Generative AI)是面向下一代業務需求的典型代表,為了支撐成千上萬的用戶的需求,生成式 AI 云需要先進及可靠的網絡基礎架構滿足各種 AI 業務的平滑增長。阿里云和 NVIDIA 在 Spectrum-X 以太網平臺上的策略合作,可以充分利用 Spectrum-X 的先進路由技術和云上業務性能隔離技術,使阿里云及其廣大用戶可以盡情享受生成式 AI 的服務。”






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 以太網
    +關注

    關注

    40

    文章

    5460

    瀏覽量

    172730
  • NVIDIA
    +關注

    關注

    14

    文章

    5076

    瀏覽量

    103722
  • 交換機
    +關注

    關注

    21

    文章

    2656

    瀏覽量

    100179
  • 光模塊
    +關注

    關注

    77

    文章

    1283

    瀏覽量

    59228
  • GPU芯片
    +關注

    關注

    1

    文章

    303

    瀏覽量

    5897

原文標題:全新 NVIDIA Spectrum-X 網絡平臺構筑阿里生成式 AI 云底座

文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    NVIDIA推出全新生成AI模型Fugatto

    NVIDIA 開發了一個全新生成 AI 模型。利用輸入的文本和音頻,該模型可以創作出包含任意的音樂、人聲和聲音組合的作品。
    的頭像 發表于 11-27 11:29 ?431次閱讀

    NVIDIA助力xAI打造全球最大AI超級計算機

    NVIDIA 宣布,xAI 位于田納西州孟菲斯市的Colossus 超級計算機集群達到了 10 萬顆 NVIDIA Hopper GPU 的巨大規模。該集群使用了NVIDIA Spectru
    的頭像 發表于 10-30 11:38 ?446次閱讀

    NVIDIA 以太網加速 xAI 構建的全球最大 AI 超級計算機

    市的 Colossus 超級計算機集群達到了 10 萬顆 NVIDIA? Hopper? GPU 的巨大規模。該集群使用了 NVIDIA Spectrum-X? 以太網網絡
    發表于 10-30 09:33 ?178次閱讀
    <b class='flag-5'>NVIDIA</b> 以太網加速 xAI 構建的全球最大 <b class='flag-5'>AI</b> 超級計算機

    NVIDIA新增生成AI就緒系統認證類別

    借助全新NVIDIA Spectrum-X Ready 和 NVIDIA IGX 認證,領先的制造業合作伙伴將提供高性能系統,幫助客戶輕松部署
    的頭像 發表于 10-10 09:44 ?433次閱讀

    NVIDIA AI助力SAP生成AI助手Joule加速發展

    在美國佛羅里達州奧蘭多舉行的 SAP Sapphire 大會上,NVIDIA 與這家企業軟件公司公布了搭載NVIDIA AI Enterprise軟件的生成
    的頭像 發表于 09-09 09:37 ?502次閱讀

    簡單認識NVIDIA網絡平臺

    NVIDIA Spectrum-X800 平臺是業界第一代 800Gb/s 的以太網網絡平臺,包括了 N
    的頭像 發表于 09-09 09:22 ?500次閱讀

    應用NVIDIA Spectrum-X網絡構建新型主權AI

    法國服務提供商 Scaleway 正在基于 NVIDIA 的 Hopper GPU和 Spectrum-X 以太網網絡平臺 構建區域性 G
    的頭像 發表于 07-26 18:58 ?1241次閱讀

    NVIDIA推出NVIDIA AI Computing by HPE加速生成 AI 變革

    關系進一步深化。助力生成 AI 的企業級應用與發展加速駛入快車道。 HPE Private Cloud AI 是該解決方案的關鍵,開創性地將 NV
    的頭像 發表于 06-20 17:36 ?784次閱讀

    NVIDIA宣布全面推出 NVIDIA ACE 生成 AI 微服務

    采用 NVIDIA 宣布全面推出 NVIDIA ACE 生成 AI 微服務,以加速新一代數字人的發展,并將在
    的頭像 發表于 06-04 10:18 ?722次閱讀

    NVIDIA Spectrum-X 以太網網絡平臺已被業界廣泛使用

    平臺已被業界廣泛使用,并且將進一步加快新品發布計劃。 Spectrum-X 是全球首款專為 AI 打造的以太網網絡平臺,可將
    的頭像 發表于 06-03 18:20 ?1039次閱讀

    NVIDIA AI Enterprise榮獲金獎

    NVIDIA AI Enterprise、GH200 Grace Hopper 超級芯片和 Spectrum-X 在 COMPUTEX 2024 獲得認可。
    的頭像 發表于 05-29 09:27 ?497次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Enterprise榮獲金獎

    NVIDIA Spectrum-X助力IBM為AI Cloud提供高性能底座

    在混合AI 的時代,企業和組織需要創建、分析和保存海量的數據,在分布的應用環境中會形成各種各樣的數據孤島,導致復雜系統難以管理,成本不斷增加。
    的頭像 發表于 05-08 09:27 ?493次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b>助力IBM為<b class='flag-5'>AI</b> Cloud提供高性能<b class='flag-5'>底座</b>

    NVIDIA Edify為視覺內容提供商帶來3D生成AI全新圖像控件

    用于視覺生成 AI 的多模態架構 NVIDIA Edify 正在邁入全新維度。
    的頭像 發表于 03-26 09:49 ?899次閱讀

    NVIDIA發布專為大規模AI量身訂制的全新網絡交換機-X800系列

    NVIDIA Quantum-X800 InfiniBand 網絡NVIDIA Spectrum?-
    的頭像 發表于 03-20 09:54 ?566次閱讀

    NVIDIA 發布全新交換機,全面優化萬億參數級 GPU 計算和 AI 基礎設施

    圣何塞 —— GTC —— 太平洋時間 2024 年 3 月 18 日 —— NVIDIA 發布專為大規模 AI 量身訂制的全新網絡交換機 - X800 系列。 ?
    發表于 03-19 10:05 ?411次閱讀
    <b class='flag-5'>NVIDIA</b> 發布<b class='flag-5'>全新</b>交換機,全面優化萬億參數級 GPU 計算和 <b class='flag-5'>AI</b> 基礎設施
    bet365体育在线15| 百家乐菲律宾| 线上百家乐官网开户| 太阳城网上版| 风水24山那个排第一| 百家乐官网开发公司| 威尼斯人娱乐代理注| 战神百家乐娱乐| 百家乐官网连线游戏下载| 百家乐游戏试玩免费| 百家乐官网览| 棋牌赌博| 克拉克百家乐的玩法技巧和规则 | 乌拉特中旗| 大发888小陆| 金臂百家乐开户送彩金| 一直对百家乐官网很感兴趣.zibo太阳城娱乐城 | 百家乐不锈钢| 百家乐正确的打法| 百家乐官网赌场娱乐| 吉隆县| 外围赌球软件| 缅甸百家乐博彩| 澳门赌百家乐官网的玩法技巧和规则| 百家乐官网真钱牌九| 百家乐策略网络游戏信誉怎么样| 网上百家乐危险| 百家乐官网赌博讨论群| 桦南县| 亲朋棋牌游戏| 百家乐一年诈骗多少钱| 哪里有百家乐代理| 百家乐官网专业赌博| 百家乐官网色子玩法| 沈阳盛京棋牌官网| 玩百家乐怎么能赢呢| 百家乐分析博彩正网| 金矿百家乐官网的玩法技巧和规则 | 滦平县| 澳门赌球网| 大发888 casino|