開放數據中心委員會ODCC冬季全員會議于12月4日-6日在春暖花開的昆明舉行。奇異摩爾首席系統架構師朱琛作為網絡工作組ETH-X超節點項目的核心成員分享了AI Networking Scale Up卡間互聯的新路徑解決方案并展開了相關應用分析。
隨著人工智能大模型訓推的需求日益增長,更大的模型并行規模,模型并行中Tensor并行或MOE類型的Expert并行都會在GPU之間產生大量的通信。這對于AI網絡Scale Up加速卡通訊提出了更高的顯存容量及帶寬、更低的延遲需求。
通常來說,Scale Up相對于Scale Out和業務網絡需要更高一個數量級(10倍以上)的帶寬,同時由于對于延遲的需求,要求GPU Direct直出互聯的設計,并節省更多的面積給芯片的計算核心、更高的IO集成能力。
傳統的做法是GPU SoC內部集成不同的IO IP通過片上網絡進行通信互聯。然而,Scale Up網絡還在不斷的演進當中,行業目前在標準制定與生態上還缺乏完備的解決方案。隨著相關技術的革新與演進,對GPU的未來設計及其相關性能提出更復雜的需求與挑戰。
傳統基于GPU SoC IO IP的方案在先進工藝的成本與靈活性方面缺乏優勢,計算芯片需要和IP使用統一一致的工藝節點;另一方面,如果對于互聯的設計產生較大的改變,將花費更多的時間與精力重新設計整體芯片方案。
(傳統直接集成IO IP的計算芯片)
奇異摩爾作為ETH-X超節點項目的成員提出了一種新的GPU片間互聯路徑。一種GPU內集成IO Die (邊緣IO Chiplet)的創新方案在未來Scale Up互聯的場景下能夠靈活應用并達到更可靠的GPU互聯通信效率。
(基于IO Die的計算芯片,計算芯粒和IO芯粒解耦,通過UCIe互聯)
GPU計算芯粒與IO 芯粒解耦,更靈活的技術演進和創新
IO Die 讓GPU芯粒和IO芯粒解耦并通過UCIe D2D互聯,這種方式讓GPU芯粒和IO Die能夠分開進行設計,并使用不同的先進工藝節點。當前Scale up的技術正處于不斷演進的過程中,基于IO Die的方案相比SoC可以提供更快的技術迭代。
復用IO Die,降低成本
采用獨立的IO Die使在新的設計中復用已有的IOD成為可能,比如Central IOD AMD EPYC Turin繼續復用上一代6nm制程的IOD 繼續實現制程/芯粒解耦,減少工藝成本。Intel的至強6使用了邊緣IOD的方式同樣實現了計算芯粒和IOD的解耦。
(圖:AMD 使用Central IOD實現內核工藝節點與IO分開 ,并復用IOD來降低成本)
靈活性及擴展性
基于Chiplet 的靈活性,用戶根據各自的帶寬需求自主選擇IO Die的數量和類型,在Scale Up的場景下來實現互聯帶寬的靈活配置。
奇異摩爾的Kiwi NDSA-G2G就是上述這種GPGPU集成IO Die芯粒的新路徑解決方案,不僅具備上述所列優勢,并內建Scale Up所需要的網絡加速控制引擎。客戶只需自研計算芯粒,免去自研互聯芯粒的成本,基于統一的互聯協議和接口采用Kiwi NDSA-G2G芯粒來實現片間TB級的互聯。
使用UCIe建立GPU芯粒與IO Die間互聯
奇異摩爾的GPU Link NDSA G2G (IO Chiplet) 通過基于UCIe的D2D IP與計算芯粒互聯。UCIe是主流的D2D國際互聯標準,目前已經受到了廣泛芯粒上下游的認可。UCIe 1.1v 本身支持主流Streaming等協議,并通過FLIT的按需交織實現多協議的復用。基于UCIe的D2D互聯無論從芯片面積占用、延遲(ns)、以及功耗的增加都在一個極低的可控制范圍。
關于GPU芯粒和IO Die的通信
如果GPU芯粒和IO Die在協議層使用同種協議,互通可以無縫實現,無需進行額外的協議轉換。如果GPU芯粒和IO Die在協議層采用不同的協議時,協議適配與轉換可以根據客戶的芯粒設計所處階段來適配協議在哪一側進行轉換。
隨著國內芯粒生態以及Scale Up網絡相關技術標準的日益完善,奇異摩爾展望從片間協議再到片內協議,推動行業建立統一互聯標準,從而攜手產業鏈共同實現超過十萬張加速卡的高效互聯。AI網絡的春天即將到來,希望的曙光在不久的將來將照拂行業的每一位前行者。
關于我們
AI網絡全棧式互聯架構產品及解決方案提供商
奇異摩爾,成立于2021年初,是一家行業領先的AI網絡全棧式互聯產品及解決方案提供商。公司依托于先進的高性能RDMA 和Chiplet技術,創新性地構建了統一互聯架構——Kiwi Fabric,專為超大規模AI計算平臺量身打造,以滿足其對高性能互聯的嚴苛需求。我們的產品線豐富而全面,涵蓋了面向不同層次互聯需求的關鍵產品,如面向北向Scale out網絡的AI原生智能網卡、面向南向Scale up網絡的GPU片間互聯芯粒、以及面向芯片內算力擴展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產品共同構成了全鏈路互聯解決方案,為AI計算提供了堅實的支撐。
奇異摩爾的核心團隊匯聚了來自全球半導體行業巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯產品研發和管理經驗,致力于推動技術創新和業務發展。團隊擁有超過50個高性能網絡及Chiplet量產項目的經驗,為公司的產品和服務提供了強有力的技術保障。我們的使命是支持一個更具創造力的芯世界,愿景是讓計算變得簡單。奇異摩爾以創新為驅動力,技術探索新場景,生態構建新的半導體格局,為高性能AI計算奠定穩固的基石。
-
gpu
+關注
關注
28文章
4777瀏覽量
129360 -
數據中心
+關注
關注
16文章
4860瀏覽量
72384 -
奇異摩爾
+關注
關注
0文章
49瀏覽量
3470
原文標題:聚焦昆明ODCC 冬季全員會議,奇異摩爾分享計算芯片Scale Up 片間互聯新途徑
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
奇異摩爾加入UALink加速器間互聯協議聯盟
回顧:奇異摩爾@ ISCAS 2024 :聚焦互聯技術與創新實踐
![回顧:<b class='flag-5'>奇異</b><b class='flag-5'>摩爾</b>@ ISCAS 2024 :聚焦<b class='flag-5'>互聯</b>技術與創新實踐](https://file1.elecfans.com/web2/M00/0A/E4/wKgZomcp886AJYBoAAAZOycJ-xc172.jpg)
潤欣科技與奇異摩爾簽署CoWoS-S封裝服務協議
智原科技與奇異摩爾2.5D封裝平臺量產
高標準農田灌區信息化:提高農業生產效率的新途徑
![高標準農田灌區信息化:提高農業生產效率的<b class='flag-5'>新途徑</b>](https://file1.elecfans.com/web2/M00/04/7A/wKgZombO7DaAdz9TAAo4S0uigAI497.png)
奇異摩爾賦能萬卡集群互聯
奇異摩爾專用DSA加速解決方案重塑人工智能與高性能計算
![<b class='flag-5'>奇異</b><b class='flag-5'>摩爾</b>專用DSA加速解決方案重塑人工智能與高性能<b class='flag-5'>計算</b>](https://file1.elecfans.com/web2/M00/07/C7/wKgaombrnnKAGY13AAKCgBR1DvE660.png)
異構計算:解鎖算力潛能的新途徑
![異構<b class='flag-5'>計算</b>:解鎖算力潛能的<b class='flag-5'>新途徑</b>](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
Scale out成高性能計算更優解,通用互聯技術大有可為
![<b class='flag-5'>Scale</b> out成高性能<b class='flag-5'>計算</b>更優解,通用<b class='flag-5'>互聯</b>技術大有可為](https://file1.elecfans.com/web2/M00/C6/E7/wKgZomYNJ2KAZcLWAAqbMMT7oNY846.png)
評論