來源:SDNLAB
2023年,以ChatGPT為代表的AIGC技術正在蓬勃發展,并在文本生成、代碼開發等各個領域取得了重大進展,重塑了行業格局。德勤報告預測,到2027年,在AIGC推動下的人工智能基礎設施服務市場將增至130-160億美元。
AIGC 利用自然語言處理 (NLP) 和機器學習 (ML) 技術來完成跨文本、圖像、音頻和視頻的內容生成,這一成就得益于強大的計算能力、存儲和高速通信的支持。
01賦能算力的關鍵在于網絡
AI的顯著進步離不開數據、算法和計算能力這三大支柱。尤其是對于大規模、復雜的AIGC模型,強大的算力基礎設施至關重要。以ChatGPT為例,它在訓練過程中使用了10000個V100 GPU,形成一個高帶寬集群,單次訓練消耗約3640 PF-day的算力。
然而,影響GPU利用率的最重要因素是網絡,特別是在由數萬個GPU組成的計算集群中,需要大量的帶寬來實現高效的數據交換。缺乏強大的網絡支持可能會導致 GPU 利用率降低、訓練時間延長、成本增加以及用戶體驗下降。因此,網絡尤為重要。
從本質上講,如果沒有高效的組網,大模型的應用將會受到嚴重制約。
為了支持AIGC的運行,高性能的網絡基礎設施必不可少。為了滿足AI集群計算的需求,業界提出了三種主要的網絡解決方案:InfiniBand、RDMA和Fabric switch。
其中,RDMA是一種新的通信機制,可以顯著提高數據吞吐量,同時減少延遲。它主要基于 RoCE v2 協議,通過以太網實現。
Fabric switch解決方案適用于小規模AI計算集群部署,它采用特定的芯片和技術來滿足高性能網絡的需求,但它面臨著可擴展性有限、設備功耗高、故障域大等挑戰。
InfiniBand網絡具有極高的帶寬、無擁塞、低延遲等特點,雖然成本較高,但被ChatGPT、GPT-4等模型所采用。憑借 InfiniBand 和 GPU,NVIDIA 已在 AI 基礎設施領域建立了主導地位,占據了約 80% 的市場份額。以配備 NVIDIA DGX H100 系統的 NVIDIA DGX SuperPOD 為例,它由 31 到 127 個 DGX H100 系統組成,總共 1016 個 NVIDIA Hopper GPU。這種配置提供了出色的AI計算性能。
02AIGC 網絡和計算能力驅動下核心產品的趨勢
服務器:AI算力的核心
AIGC的快速發展推動了對高性能AI服務器的需求。全球AI服務器市場正在經歷大幅增長,IDC數據預計到2025年市場規模將達到317.9億美元,年復合增長率為19%。
AI服務器與傳統服務器的不同之處在于其硬件配置,高性能GPU或TPU加速器使得這些服務器能夠在短時間內處理大規模數據集,加速深度學習和機器學習。這也導致對更大內存、更快存儲和更多核心處理器的需求不斷增加。此外,PCIe設備的需求也隨之上升,以支持更多的加速器卡和高速網絡接口。
不斷升級的高性能需求:AI工作負載通常需要大量的計算能力,從而推動了對高性能服務器的需求,包括配備高性能 GPU、TPU 和快速存儲的服務器。
特定硬件要求:AI服務器需要特定的硬件配置,例如GPU加速器、PCIe插槽和高速網絡接口,以滿足AI算法的運行需求。
創新的服務器設計:為了滿足大規模AI模型的需求,諸如 NVIDIA DGX GH200 之類的新型服務器設計應運而生,可提供更高的吞吐量和可擴展性。
交換機:400G/800G需求迫切
交換機作為數據中心計算網絡的中樞,正在逐漸演進以滿足不斷增長的高速數據傳輸需求。在為人工智能和數據中心的快速增長提供必要的支持和解決方案方面,交換機發揮著關鍵作用。
高速網絡需求:AI工作負載產生了大量的數據傳輸需求,這也推動了對網絡交換機從10G/40G過渡到400G/800G的需求。
減少帶寬損失:AI服務器和數據中心需要更高性能的交換機來減少數據傳輸過程中的帶寬損耗,以及更快的數據傳輸速度,以確保實時處理和響應。因此對交換機性能的要求更加苛刻,這也催生了更復雜的交換機設計和PCB要求。
數據中心擴展:隨著AI的快速發展,數據中心的規模和復雜性也在不斷增加。數據中心的擴展需要更多的交換機,以滿足連接和通信的需求。根據Dell'Oro的報告,到2027年,速度為400Gbps及以上的交換機將占據近70%的市場份額。
光模塊:強勁增長和新興技術趨勢
隨著人工智能和數據中心的快速擴張,光模塊市場正在經歷強勁的增長。這些光模塊是數據傳輸中不可或缺的組件,通常與交換機或網卡協同工作,實現高速數據傳輸。由于AI工作負載的不斷增加,數據中心需要更快、更可靠的連接,這推動了對高性能光模塊的需求。
此外,隨著網絡速度不斷提高,傳統的可插拔光模塊可能會受到物理極限的制約,這促使了新型光模塊解決方案(如共封裝光學器件 (CPO) )的涌現,以滿足高速數據傳輸中對更高帶寬和更小型設備的需求。
AIGC 推動的其他產品趨勢
除了前面提到的服務器、交換機和光模塊之外,整個網絡基礎設施需要更廣泛的產品,它們的增長也受到AI驅動解決方案擴展的影響,包括:
電源管理:電源開關、電源濾波器和穩壓器等組件,確保整個網絡穩定可靠的配電。
控制和管理:服務器內的管理芯片、時鐘芯片和BIOS芯片等組件,對于監督和協調網絡操作至關重要。
熱管理:在AI驅動的系統中,特別是在數據中心環境中,CPU散熱器和風扇等產品對于有效可靠的熱管理至關重要。
03AIGC 的持續連鎖反應
AIGC的到來引發了一場技術革命,對硬件、軟件和服務領域都帶來了巨大的影響。
從硬件角度來看,AIGC的崛起對高性能服務器、網絡交換機和光模塊的需求產生了持續的增長。特別是在高性能計算和數據中心領域,對更強大的硬件資源的渴望推動了創新的硬件設計趨勢。服務器需要更大內存、更多GPU加速器和更快的存儲來滿足日益復雜的AI工作負載。此外,網絡交換機需要更高的吞吐量和更快的數據傳輸速度,以支持大規模的數據處理需求。光模塊的需求也隨之上升,以實現更高速度和更密集的數據傳輸。
從軟件和服務來說,僅限于傳統的機器學習和深度學習,AIGC技術正在滲透到各個領域,如文本生成、代碼開發、詩歌創作等。這為軟件開發和云計算服務提供了新的機遇,推動了創新和多樣化。
AIGC的蝴蝶效應正在持續蔓延,并有望繼續下去,這使我們需要在技術變革和市場變化中保持靈活應對和創新思維。了解和適應AIGC技術的快速演進將成為各行各業的關鍵,而這也將為未來的技術發展和應用帶來更多的可能性和機遇。
審核編輯:湯梓紅
-
網絡
+關注
關注
14文章
7599瀏覽量
89242 -
AI
+關注
關注
87文章
31513瀏覽量
270323 -
機器學習
+關注
關注
66文章
8438瀏覽量
133079 -
ChatGPT
+關注
關注
29文章
1568瀏覽量
8055 -
AIGC
+關注
關注
1文章
367瀏覽量
1605
原文標題:AIGC蝴蝶效應下的網絡和硬件趨勢
文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論