新的一年已經成為我們一段時間以來數(shù)據(jù)中心芯片領域最重要的一年。每個主要芯片公司都計劃在未來 12 個月內更新其 CPU 和/或 GPU 產品線。
Nvidia 計劃在 2024 年推出大量新的加速器、GPU 架構和網(wǎng)絡套件。英特爾將與新的 Habana Gaudi AI 芯片一起推出可以說是多年來最引人注目的 Xeon。與此同時,AMD 憑借 MI300 系列的推出,計劃將其第五代 Epyc 處理器推向市場。
讓我們深入了解 2024 年我們關注的一些大型數(shù)據(jù)中心芯片的發(fā)布(排名不分先后)。
01.?Nvidia 搭載 HBM3e 的 H200 AI 芯片到貨
Nvidia 的 H200 加速器將是 2024 年首批投放市場的新芯片之一。GPU 本質上是久負盛名的 H100 的更新版。
您可能期望最新的芯片能夠比老款芯片提供更高的性能提升,但事實并非如此。仔細閱讀規(guī)格表,您會發(fā)現(xiàn)浮點性能與 H100 相同。相反,該部件的性能提升(Nvidia 聲稱 Llama 70B 等 LLM 的性能提升了一倍)取決于該芯片的 HBM3e 內存堆棧。
我們承諾 H200 將配備高達 141 GB 的 HBM3e 內存,可實現(xiàn)高達 4.8TB/s 的帶寬。隨著 LLM 的普及(例如 Meta 的 Llama 2、Falcon 40B、Stable Diffusion 等),內存容量和帶寬對推理性能產生巨大影響,即單個加速器或服務器可以容納多大的模型,以及您可以同時處理多少個請求。
正如我們最近在對 AMD 和 Nvidia 基準測試失敗的分析中所探討的那樣,對于此類 AI 工作負載,F(xiàn)LOPS 并不像內存容量和帶寬那么重要。
02.?Hopper的繼任者采用“Blackwell”架構
根據(jù) 2023 年的投資者演示,H200 將不會是我們在 2024 年看到的 Nvidia 唯一的 GPU。為了鞏固其領導地位,Nvidia 正在轉向每年發(fā)布新芯片和我們看到的第一個新部件的發(fā)布節(jié)奏。格林隊將成為 B100。
據(jù)我們了解,這里的“B”是微架構名稱 Blackwell 的縮寫,大概是對美國統(tǒng)計學家 David Blackwell 的致敬。除了 2024 年推出之外,我們對該部件的了解仍然不多。
就目前情況而言,AMD 新推出的 MI300X GPU 不僅比 H200 具有更高的 FLOPS,而且還具有更多、更快的啟動內存。我們無法想象英偉達對此感到高興,特別是考慮到這家美國巨頭最近的防御性有多強。因此,我們完全期望 B100 能夠提供更高的 FLOPS 和更多的 HBM3e 堆棧,從而將加速器的內存容量和帶寬推向新的高度。
除了 GPU 本身之外,Nvidia 的路線圖還包括更多 CPU-GPU 超級芯片,稱為 GB200 和 GB200NVL。這些處理器是否會繼續(xù)使用當前 Grace 和 Grace-Hopper 超級芯片中基于 Arm Neoverse V2 的 CPU 內核,或者是否會采用一些下一代內核,還有待觀察。
然后是B40。從歷史上看,此類卡針對的是可以在單個 GPU 中運行的較小企業(yè)工作負載。該部件將取代 L40 和 L40S,并將 Nvidia 的企業(yè) GPU 系列整合到單一總體架構下。
可以說,英偉達加速路線圖中最有趣的部分與網(wǎng)絡有關。Nvidia 正在尋求與 Blackwell 實現(xiàn) 800Gb/s 連接,盡管正如我們之前探討的那樣,這帶來了一些獨特的挑戰(zhàn),因為 PCIe 5.0 的速度還遠遠不夠,而 PCIe 6.0 仍然有一些距離。
當我們看到這些Blackwell仍然懸而未決時,但是,如果歷史可以回顧的話,我們可能不必等待那么久。Nvidia 在加速器實際可供購買之前幾個月(當然有時是幾年)預先發(fā)布加速器的歷史由來已久。
Nvidia 在 2022 年初預告了其 Grace-Hopper 超級芯片,但據(jù)我們了解,這些部件現(xiàn)在才進入客戶手中。因此,我們最早可以在 GTC 上獲得有關基于 Blackwell 的部件的更多詳細信息。
03.?英特爾推出自己的全新加速器迎接新年
與加速器主題保持一致,英特爾計劃于 2024 年某個時候發(fā)布其第三代 Gaudi AI 芯片。
這一部分意義重大,因為隨著Ponte Vecchio后繼者Rialto Bridge的取消,Habana Lab 的 Gaudi3 代表了英特爾提供的最好的人工智能訓練和推理平臺——至少在 Falcon Shores 于 2025 年到來之前是這樣。
雖然英偉達和 AMD 幾個月來一直習慣于調侃和炒作他們的產品發(fā)布,但英特爾卻對此守口如瓶。到目前為止,我們看到的大部分內容都來自這張演示幻燈片,至少從9 月份的創(chuàng)新活動開始,它就一直在展示這張幻燈片:
該幻燈片聲稱,5nm 芯片 Gaudi3 的 Brain Float 16 (BF16) 性能是 7nm 版本 2 的 4 倍,網(wǎng)絡帶寬是兩倍,HBM 帶寬是 1.5 倍。
通常這些數(shù)字可以為我們提供推斷相對績效數(shù)據(jù)的起點。不幸的是,要做到這一點,英特爾必須告訴我們 Gaudi2 的 BF16 性能實際上是什么。我們問過,他們不想談論這個問題,盡管他們聲稱 Gaudi3 改進了 4 倍。相反,英特爾希望關注實際性能而不是基準比較。
坦率地說,這是一個令人困惑的營銷決定,因為如果沒有參考框架,這種說法基本上毫無意義。此外,從表面上看,x86 巨頭這次使用了 8 個 HBM 堆棧,而不是 6 個。
除了 Gaudi3 之外,我們還獲悉,Gaudi2 的版本將再次針對中國市場進行調低(以符合美國對中國的出口限制),英特爾聲稱它將在之前發(fā)貨傳聞中的Nvidia H20芯片已登陸大陸。
04.?英特爾與 Sierra Forest?攜手加入云 CPU 隊伍
與此同時,在 CPU 方面,英特爾計劃在 2024 年推出一項雙重功能,將使用其推遲已久的 Intel 3 處理技術。需要明確的是,英特爾并不是突然轉向 3nm。多年來,該公司一直致力于這個節(jié)點(以前稱為 7nm)。它最終被重新命名為 Intel 4 和 Intel 3,以使其在營銷方面與競爭節(jié)點的晶體管密度更加一致。
我們將在 2024 年上半年推出首款基于 Intel-3 的 Xeon 處理器。該芯片代號為 Sierra Forest,可配備一對 144 核芯片,每個插槽總共有 288 個 CPU 核心。當然,這些核心與我們在過去的至強中看到的核心不同。它們是英特爾效率核心架構的演變,早在 2021 年,隨著Alder Lake的推出,該架構就開始出現(xiàn)在 PC 和筆記本處理器中。
不過,雖然這些芯片通常配有一組性能核心,但 Sierra Forest 都是電子核心,旨在與 Ampere、AMD 以及 AWS 和微軟等云提供商部署的大量定制 Arm CPU 競爭。
英特爾聲稱的優(yōu)勢在于,它可以在單個插槽或機箱中裝入比其他任何產品更多的內核,同時保持與大多數(shù) x86 二進制文件的兼容性。我們說“大多數(shù)”是因為 e-core 不具有與過去的 Xeon 相同的功能集。
兩個最大的區(qū)別是完全缺乏 AVX512 和高級矩陣擴展 (AMX) 支持。這里的論點是,我們看到廣泛部署在云中的許多工作負載(例如 Nginx)不一定受益于這些功能,因此,與其將大量的芯片空間專用于大型向量和矩陣計算,不如將該空間相反,可以用于將更多核心封裝到每個芯片上。
然而,并非所有芯片公司都同意這種做法。AMD 于 2023 年春季推出的Bergamo Epycs 采用了截然不同的方法。這些服務器處理器使用 AMD Zen 4 核心的緊湊版本,稱為 Zen 4c,以時鐘速度換取更小的占地面積。這使得 AMD 能夠將 128 個核心封裝到每個處理器封裝的 8 個計算芯片中,而無需犧牲功能。
兩種方法都有優(yōu)點。根據(jù)虛擬機管理程序的不同,缺乏某些 CPU 功能可能會導致將工作負載從一個機器遷移到另一個機器時出現(xiàn)問題。英特爾希望通過 AVX10 來克服這個問題,我們在今年夏天對其進行了深入研究。簡而言之,它旨在向后移植許多更具吸引力的功能,例如從 AVX512 到 AVX2 的 FP16 和 BF16 支持。結果是您不太可能遇到這種遷移問題,除非您確實需要 512 位寬向量寄存器。
05.?英特爾與 Granite Rapids 腳踏實地
進入鮮為人知的領域,英特爾的 Granite Rapids Xeon 將于 2024 年晚些時候推出。雖然 Sierra Forest 優(yōu)先考慮微型核心的負載,但 Granite Rapids 是圍繞 x86 巨頭的性能核心構建的更傳統(tǒng)的Xeon 服務器處理器。
我們仍然不知道它將有多少個核心,也不知道頂級部件的時鐘速度有多快,但我們被告知它將超過 Emerald Rapids。我們確實知道,該芯片將采用比 Sapphire 或 Emerald Rapids 更加模塊化的小芯片架構,每個封裝最多有五個芯片——三個計算芯片和兩個 I/O。
根據(jù) SKU 的不同,該芯片將配備更多或更少的計算芯片,使英特爾能夠利用 AMD 多年來享有的模塊化優(yōu)勢。此前,2023 年的 Xeon 要么在所謂的“極端核心數(shù) (XCC) 芯片上配備一個大型中等核心數(shù) (MCC) 芯片,要么在所謂的“極端核心數(shù) (XCC) 芯片上配備兩個大型 (Emerald) 或四個較小 (Sapphire) 計算芯片。
英特爾的下一代 Xeon 將 I/O 功能分解到一對三明治結構的芯片中。這些 I/O 芯片非常重要,因為它們有助于縮小與 AMD 的差距,AMD 不僅在過去五年中保持著核心數(shù)量優(yōu)勢,而且通常還提供更多、更快的 PCIe 通道和內存通道。
正如我們在 2023 年 Hot Chips 會議上了解到的那樣,Granite Rapids 將具有 12 個內存通道(與 AMD 的 Epyc 4 相同),并將支持 8,800MT/s MCR DIMM。MCR 相當酷,因為它允許芯片向芯片提供 845GB/s 的內存帶寬。這還達不到英特爾第 4 代 Xeon Max 部件通過板載 HBM所能達到的1TB/s速度,但 MCR DIMM 將接近并允許更高的容量。
該芯片系列還將支持多達 136 個 PCIe/CXL 通道,但僅支持 PCIe 5.0 速度。PCIe 6.0可能會在 2024 年推出,但對于英特爾的“下一代”Xeon 來說還來不及。
06.?AMD Zen 5 來了
當然,AMD 將推出 Turin,這是其第五代 Epyc 服務器處理器,由新的 Zen 5 內核提供支持。目前,我們對這一部分沒什么可說的,只能說它會在 2024 年的某個時候發(fā)布。
考慮到時間,我們可以做出一些假設。我們打賭該芯片將在其計算塊中使用臺積電的 4nm 或 3nm 工藝技術,但很難說 I/O 芯片是否會縮小工藝。
除此之外,我們只能指出最近通過 Xitter分享的泄密事件,這些泄密事件表明 AMD 可能會再次增加其產品線的核心數(shù)量。如果泄漏屬實,我們可能會看到具有多達 128 個 Zen 5 核心或 192 個 Zen 5c 核心的 Epyc 處理器。
核心復合芯片 (CCD) 本身與Genoa和Bergamo相比似乎沒有太大變化,每個小芯片分別有 8 個或 16 個核心。據(jù)報道,AMD 將在其通用用途上使用 16 個計算芯片,并在以云為中心的平臺上使用 12 個計算芯片,以實現(xiàn)聲稱的核心數(shù)量。話雖如此,我們還得拭目以待,看看泄露的消息是否準確。
近年來,AMD 的 Eypc 產品線變得更加復雜,目前涵蓋通用、高性能計算、云和邊緣應用。AMD 傳統(tǒng)上會在大約一年的時間內推出這些芯片。Epyc 4 于 2022 年 11 月推出,Bergamo 和 Genoa-X 于 2023 年 6 月推出,其專注于邊緣的 Siena 部件直到 9 月份才出現(xiàn)。
07.?驚喜等待著您
需要絕對明確的是,這絕不是 2024 年即將推出的數(shù)據(jù)中心處理器的詳盡列表。我們完全預計未來 12 個月將會出現(xiàn)更多驚喜,特別是隨著人工智能炒作列車的速度加快以及云提供商繼續(xù)擁抱定制硅。
微軟最近涉足定制人工智能和 CPU 領域,而谷歌已經擁有幾代張量處理單元,并且有傳言稱正在開發(fā)自己的 CPU。
我們還將關注 Arm 為推動其 Neoverse 核心架構和計算子系統(tǒng) (CSS) IP 堆棧所做的努力。后者是我們所見過的 Arm 在現(xiàn)代最接近設計整個處理器的方式。
還有大量半導體S初創(chuàng)公司,如 Ampere、Graphcore、Cerebras、SambaNova、Groq 等,希望在人工智能新世界秩序中開辟一席之地。到 2024 年,如果看到這些供應商中的任何一家推出新芯片、產品和系統(tǒng),我們都不會感到驚訝。
審核編輯:黃飛
?
評論
查看更多