衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智算中心網(wǎng)絡(luò)交換機(jī)需要什么樣的緩存架構(gòu)

SDNLAB ? 來源:西貝吹風(fēng) ? 2024-11-14 16:53 ? 次閱讀

?在交換機(jī)上,緩存就是數(shù)據(jù)交換的緩沖區(qū),被交換機(jī)用來協(xié)調(diào)不同網(wǎng)絡(luò)設(shè)備之間的速度匹配問題,突發(fā)數(shù)據(jù)可以存儲在緩沖區(qū)內(nèi),直到被慢速設(shè)備處理為止。數(shù)據(jù)中心交換機(jī)應(yīng)用在HPC/AI大模型訓(xùn)練、分布式存儲等場景時,并非緩存越大越好,過大的緩存會導(dǎo)致更長的隊列、更高的時延和抖動、更高的成本,所以不能簡單地去擴(kuò)大緩存,交換機(jī)避免丟包所需的緩存與此帶寬延遲積BDP直接相關(guān),借助于帶寬時延積BDP可以確定合適的內(nèi)存大小。

緩存架構(gòu)分類

按照緩沖區(qū)的大小,以太網(wǎng)交換機(jī)通常分為深緩沖區(qū)交換機(jī)和淺緩沖區(qū)交換機(jī),深緩沖區(qū)交換機(jī)緩沖區(qū)容量高達(dá)數(shù)GB,與淺緩沖區(qū)交換機(jī)的幾十MB形成鮮明對比。這種設(shè)計上的差異源于應(yīng)用場景的差異,深緩沖區(qū)交換機(jī)(或路由器)主要面向路由和廣域網(wǎng)場景,RTT時間長,希望能夠容納更多的數(shù)據(jù)流量,對微突發(fā)流量不敏感,但也意味著更高的尾延遲和抖動,這一點(diǎn)與HPC/AI大模型訓(xùn)練、分布式存儲等場景的低時延要求顯然是相違背的,淺緩沖區(qū)交換機(jī)在這種場景下更適合,以目前最高端的51.2Tbps(64個800G)的交換機(jī)為例,如果RTT時間是3~5微秒,緩存僅需33MB左右,這是交換機(jī)中所需的總緩存,那么這個總的緩存能否被每一個端口充分利用嗎?

這就取決于交換機(jī)(交換芯片)所采用緩存架構(gòu)。交換芯片的緩存架構(gòu)通常分為:完全共享緩存架構(gòu)和分片報文緩存架構(gòu)(也稱分割緩沖區(qū)結(jié)構(gòu))。

完全共享緩存架構(gòu):設(shè)備中的所有緩存都可用于動態(tài)分配到任何端口,意味著在所有輸入-輸出端口之間共享緩存而沒有任何限制,最大限度地提高了可用內(nèi)存的效率。

分片報文緩存架構(gòu):由多片較小的緩存共同組成了芯片內(nèi)部的緩存,所有的物理接口也被劃分成了不同的組,同一組內(nèi)的物理接口共享對應(yīng)的緩存單元。

不同緩存架構(gòu)影響

如下圖所示,同樣是16MB的緩存情況下,完全共享緩沖架構(gòu)中的每個端口極限情況下(如多打一的Incast場景,)可以最大利用到16MB;如果是兩個分片的分組端口緩存架構(gòu)下,每個端口極限情況下僅可以最大利用到8MB;而如果是四個分片的分組端口緩存架構(gòu)下,每個端口極限情況下僅可以最大利用到4MB。

2719230e-906c-11ef-a511-92fbcf53809c.jpg

思科之前的文檔中也做過分析,分片報文緩存架構(gòu)下,不同的流量模型對微突發(fā)流量吸收的影響或限制也不同,如下圖所示:

273abf0a-906c-11ef-a511-92fbcf53809c.jpg

以圖中右側(cè)圖示情況為例,4個分片的架構(gòu)下,如果四個輸出端口位于4個不同的分片上,最理想的情況可以達(dá)到100%的緩存利用,但是任意一個輸出端口最多僅可以消耗總內(nèi)存的25%。在復(fù)雜的流量模式下,這種限制可能會更加痛苦,如圖中右側(cè)圖示為例,此情況下,一個輸出端口的緩存被限制為總緩沖區(qū)的1/16(6.25%),這種限制使得Incast下的緩沖行為不可預(yù)測。 在完全共享緩存架構(gòu)中,設(shè)備中的所有數(shù)據(jù)包緩沖區(qū)都可用于動態(tài)分配到任意一個端口,這意味著在所有輸入輸出端口之間共享緩存而沒有任何限制,最大限度地提高了可用內(nèi)存的效率,并且使微突發(fā)流量吸收能力可預(yù)測,與流量模型沒有任何關(guān)系。

完全共享緩存的優(yōu)勢也體現(xiàn)在RoCEv2網(wǎng)絡(luò)中,RoCEv2是TCP/IP協(xié)議中UDP層實現(xiàn),因為使用不需要確認(rèn)的UDP協(xié)議,此時RTT不是緩沖區(qū)需求的直接驅(qū)動因素,但是RDMA的無損特性往往要依靠PFC來實現(xiàn),PFC逐級反壓控制會導(dǎo)致?lián)砣樱耆蚕砭彺嫱ㄟ^在需要的時間和節(jié)點(diǎn)支持更多的緩存,有助于最大限度地減少觸發(fā)PFC流量控制的需要。

主流廠商實現(xiàn)當(dāng)前市場上,大多數(shù)數(shù)據(jù)中心交換機(jī)都是使用商用交換芯片ASIC構(gòu)建的,這些ASIC針對傳統(tǒng)的數(shù)據(jù)流量模式和數(shù)據(jù)包大小進(jìn)行了成本優(yōu)化,為了在實現(xiàn)帶寬目標(biāo)的同時保持低成本,芯片供應(yīng)商更多使用了分片緩存架構(gòu),犧牲了公平性,同時面臨不可預(yù)測性和微突發(fā)吸收的問題。

但是,當(dāng)前幾個主要廠商51.2Tbps最高容量的交換芯片,由于應(yīng)對場景以HPC/AI大模型訓(xùn)練等為主,基本都采用完全共享緩存架構(gòu),相關(guān)的交換芯片或交換機(jī)如博通Tomahawk5、英偉達(dá)Spectrum-4、思科Silicon One G200都是宣傳采用完全共享緩存架構(gòu)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 網(wǎng)絡(luò)交換機(jī)

    關(guān)注

    1

    文章

    67

    瀏覽量

    16088
  • 緩存
    +關(guān)注

    關(guān)注

    1

    文章

    241

    瀏覽量

    26757
  • 智算中心
    +關(guān)注

    關(guān)注

    0

    文章

    72

    瀏覽量

    1815

原文標(biāo)題:智算中心網(wǎng)絡(luò)交換機(jī)需要什么樣的緩存架構(gòu)?

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    廣西南寧企業(yè)級綜合網(wǎng)關(guān)、網(wǎng)絡(luò)核心交換機(jī)等售后維修服務(wù)中心點(diǎn)深妙科技

    隨著信息技術(shù)的迅猛發(fā)展,云計算和網(wǎng)絡(luò)架構(gòu)的復(fù)雜性日益增加,核心交換機(jī)作為網(wǎng)絡(luò)中心節(jié)點(diǎn),擔(dān)負(fù)著至關(guān)重要的角色。本文旨在探討云管框式核心
    的頭像 發(fā)表于 12-18 15:41 ?185次閱讀
    廣西南寧企業(yè)級綜合網(wǎng)關(guān)、<b class='flag-5'>網(wǎng)絡(luò)</b>核心<b class='flag-5'>交換機(jī)</b>等售后維修服務(wù)<b class='flag-5'>中心</b>點(diǎn)深妙科技

    24口全千兆交換機(jī)方案設(shè)計參考原理圖資料(資料可直接使用)

    交換機(jī)設(shè)計領(lǐng)域,多數(shù)需要千兆交換機(jī)。本設(shè)計參考原理圖旨在幫助工程師和技術(shù)人員在開發(fā)24口全千兆交換機(jī)時更好地理解硬件架構(gòu)和電路設(shè)計。它基于R
    發(fā)表于 12-10 10:22

    反射內(nèi)存交換機(jī)與普通交換機(jī)的區(qū)別

    ,實現(xiàn)低延遲、確定性的數(shù)據(jù)傳輸。普通交換機(jī)則依據(jù)網(wǎng)絡(luò)協(xié)議(如以太網(wǎng)協(xié)議)進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā),通常需要軟件參與處理,數(shù)據(jù)傳輸?shù)难舆t和確定性相對較難保證。傳輸速度和延遲:反射
    的頭像 發(fā)表于 09-05 09:57 ?687次閱讀
    反射內(nèi)存<b class='flag-5'>交換機(jī)</b>與普通<b class='flag-5'>交換機(jī)</b>的區(qū)別

    網(wǎng)管型交換機(jī)和非網(wǎng)管型交換機(jī)的區(qū)別

    網(wǎng)管型交換機(jī)和非網(wǎng)管型交換機(jī)是兩種不同類型的交換機(jī),它們在功能、性能、應(yīng)用場景等方面存在明顯的差異。 定義 網(wǎng)管型交換機(jī)(Managed Switch)是一種具有
    的頭像 發(fā)表于 08-05 15:41 ?3026次閱讀

    園區(qū)交換機(jī) VS 數(shù)據(jù)中心交換機(jī)

    園區(qū)交換機(jī)和數(shù)據(jù)中心交換機(jī)交換機(jī)領(lǐng)域的兩大類別,很多人都很熟悉。但是,這兩者之間的區(qū)別并不是很清楚。在本文中,我們將對園區(qū)交換機(jī)和數(shù)據(jù)
    的頭像 發(fā)表于 06-24 15:33 ?694次閱讀
    園區(qū)<b class='flag-5'>交換機(jī)</b> VS 數(shù)據(jù)<b class='flag-5'>中心</b><b class='flag-5'>交換機(jī)</b>

    數(shù)據(jù)中心交換機(jī)購買指南

    由于數(shù)據(jù)中心網(wǎng)絡(luò)基礎(chǔ)設(shè)施變得更加分散,數(shù)據(jù)中心交換機(jī)正在成為一種新型交換機(jī)。與傳統(tǒng)的三層架構(gòu)
    的頭像 發(fā)表于 06-11 16:37 ?630次閱讀

    廣域網(wǎng)交換機(jī)與局域網(wǎng)交換機(jī)的區(qū)別

      在構(gòu)建和管理網(wǎng)絡(luò)架構(gòu)時,交換機(jī)作為核心設(shè)備,其選擇和配置直接影響到網(wǎng)絡(luò)的性能、可靠性和安全性。廣域網(wǎng)交換機(jī)和局域網(wǎng)
    的頭像 發(fā)表于 06-06 11:07 ?1234次閱讀

    交換機(jī)的基本分類

      交換機(jī)作為網(wǎng)絡(luò)通訊中的核心設(shè)備之一,其在網(wǎng)絡(luò)架構(gòu)中起著至關(guān)重要的作用。隨著信息技術(shù)的飛速發(fā)展,交換機(jī)也在不斷演進(jìn)和革新,以滿足日益復(fù)雜的
    的頭像 發(fā)表于 06-06 11:06 ?2339次閱讀

    淺談交換機(jī)的發(fā)展歷史

      交換機(jī)作為網(wǎng)絡(luò)通訊中的關(guān)鍵設(shè)備,其發(fā)展歷程見證了信息技術(shù)的飛速進(jìn)步和網(wǎng)絡(luò)架構(gòu)的持續(xù)優(yōu)化。從早期的電路交換到現(xiàn)代的以太網(wǎng)
    的頭像 發(fā)表于 06-06 11:05 ?2330次閱讀

    光纖交換機(jī)網(wǎng)絡(luò)交換機(jī)的區(qū)別在哪

    光纖交換機(jī)網(wǎng)絡(luò)交換機(jī)是兩種不同類型的網(wǎng)絡(luò)設(shè)備,它們在數(shù)據(jù)傳輸介質(zhì)、傳輸速率、應(yīng)用場景以及設(shè)計上有所區(qū)別。
    的頭像 發(fā)表于 05-28 15:16 ?2487次閱讀

    工業(yè)交換機(jī)如何進(jìn)行網(wǎng)絡(luò)診斷

    工業(yè)交換機(jī)網(wǎng)絡(luò)中扮演著重要角色,其穩(wěn)定運(yùn)行對于整個工業(yè)網(wǎng)絡(luò)的正常運(yùn)轉(zhuǎn)至關(guān)重要。當(dāng)工業(yè)交換機(jī)出現(xiàn)網(wǎng)絡(luò)故障時,
    的頭像 發(fā)表于 04-09 17:42 ?491次閱讀
    工業(yè)<b class='flag-5'>交換機(jī)</b>如何進(jìn)行<b class='flag-5'>網(wǎng)絡(luò)</b>診斷

    數(shù)據(jù)中心交換機(jī)高速率發(fā)展,需要哪些電感與電容元件?

    了大功率數(shù)據(jù)機(jī)架和更高效的數(shù)據(jù)中心建設(shè),云計算數(shù)據(jù)中心網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)也在持續(xù)升級演進(jìn),市場對數(shù)據(jù)中心光互聯(lián)技術(shù)提出了更高速率、更低功耗、更低成本等需求。 ? 數(shù)據(jù)
    的頭像 發(fā)表于 04-05 00:03 ?3450次閱讀

    交換機(jī)芯片架構(gòu)的演變

    交換機(jī)芯片架構(gòu)的演變是隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和數(shù)據(jù)處理需求的增長而逐步推進(jìn)的。
    的頭像 發(fā)表于 03-26 15:03 ?844次閱讀

    工業(yè)網(wǎng)絡(luò)交換機(jī)的分類及其應(yīng)用領(lǐng)域

    工業(yè)網(wǎng)絡(luò)交換機(jī)作為關(guān)鍵的通信設(shè)備,在工業(yè)領(lǐng)域扮演著至關(guān)重要的角色。根據(jù)不同的需求和應(yīng)用場景,工業(yè)網(wǎng)絡(luò)交換機(jī)可以分為多個分類。本文將圍繞工業(yè)網(wǎng)絡(luò)
    的頭像 發(fā)表于 03-26 10:02 ?919次閱讀

    交換機(jī)分布緩存_述說數(shù)據(jù)中心交換機(jī)的重要性能指標(biāo)——緩存

    交換機(jī)是數(shù)據(jù)中心不可缺少的網(wǎng)絡(luò)設(shè)備,在數(shù)據(jù)中心里發(fā)揮著重要作用。在平時使用和采購時,大多數(shù)都關(guān)注交換機(jī)的背板帶寬、端口密度、單端口速度、協(xié)議
    的頭像 發(fā)表于 03-15 17:39 ?941次閱讀
    威尼斯人娱乐城正规吗| 来安县| 百家乐官网如何捕捉长龙| 电脑百家乐的玩法技巧和规则 | 大发888娱乐城哪个好| 玩百家乐官网新澳门娱乐城| 现场百家乐电话投注| 足球比分| 百家乐真钱娱乐| 澳门永利| 百家乐游戏排行榜| 太子娱乐城网址| 百家乐游戏机高手| 龙虎斗 | 百家乐网站出售| 千亿娱乐网| 百家乐街机游戏下载| 百家乐靠什么赢| 易玩棋牌怎么样| 属鼠跟属虎做生意| 伟博娱乐| 百家乐出千手法| 百家乐官网扑克桌布| 威尼斯人娱乐城新闻| 百家乐官网群b28博你| 大发888有手机版本吗| 百家乐官网技巧微笑心法| 大发888游戏场下载| 免费百家乐官网倍投| 必博网| 邯郸百家乐园怎么样| 百家乐官网有不有作弊| 大赢家百家乐娱乐| 百家乐官网娱乐真钱游戏| bet365存款| 澳门百家乐真人版| 澳门百家乐官网看路博客| 大发888大发下载| 做生意挂什么画招财| 百家乐官网无敌直缆| 百家乐筹码多少钱|