DPU能否使算力“狂飆”? |華泰證券對(duì)談中科馭數(shù)創(chuàng)始人、CEO鄢貴海
近期,中科馭數(shù)創(chuàng)始人、CEO鄢貴海受邀參與華泰證券播客欄目《泰度VOICE》,與華泰創(chuàng)新投資總監(jiān)劉誠圍繞人工智能三要素之一“算力”,展開一場非常硬核、燒腦的科技向?qū)φ劇?/p>
在節(jié)目中,鄢老師深入淺出地探討了數(shù)據(jù)處理單元(DPU)的技術(shù)原理及應(yīng)用場景,對(duì)于算力提升面臨的難題和產(chǎn)業(yè)意義,他詳細(xì)解釋了DPU作為算力底座中的關(guān)鍵組成部分,如何通過連接各種算力節(jié)點(diǎn)和構(gòu)建算力資源池來提高效率。同時(shí),他也分享了科學(xué)家創(chuàng)業(yè)的心路歷程,強(qiáng)調(diào)了科技創(chuàng)新與商業(yè)應(yīng)用的緊密結(jié)合對(duì)推動(dòng)科技發(fā)展的重要性。
以下為對(duì)話實(shí)錄:
01
光有CPU和GPU還不夠,DPU構(gòu)成連點(diǎn)成網(wǎng)的“高鐵系統(tǒng)”
華泰創(chuàng)新劉誠:鄢老師您能不能深入淺出地解釋一下,如果說算力是 ChatGPT一個(gè)非常重要的基座,那么 DPU 在這里面扮演一個(gè)怎么樣的角色?
中科馭數(shù)鄢貴海:算力主要來自于計(jì)算能力,而計(jì)算能力主要源自于芯片、網(wǎng)絡(luò)以及各種生成數(shù)據(jù)和需要處理數(shù)據(jù)的應(yīng)用。因此,算力的底層基礎(chǔ)是各種數(shù)據(jù)中心,它們采用服務(wù)器集群部署,配備不同的網(wǎng)絡(luò)設(shè)備,將所有可進(jìn)行計(jì)算、存儲(chǔ)和傳輸數(shù)據(jù)的基礎(chǔ)設(shè)施連接在一起,形成一個(gè)有機(jī)的整體。這就是我們所說的算力底座。
在算力底座中,我們有許多不同類型的處理單元(PU),比如最常見的中央處理器(CPU)、圖形處理器(GPU),還有操作系統(tǒng)以及我們每天使用的各種應(yīng)用程序。然而,對(duì)于當(dāng)前的大型模型或復(fù)雜的人工智能算法來說,需要將海量的算力節(jié)點(diǎn)連接成一個(gè)巨大的算力池,僅僅依靠CPU和GPU是不夠的。那么誰來連接它們呢?數(shù)據(jù)處理單元(DPU)將在其中發(fā)揮非常重要的作用,它負(fù)責(zé)將所有的算力節(jié)點(diǎn)連接起來,形成一個(gè)算力資源池。
如果將一個(gè)處理單元(PU)比作一座城市,那么DPU就相當(dāng)于城市的高鐵系統(tǒng)。我們現(xiàn)在可以當(dāng)天往返于北京和南京,這在以前是很難想象的,但現(xiàn)在我們擁有了高效的交通體系。同樣道理,應(yīng)用到算力的基礎(chǔ)設(shè)施上,我們也需要將節(jié)點(diǎn)間的效率進(jìn)一步提升,將整個(gè)算力連點(diǎn)成片、連片成網(wǎng)。DPU在這里面就會(huì)發(fā)揮像今天的高鐵系統(tǒng)一樣的作用。
02
能效比是算力重要的評(píng)價(jià)維度
華泰創(chuàng)新劉誠:結(jié)合當(dāng)前信息科技領(lǐng)域的前沿,比如說云計(jì)算、東數(shù)西算、算力網(wǎng)絡(luò)等等,你能不能給大家解釋一下算力對(duì)于各個(gè)產(chǎn)業(yè)的重要性?
中科馭數(shù)鄢貴海:最直接的比喻,是把算力當(dāng)成電力一樣去理解。假設(shè)今天如果我們沒有手機(jī)、沒有電腦,你會(huì)覺得工作沒法開展。原因是你的工作是要建立在大量的數(shù)據(jù)基礎(chǔ)上。對(duì)于今時(shí)今日的算力,已經(jīng)不僅僅是說處理數(shù)據(jù)那么簡單。很多時(shí)候即便沒有對(duì)這些數(shù)據(jù)發(fā)出明確的指令,其背后也有一個(gè)巨大的系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行分類,挖掘數(shù)據(jù)的價(jià)值。我們每個(gè)人手機(jī)里面的APP會(huì)根據(jù)你現(xiàn)在處的場景,主動(dòng)地給你推送定向消息。這些在后臺(tái)處理數(shù)據(jù)的業(yè)務(wù)所消耗的算力,也許大于你真正指定的任務(wù)所消耗的算力。背后加工的過程就是算力發(fā)揮作用的過程。
對(duì)算力的評(píng)價(jià)標(biāo)準(zhǔn)其實(shí)有很多,其中重要的一點(diǎn)是能效比。對(duì)于需要數(shù)據(jù)中心去支撐業(yè)務(wù)運(yùn)行的場景,用越經(jīng)濟(jì)、能效比越高的算力,肯定比用能耗更高的算力更有優(yōu)勢。
從算力的分類角度來看,我們可以將天氣預(yù)測、地震模擬、風(fēng)洞碰撞模擬等等場景稱為超算應(yīng)用,它們非常依賴海量計(jì)算,對(duì)效率要求嚴(yán)苛,但對(duì)外部網(wǎng)絡(luò)的要求不太高。另外,像當(dāng)前熱門的Chat GPT模型則被稱之為智算應(yīng)用,顯然需要一個(gè)大規(guī)模的數(shù)據(jù)中心來進(jìn)行模型訓(xùn)練、模型推理。此外,在大數(shù)據(jù)領(lǐng)域中也存在一些特殊的算力需求,比如支撐100萬人搖紅包的系統(tǒng),這種算力又跟前面兩種算力不一樣,每個(gè)用戶所需的計(jì)算量并不大,但需要處理海量用戶同時(shí)接入服務(wù),它對(duì)于并發(fā)度的要求就非常高。
03
市場需求和落地場景是我們啟動(dòng)產(chǎn)業(yè)化的背景
華泰創(chuàng)新劉誠:我也想回到您創(chuàng)業(yè)的初衷來談?wù)勑袠I(yè)。在成立中科馭數(shù)之前,您的身份是一名科學(xué)家,當(dāng)時(shí)是發(fā)現(xiàn)行業(yè)內(nèi)存在的一些普遍問題,想通過 DPU 這樣的一個(gè)切入點(diǎn)來解決?能不能從您創(chuàng)業(yè)的初衷來聊一聊現(xiàn)在DPU的進(jìn)展。
中科馭數(shù)鄢貴海:當(dāng)時(shí)做DPU時(shí),首先關(guān)注到了需求。在研究計(jì)算系統(tǒng)的過程中,我們注意到越來越多的業(yè)務(wù)在傳統(tǒng)數(shù)據(jù)中心等基礎(chǔ)設(shè)施上運(yùn)行時(shí)成本不斷上升。數(shù)據(jù)中心的 CPU利用率,在搭載了各種云的基礎(chǔ)設(shè)施后,即使在空閑狀態(tài)下,仍然有20%-30%處于繁忙狀態(tài),這就證明整個(gè)系統(tǒng)至少有20%-30%已經(jīng)變成了為支撐這些基礎(chǔ)設(shè)施而消耗的算力,這就是所謂的數(shù)據(jù)中心的“稅”。
更為嚴(yán)重的是,這種情況已不僅僅是消耗資源的問題,更是直接降低了性能。例如,我們發(fā)現(xiàn)在云計(jì)算中,不同機(jī)器之間的通信時(shí)延遠(yuǎn)遠(yuǎn)高于物理機(jī)之間的通信延遲。這個(gè)延遲增加是由于大量的網(wǎng)絡(luò)虛擬化引起的。而DPU的出現(xiàn)正是為了直接解決這種性能問題。
我們?cè)谛枨髠?cè)看到了特別剛性的需求。我們都知道,證券交易系統(tǒng)、風(fēng)控系統(tǒng),對(duì)于延時(shí)的要求都是很高的,因?yàn)檠舆t控制對(duì)整個(gè)交易市場的流動(dòng)性和運(yùn)行效率起著關(guān)鍵作用。時(shí)延從毫秒級(jí)降低到微秒級(jí),相當(dāng)于有3個(gè)數(shù)量級(jí)的差異。我們無法僅依靠在上層軟件上進(jìn)行簡化,必須在硬件鏈路和網(wǎng)絡(luò)協(xié)議棧上得到技術(shù)支撐。對(duì)于這些要求,傳統(tǒng)的計(jì)算體系很難直接支持。因此,我們認(rèn)為通過使用貼近網(wǎng)絡(luò)的數(shù)據(jù)處理單元(DPU)這樣的組件,可以解決這個(gè)問題。
技術(shù)的成熟度是確保我們的產(chǎn)品從創(chuàng)新階段過渡到成熟商品的必要條件。大約2018年左右開始著手開發(fā)DPU時(shí),基本具備了必要的條件。唯一缺少的是市場教育,因?yàn)镈PU在過去并不存在,現(xiàn)在我們需要讓用戶群體了解并認(rèn)識(shí)DPU的重要性,以免對(duì)這個(gè)新穎且創(chuàng)新的產(chǎn)品的成熟度產(chǎn)生過多懷疑。為了讓市場和客戶對(duì)DPU產(chǎn)生信心,我們需要提供一些實(shí)實(shí)在在的案例。只有這樣,我們的DPU才能順利從研發(fā)階段進(jìn)入市場。
04
讓CPU干DPU的活,
相當(dāng)于讓公司研發(fā)人員搞行政
華泰創(chuàng)新劉誠:剛才你提到了數(shù)據(jù)中心”稅“這樣一個(gè)話題,是否有可能對(duì)其進(jìn)行量化?
中科馭數(shù)鄢貴海:大約2016年左右,谷歌的研究團(tuán)隊(duì)對(duì)谷歌云上的服務(wù)器利用率進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)整個(gè)數(shù)據(jù)中心稅的值大約在25%到30%左右。這個(gè)數(shù)據(jù)讓人們相信,僅僅這個(gè)業(yè)務(wù)就可能導(dǎo)致性能開銷達(dá)到百分之二三十。
我們自己也做過類似的實(shí)驗(yàn)。由于需要處理網(wǎng)絡(luò)數(shù)據(jù),需要先將數(shù)據(jù)從網(wǎng)絡(luò)中抓取下來,放到本地供本地應(yīng)用使用。這個(gè)過程需要由CPU運(yùn)行一個(gè)解包程序,也就是網(wǎng)絡(luò)協(xié)議。運(yùn)行協(xié)議時(shí)會(huì)消耗算力,而這個(gè)算力的需求取決于數(shù)據(jù)包的速度。如果數(shù)據(jù)包的速度很高,CPU可能需要更多的處理器核來處理。而如果數(shù)據(jù)包比較少,可能就不需要那么多算力。
如果將25G的數(shù)據(jù)鏈路打滿,大約需要四五個(gè)至強(qiáng)處理器來處理。舉個(gè)例子,對(duì)于一個(gè)擁有8個(gè)核心的高性能桌面機(jī)來說,如果要接入一個(gè)全帶寬的網(wǎng)絡(luò)應(yīng)用,大約有一半的核心可能會(huì)用于網(wǎng)絡(luò)處理。這實(shí)際上是一個(gè)巨大的開銷。
華泰創(chuàng)新劉誠:對(duì)于CPU來說,云和虛擬化是一種負(fù)擔(dān),他們需要將這部分負(fù)擔(dān)卸載到DPU上來解決。
中科馭數(shù)鄢貴海:可以這么理解。我們也有一個(gè)觀點(diǎn),云和虛擬化并不是導(dǎo)致數(shù)據(jù)中心稅的“罪魁禍?zhǔn)住保覀冋J(rèn)為這是必須付出的成本。就像你要協(xié)同100臺(tái)機(jī)器工作,它們不會(huì)自動(dòng)協(xié)同,可以理解為當(dāng)一個(gè)組織要高效工作時(shí),必須承擔(dān)一定的開銷,即管理成本。這種管理成本是必要的,是不可避免的。只是你要讓誰來承擔(dān)這些任務(wù)。如果你讓CPU來處理的話,看起來就像是一種開銷。但是如果你將這些功能從CPU中剝離出來,讓更適合完成這些任務(wù)的部件來處理,那么開銷就會(huì)大大降低。
就像一個(gè)公司,它總是需要人事和行政部門,如果讓公司的研發(fā)人員天天負(fù)責(zé)招人,效率會(huì)很低。但如果找一個(gè)專門的人力資源部門來做這個(gè)工作,效率就會(huì)更高。
05
通過“軟硬結(jié)合”,
做到逼近極限的“低時(shí)延”
華泰創(chuàng)新劉誠:據(jù)我了解,中科馭數(shù)除了硬件產(chǎn)品之外,也有軟件產(chǎn)品,例如HADOS軟件開發(fā)平臺(tái)和NDPP超低時(shí)延計(jì)算開發(fā)平臺(tái)。一個(gè)芯片公司為何要在軟件上投入如此多的精力?
中科馭數(shù)鄢貴海:對(duì)芯片本身也分很多種,不同類型的芯片有不同的特性,尤其是像DPU這樣的系統(tǒng)級(jí)芯片,對(duì)軟件的依賴程度非常高。與終端設(shè)備如Wi-Fi和藍(lán)牙芯片等有所不同,DPU和GPU、CPU等芯片更加復(fù)雜。僅僅通過端口測試和信號(hào)測試來評(píng)估一個(gè)芯片的性能是不夠的,因?yàn)樽钪匾氖侨绾巫屍渌四軌蛴行У厥褂盟榱舜_保所謂的“最后一公里”連接的暢通,我們認(rèn)為必須對(duì)DPU的底層軟件系統(tǒng)進(jìn)行精細(xì)的開發(fā)。
同時(shí)注重軟件和硬件的團(tuán)隊(duì)一直是中科馭數(shù)的理念。我們不僅追求芯片在主屏性能、延遲、面積和功耗等方面的優(yōu)化,還希望它能與現(xiàn)有的庫和中間件進(jìn)行無縫對(duì)接。它之所以能做到那么無感的切換,就是因?yàn)槲覀冊(cè)诘讓幼隽朔浅M晟频能浖拥膶?duì)接。因此,我們需要投入大量的軟件研發(fā)資源來實(shí)現(xiàn)這一目標(biāo)。
華泰創(chuàng)新劉誠:那您能不能給我們?cè)傺由斓厝フf一下,哪些廠商你期待著把中科馭數(shù)的產(chǎn)品嵌入到它的軟件或硬件上去,比如數(shù)據(jù)庫、操作系統(tǒng)、云等等?
中科馭數(shù)鄢貴海:這實(shí)際上涉及到產(chǎn)品生態(tài)的問題。剛剛您提到的這幾個(gè)大類,可以概括為終端軟件。終端軟件代表了我們整個(gè)應(yīng)用生態(tài)系統(tǒng)中的一些主要玩家,例如操作系統(tǒng)。當(dāng)我們開發(fā)DPU時(shí),它必須與當(dāng)前的操作系統(tǒng)進(jìn)行適配和兼容,也包括操作系統(tǒng)下的算力平臺(tái)所使用的各類CPU、GPU,DPU都要逐一兼容,以確保操作系統(tǒng)上的用戶可以無感地使用它們。對(duì)于DPU來說,這是最好的狀態(tài)。
另外,還有一些基礎(chǔ)應(yīng)用型的系統(tǒng),比如數(shù)據(jù)庫。傳統(tǒng)上,如果你想提高數(shù)據(jù)庫的性能,你需要具備強(qiáng)大的硬件調(diào)優(yōu)能力。事實(shí)上,如果我們回顧一下數(shù)據(jù)庫和操作系統(tǒng)的發(fā)展,可以看到它們是相對(duì)獨(dú)立發(fā)展的,這意味著數(shù)據(jù)庫用戶或數(shù)據(jù)庫開發(fā)社區(qū)本身也具備了較強(qiáng)的硬件調(diào)優(yōu)能力。在這方面,我們希望DPU的許多高性能網(wǎng)絡(luò)等功能可以暴露給這些基礎(chǔ)系統(tǒng)軟件的調(diào)優(yōu)界面。例如,在分布式數(shù)據(jù)庫中,我們可以將某個(gè)表放在遠(yuǎn)程節(jié)點(diǎn)上,使用DPU支持的DMA機(jī)制進(jìn)行調(diào)用,以提高性能。
因此,這又是一個(gè)需要將功能暴露給底層技術(shù)軟件廠商的案例。基礎(chǔ)軟件需要更底層的接口,并為它們提供性能調(diào)優(yōu)的空間。因此,我們希望將所有這些整合到同一個(gè)系統(tǒng)中。
華泰創(chuàng)新劉誠:中科馭數(shù)從軟件或硬件層面,針對(duì)不同的場景或者不同的使用對(duì)象,都有哪些軟硬件的產(chǎn)品?
中科馭數(shù)鄢貴海:NDPP超低延遲計(jì)算開發(fā)平臺(tái)就是我們非常典型的案例。我們“N”取的是Nano(納秒),也是希望產(chǎn)品最終的延遲能夠接近納秒。作為一個(gè)超低延遲計(jì)算開發(fā)平臺(tái),主要面向一些對(duì)延遲非常敏感的場景,意味著網(wǎng)絡(luò)側(cè)的應(yīng)用可以基于我們的超低延遲開發(fā)平臺(tái)構(gòu)建核心應(yīng)用程序。在這個(gè)平臺(tái)上,我們?yōu)槟峁┝嗽S多低延遲的物理鏈路,相當(dāng)于我們?yōu)榭蛻魳?gòu)建了一個(gè)電路交換系統(tǒng)。在通信時(shí),您不再需要通過發(fā)送電報(bào),而可以直接撥打電話,這比之前要快得多。
06
科技創(chuàng)新引領(lǐng)經(jīng)濟(jì)發(fā)展新趨勢
中科馭數(shù)鄢貴海:作為硬科技方向的投資人,您背后的主要驅(qū)動(dòng)力是什么?主要的投資邏輯是什么?
華泰創(chuàng)新劉誠:硬科技是一條沒被大家充分關(guān)注,但非常重要的賽道。未來的投資主線將越來越多地由硬科技驅(qū)動(dòng)。中國的創(chuàng)新力量,已經(jīng)部分進(jìn)入了深水區(qū),而投資主題的轉(zhuǎn)移也與中國經(jīng)濟(jì)發(fā)展的大背景和需求密切相關(guān)。20年前,中國主要從事制造業(yè)和來料加工等傳統(tǒng)經(jīng)濟(jì)模式,硬科技投資主題并不突出。因?yàn)樵谀欠N模式下,利潤回報(bào)更快,投資更容易,產(chǎn)出也更高。然而,隨著經(jīng)濟(jì)發(fā)展邁向更高的臺(tái)階,中國正在逐漸轉(zhuǎn)變?yōu)閯?chuàng)新驅(qū)動(dòng)型、知識(shí)驅(qū)動(dòng)型和科技驅(qū)動(dòng)型經(jīng)濟(jì),這是一個(gè)經(jīng)濟(jì)體發(fā)展的必然結(jié)果。
我認(rèn)為單純追求冷或熱都是不正確的,這同樣適用于技術(shù)方向。如果沒有經(jīng)歷冷熱的交替和反復(fù)的捶打,很難在技術(shù)發(fā)展中找到共識(shí),也難以鍛煉出真正能夠解決市場問題和滿足需求的技術(shù)。這種冷熱交替可能會(huì)發(fā)生無數(shù)次,最終只有那些經(jīng)過冷熱交替、真正能夠?yàn)榭蛻艚鉀Q問題、具有價(jià)值的公司才能夠嶄露頭角。這些公司將在冷熱的交替過程中不斷磨礪,就像煉鋼過程中鐵中的雜質(zhì)被去除一樣,才能百煉成鋼。多次的冷熱交替對(duì)于產(chǎn)業(yè)的發(fā)展具有促進(jìn)作用。
-
cpu
+關(guān)注
關(guān)注
68文章
10902瀏覽量
212997 -
gpu
+關(guān)注
關(guān)注
28文章
4774瀏覽量
129350 -
DPU
+關(guān)注
關(guān)注
0文章
368瀏覽量
24257 -
算力
+關(guān)注
關(guān)注
1文章
1012瀏覽量
14954 -
中科馭數(shù)
+關(guān)注
關(guān)注
0文章
123瀏覽量
4027
原文標(biāo)題:搭建數(shù)據(jù)流通的高鐵網(wǎng)絡(luò),DPU能否使算力“狂飆”? | 華泰證券對(duì)談中科馭數(shù)創(chuàng)始人、CEO鄢貴海
文章出處:【微信號(hào):yusurtech,微信公眾號(hào):馭數(shù)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論