低時延,低時延,低時延
加速整體應(yīng)用,而非單項加速
匹配創(chuàng)新的速度,手慢無
01 最低時延的 AI 推斷
在數(shù)據(jù)中心 AI 平臺上,對于低時延 AI 推斷,賽靈思能以最低時延的條件下提供最高吞吐量,在 GoogleNet V1 上進行的標(biāo)準(zhǔn)基準(zhǔn)測試當(dāng)中,賽靈思 Alveo U250 可為實時推斷提供比現(xiàn)有最快的 GPU 多出 4 倍的吞吐量。
而在邊緣 AI 平臺,賽靈思方案利用 CNN 剪枝技術(shù)獲得了 AI 推斷性能的領(lǐng)導(dǎo)地位,比如,可實現(xiàn) 5-50 倍的網(wǎng)絡(luò)性能優(yōu)化;大幅增加 FPS 的前提下降低功耗。對于開發(fā)者來說,賽靈思支持 Tensorflow、Caffe 和 MXNet 等網(wǎng)絡(luò),并用賽靈思提供的工具鏈將網(wǎng)絡(luò)部署到賽靈思的加速器上。
如下圖所示,傳統(tǒng) CPU/GPU 只能在“高吞吐量”和“低時延”兩者選擇其一,如需低時延則無法滿足大批量規(guī)模的吞吐量;而一旦需要使用大批量規(guī)模實現(xiàn)吞吐量,在處理之前,器件必須等待所有輸入就緒之后再處理,從而導(dǎo)致高時延。而使用 FPGA,則可以采用小批量規(guī)模實現(xiàn)吞吐量,并在每個輸入就緒之時開始處理,從而降低時延。
02 整體應(yīng)用加速
通過將自定義加速器緊密耦合在動態(tài)架構(gòu)芯片器件中,優(yōu)化了 AI 推斷,并對其它對性能有關(guān)鍵影響的功能進行硬件加速。
提供端對端的應(yīng)用性能,該性能比 GPU 等固定架構(gòu) AI 加速器高很多;因為使用 GPU,在沒有自定義硬件加速性能或效率的情況下,應(yīng)用的其它性能關(guān)鍵功能須仍在軟件中運行。
03 匹配 AI 創(chuàng)新的速度
人工智能模型正在迅速發(fā)展,新算法層出不窮,靈活應(yīng)變的芯片支持基于特定區(qū)領(lǐng)域架構(gòu)(DSA)的設(shè)計,從而無需更換芯片,即可開始優(yōu)化最新的人工智能模型。從而最大限度地匹配創(chuàng)新的速度,為客戶贏得寶貴的 Time To Market。從下圖可以看出,專用芯片開發(fā)周期長,在對 DSA 的支持上非常不友好,無法滿足現(xiàn)階段 AI 創(chuàng)新的更迭速度。
賽靈思是 FPGA、硬件可編程 SoC 及 ACAP 的發(fā)明者,旨在提供業(yè)界最具活力的處理器技術(shù),實現(xiàn)自適應(yīng)、智能且互連的未來世界。
-
cpu
+關(guān)注
關(guān)注
68文章
10905瀏覽量
213033 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4860瀏覽量
72386 -
人工智能
+關(guān)注
關(guān)注
1796文章
47683瀏覽量
240313
發(fā)布評論請先 登錄
相關(guān)推薦
評論