衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用多個推理芯片需要仔細規(guī)劃

zhongnian ? 來源:zhongnian ? 作者:zhongnian ? 2022-07-21 10:11 ? 次閱讀

過去兩年,推理芯片業(yè)務異常忙碌。有一段時間,似乎每隔一周就有另一家公司推出一種新的更好的解決方案。盡管所有這些創(chuàng)新都很棒,但問題是大多數(shù)公司不知道如何利用各種解決方案,因為他們無法判斷哪一個比另一個表現(xiàn)更好。由于在這個新市場中沒有一套既定的基準,他們要么必須快速掌握推理芯片的速度,要么必須相信各個供應商提供的性能數(shù)據(jù)。

大多數(shù)供應商都提供了某種類型的性能數(shù)據(jù),通常是任何讓它們看起來不錯的基準。一些供應商談論 TOPS 和 TOPS/Watt 時沒有指定型號、批量大小或工藝/電壓/溫度條件。其他人使用了 ResNet-50 基準,這是一個比大多數(shù)人需要的簡單得多的模型,因此它在評估推理選項方面的價值值得懷疑。

從早期開始,我們已經走了很長一段路。公司已經慢慢發(fā)現(xiàn),在衡量推理芯片的性能時真正重要的是 1) 高 MAC 利用率,2) 低功耗和 3) 你需要保持一切都很小。

我們知道如何衡量——下一步是什么?

既然我們對如何衡量一個推理芯片相對于另一個的性能有了相當好的了解,公司現(xiàn)在正在詢問在同一設計中同時使用多個推理芯片的優(yōu)點(或缺點)是什么。簡單的答案是,使用多個推理芯片,當推理芯片設計正確時,可以實現(xiàn)性能的線性增長。當我們考慮使用多個推理芯片時,高速公路的類比并不遙遠。公司想要單車道高速公路還是四車道高速公路的性能?

顯然,每家公司都想要一條四向高速公路,所以現(xiàn)在的問題變成了“我們如何在不造成交通和瓶頸的情況下交付這條四車道的高速公路?” 答案取決于選擇正確的推理芯片。為了解釋,讓我們看一個神經網(wǎng)絡模型。

神經網(wǎng)絡被分解成層。ResNet-50 等層有 50 層,YOLOv3 有超過 100 層,每一層都接受前一層的激活。因此,在第 N 層中,它的輸出是進入第 N+1 層的激活。它等待該層進入,計算完成,輸出是進入第 n+2 層的激活。這會持續(xù)到層的長度,直到你最終得到結果。請記住,此示例的初始輸入是圖像或模型正在處理的任何數(shù)據(jù)集。

當多個芯片發(fā)揮作用時

現(xiàn)實情況是,如果您的芯片具有一定的性能水平,總會有客戶想要兩倍或四倍的性能。如果你分析神經網(wǎng)絡模型,在某些情況下是可以實現(xiàn)的。您只需要查看如何在兩個芯片或四個芯片之間拆分模型。

多年來,這一直是并行處理的一個問題,因為很難弄清楚如何對您正在執(zhí)行的任何處理進行分區(qū)并確保它們全部相加,而不是在性能方面被減去。

與并行處理和通用計算不同,推理芯片的好處是客戶通常會提前知道他們是否要使用兩個芯片,這樣編譯器就不必在運行時弄清楚——它是在編譯時完成的。使用神經網(wǎng)絡模型,一切都是完全可預測的,因此我們可以分析并準確確定如何拆分模型,以及它是否能在兩個芯片上運行良好。

為了確保模型可以在兩個或更多芯片上運行,重要的是逐層查看激活大小和 MAC 數(shù)量。通常發(fā)生的情況是,最大的激活發(fā)生在最早的層中。這意味著隨著層數(shù)的增加,激活大小會慢慢下降。

查看 MAC 的數(shù)量以及每個周期中完成的 MAC 數(shù)量也很重要。在大多數(shù)模型中,每個循環(huán)中完成的 MAC 數(shù)量通常與激活大小相關。這很重要,因為如果您有兩個芯片并且想要以最大頻率運行,則需要為每個芯片分配相同的工作負載。如果一個芯片完成模型的大部分工作,而另一個芯片只完成模型的一小部分,那么您將受到第一個芯片的吞吐量的限制。

如何在兩個芯片之間拆分模型也很重要。您需要查看 MAC 的數(shù)量,因為這決定了工作負載的分布。您還必須查看芯片之間傳遞的內容。在某些時候,您需要在您傳遞的激活盡可能小的地方對模型進行切片,以便所需的通信帶寬量和傳輸延遲最小。如果在激活非常大的點對模型進行切片,激活的傳輸可能會成為限制雙芯片解決方案性能的瓶頸。

下圖顯示了 YOLOv3、Winograd、2 百萬像素圖像的激活輸出大小和累積的 Mac 操作逐層(繪制了卷積層)。為了平衡兩個芯片之間的工作負載,該模型將減少大約 50% 的累積 MAC 操作——此時從一個芯片傳遞到另一個芯片的激活為 1MB 或 2MB。要在 4 個籌碼之間進行拆分,削減率約為 25%、50% 和 75%;請注意,激活大小在開始時最大,因此 25% 的切點有 4 或 8MB 的激活要通過。

poYBAGLXT6aAZ_6sAAGPBlpZGUY044.png

單擊此處查看大圖
YOLOv3/Winograd/2Mpixel 圖像的激活輸出大小(藍條)和逐層累積 MAC 操作(紅線),顯示工作負載如何在多個芯片之間分配(圖片:Flex Logix)

性能工具

幸運的是,現(xiàn)在可以使用性能工具來確保高吞吐量。事實上,模擬單個芯片性能的同一工具可以推廣到模擬兩個芯片的性能。雖然任何給定層的性能完全相同,但問題是數(shù)據(jù)傳輸如何影響性能。建模工具需要考慮這一點,因為如果所需的帶寬不夠,該帶寬將限制吞吐量。

如果您正在做四個芯片,您將需要更大的帶寬,因為模型第一季度的激活往往大于模型后期的激活。因此,您投資的通信資源量將允許您使用流水線連接的大量芯片,但這將是所有芯片都必須承擔的間接成本,即使它們是獨立芯片。

結論

使用多個推理芯片可以顯著提高性能,但前提是如上所述正確設計神經網(wǎng)絡。如果我們回顧一下高速公路的類比,有很多機會通過使用錯誤的芯片和錯誤的神經網(wǎng)絡模型來建立交通。如果你從正確的芯片開始,你就走在了正確的軌道上。請記住,最重要的是吞吐量,而不是 TOPS 或 Res-Net50 基準。然后,一旦您選擇了正確的推理芯片,您就可以設計一個同樣強大的神經網(wǎng)絡模型,為您的應用需求提供最大的性能。

— Geoff Tate 是 Flex Logix 的首席執(zhí)行官

、審核編輯 黃昊宇
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    456

    文章

    51192

    瀏覽量

    427348
  • Mac
    Mac
    +關注

    關注

    0

    文章

    1110

    瀏覽量

    51717
收藏 人收藏

    評論

    相關推薦

    Neuchips展示大模型推理ASIC芯片

    。新的芯片解決方案Raptor使企業(yè)能夠以現(xiàn)有解決方案的一小部分成本部署大型語言模型(LLM)推理。 Neuchips?CEO Ken Lau表示:“我們很高興在CES 2024上向業(yè)界展示我們
    的頭像 發(fā)表于 01-06 17:30 ?201次閱讀

    智譜GLM-Zero深度推理模型預覽版正式上線

    。 GLM-Zero-Preview專注于提升AI的推理能力,擅長處理數(shù)理邏輯、代碼以及需要深度推理的復雜問題。據(jù)官方介紹,與同基座模型相比,GLM-Zero-Preview在不顯著降低通用任務能力
    的頭像 發(fā)表于 01-02 10:55 ?173次閱讀

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發(fā)表于 12-11 20:13 ?172次閱讀
    如何開啟Stable Diffusion WebUI模型<b class='flag-5'>推理</b>部署

    Amazon Bedrock推出多個新模型和全新強大的推理和數(shù)據(jù)處理功能

    亞馬遜云科技助力客戶加速采用生成式AI 模型擴展規(guī)模空前,并新增推理優(yōu)化工具及額外的數(shù)據(jù)功能,為客戶提供了更大的靈活性和控制力,更快構建和部署生產級生成式AI ?亞馬遜云科技在2024 re
    的頭像 發(fā)表于 12-07 19:31 ?679次閱讀
    Amazon Bedrock推出<b class='flag-5'>多個</b>新模型和全新強大的<b class='flag-5'>推理</b>和數(shù)據(jù)處理功能

    高效大模型的推理綜述

    大模型由于其在各種任務中的出色表現(xiàn)而引起了廣泛的關注。然而,大模型推理的大量計算和內存需求對其在資源受限場景的部署提出了挑戰(zhàn)。業(yè)內一直在努力開發(fā)旨在提高大模型推理效率的技術。本文對現(xiàn)有的關于高效
    的頭像 發(fā)表于 11-15 11:45 ?577次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    FPGA和ASIC在大模型推理加速中的應用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了優(yōu)化,因此相比GPU這種通過計算平臺,功耗更低、
    的頭像 發(fā)表于 10-29 14:12 ?764次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應用

    AMD助力HyperAccel開發(fā)全新AI推理服務器

    提高成本效率。HyperAccel 針對新興的生成式 AI 應用提供超級加速的芯片 IP/解決方案。HyperAccel 已經打造出一個快速、高效且低成本的推理系統(tǒng),加速了基于轉換器的大型語言模型
    的頭像 發(fā)表于 09-18 09:37 ?488次閱讀
    AMD助力HyperAccel開發(fā)全新AI<b class='flag-5'>推理</b>服務器

    【飛凌嵌入式OK3576-C開發(fā)板體驗】rkllm板端推理

    交叉編譯 在完成模型的量化構建后,就能夠在目標硬件平臺OK3576上實現(xiàn)模型的推理功能了。 板端推理的示例代碼位于kllm-runtime/examples/rkllm_api_demo目錄中,該
    發(fā)表于 08-31 22:45

    星凡科技獲近億元Pre-A輪融資,加速大模型推理芯片研發(fā)

    星凡星啟(成都)科技有限公司(以下簡稱“星凡科技”)近日宣布成功完成近億元人民幣的Pre-A輪融資,此次融資由高捷資本攜手盛景嘉成及開普云聯(lián)合注資。這筆資金將為星凡科技在多個關鍵領域的發(fā)展注入強勁動力,包括服務器產線建設、算力中心項目的深度布局與后期高效運營,以及核心大模型推理
    的頭像 發(fā)表于 07-27 17:21 ?2739次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關鍵技術的詳細探討,內容將涵蓋模型壓縮、解碼方法優(yōu)化、底層優(yōu)化、分布式并行推理以及特
    的頭像 發(fā)表于 07-24 11:38 ?1018次閱讀

    如何加速大語言模型推理

    的主要挑戰(zhàn)。本文將從多個維度深入探討如何加速大語言模型的推理過程,以期為相關領域的研究者和開發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?645次閱讀

    DRP芯片多個領域的應用

    DRP芯片多個領域都有潛力應用,尤其是在快充和處理器/DSP領域。 在快充領域,DRP芯片可用于移動電源、戶外電源、HUB等產品中。它們可以支持多個PDO(Power Deliver
    的頭像 發(fā)表于 04-13 20:23 ?900次閱讀

    深度探討VLMs距離視覺演繹推理還有多遠?

    通用大型語言模型(LLM)推理基準:研究者們介紹了多種基于文本的推理任務和基準,用于評估LLMs在不同領域(如常識、數(shù)學推理、常識推理、事實推理
    發(fā)表于 03-19 14:32 ?384次閱讀
    深度探討VLMs距離視覺演繹<b class='flag-5'>推理</b>還有多遠?

    Groq LPU崛起,AI芯片主戰(zhàn)場從訓練轉向推理

    人工智能推理的重要性日益凸顯,高效運行端側大模型及AI軟件背后的核心技術正是推理。不久的未來,全球芯片制造商的主要市場將全面轉向人工智能推理領域。
    的頭像 發(fā)表于 02-29 16:46 ?1659次閱讀

    Groq推出大模型推理芯片 超越了傳統(tǒng)GPU和谷歌TPU

    Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動,超越了傳統(tǒng)GPU和谷歌TPU。
    的頭像 發(fā)表于 02-26 10:24 ?1211次閱讀
    Groq推出大模型<b class='flag-5'>推理</b><b class='flag-5'>芯片</b> 超越了傳統(tǒng)GPU和谷歌TPU
    2402 房号 风水| 百家乐平注法到656| 百家乐官网剁手| 钱大发888游戏下载| 发中发百家乐官网的玩法技巧和规则 | 新世纪娱乐| 澳门百家乐官网站| 仕達屋百家乐官网的玩法技巧和规则 | 百家乐官网娱乐城博彩通博彩网| 博客国际娱乐| 百家乐资深| 保单百家乐游戏机| 黄金城| 大发888娱乐游戏下载| 百家乐的珠盘| 百家乐官网大小牌路的含义| 万博娱乐| 大发888在线娱乐合作伙伴| 澳门百家乐经历| 永利百家乐娱乐| 永平县| 新利国际娱乐| 德州扑克 规则| 大发888真人真钱游戏| 百家乐英皇娱乐场开户注册| 百家乐折桌子| 木星百家乐官网的玩法技巧和规则| 百家乐官网网络视频游戏| 利来娱乐开户| 百家乐六手变化混合赢家打法| 百家乐正网开户| 百家乐官网赌场网| 百家乐官网网站那个好| 天全县| 金川县| 百家乐官网视频桌球| 百家乐官网路纸表格| 迁西县| 百家乐官网类游戏网站| 百家乐官网技巧之写路| 同乐城百家乐官网现金网|