衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

模型壓縮技術,加速AI大模型在終端側的應用

Carol Li ? 來源:電子發燒友網 ? 作者:李彎彎 ? 2023-04-24 01:26 ? 次閱讀

電子發燒友網報道(文/李彎彎)當前,全球眾多科技企業都在積極研究AI大模型,然而因為參數規模太大,要想實現AI大模型在邊/端側部署,需要用到模型壓縮技術。當前谷歌、微軟、騰訊等廠商在該領域均有布局,加速AI技術智能終端的融合。

為什么需要模型壓縮技術

模型壓縮是一種縮小訓練后的神經網絡的技術,目的是保證模型預測效果的前提下,盡可能地降低模型的大小。模型壓縮之后,所需要的計算資源變小,有利于在移動端部署。

有一個很形象的例子,深度學習變臉業務,假設在模型優化前,原始模型處理每個視頻要30秒,那么一張GPU卡一分鐘只能處理2個視頻。假設APP的使用峰值是1000人同時使用,那么這家公司至少要有500張GPU卡才能滿足需求。

如果模型壓縮技術能讓模型變小許多,使得每個視頻處理只需要10秒,那么這個客戶可能只需要150張卡就能滿足業務需求。每年的成本可以從原來的3000萬控制在1000萬左右,省下的2000萬,就是模型壓縮技術的價值。

量化、網絡剪枝和知識蒸餾

模型壓縮的方法主要有量化、網絡剪枝、知識蒸餾。量化的意思是,將浮點計算轉成低比特定點計算,模型由大量的浮點型權重組成,如果能用float32替代原有的float64表示,模型就近乎減小一倍,量化也是最容易實現的一種壓縮方式。

傳統意義上的量化即為將連續信號轉換為離散信號,在神經網絡的量化中,即將浮點數float32→int8,int4,int2等,量化其本質就是低精度,常規精度一般使用FP32存儲模型權重,低精度則表示FP16,或INT8等數值格式,不過目前低精度往往指的是INT8。

模型壓縮,使得原本只能在云端運行大模型,也能夠部署在終端設備上。比如,近年來很流行的基礎模型 Stable Diffusion ,它是一個非常出色的從文本到圖像的生成式 AI 模型,能夠基于任何文本輸入,在數十秒內創作出逼真圖像。Stable Diffusion 的參數超過 10 億,此前主要限于在云端運行。

高通 AI Research 利用高通 AI 軟件棧(Qualcomm AI Stack)執行全棧 AI 優化,首次實現了在Android智能手機上部署 Stable Diffusion,其中就用到了模型壓縮技術量化的方法。

據介紹,高通的全棧 AI 研究指跨應用、神經網絡模型、算法、軟件和硬件進行優化。針對 Stable Diffusion,他們從 Hugging Face 的 FP32 1-5 版本開源模型入手,通過量化、編譯和硬件加速進行優化,使其能在搭載第二代驍龍 8 移動平臺的手機上運行。

為了把模型從 FP32 壓縮為 INT8,高通使用了其 AI 模型增效工具包 (AIMET) 的訓練后量化。自適應舍入 (AdaRound) 等先進的高通 AIMET 量化技術能夠在更低精度水平保持模型準確性,無需進行重新訓練。

這些技術能夠應用于構成 Stable Diffusion 的所有組件模型,即基于 Transformer 的文本編碼器、VAE 解碼器和 UNet。這對于讓模型適合于在終端上運行至關重要。

網絡剪枝,是指除神經網絡中冗余的通道、神經元節點等。深度學習模型可以看作是一個復雜樹狀結構,如果能減去一些對結果沒什么影響的旁枝,就可以實現模型的減小。

模型的構成是由許多浮點型的神經元相連接,每一層根據神經元的權重將信息向下傳遞。但是有一些神經元的權重非常小,這類神經元對整個模型加載的信息影響微乎其微。如果可以把這些權重較小的神經元刪減掉,既減少了模型大小,也不會對模型的效果帶來大的影響。

每一層把數值小的神經元去掉,但是剪枝粒度維持到多大也是有講究的,比如可以把每層最小的5個減掉,也可能只剪3個,或者每層有每層不同的策略。剪多了,模型精度影響會比較大,剪少了沒有效果。所以這里面需要大量的嘗試和迭代。

知識蒸餾,是指將大模型作為教師模型,用其輸出訓練性能接近、結構更簡的學生模型。一般而言,大模型往往是單個復雜網絡或者是若干網絡的集合,擁有良好的性能和泛化能力,而小模型因為網絡規模較小,表達能力有限。

因此,可以利用大模型學習到的知識去指導小模型訓練,使得小模型具有與大模型相當的性能,但是參數數量大幅降低,從而實現模型壓縮。

小結

當下,AI大模型發展如火如荼,然而因為參數規模太大,不僅僅是訓練,大模型的部署推理,也需要倚賴豐富的計算資源。如果想要大模型能夠在邊/終端側實現部署,這其中就需要用到模型壓縮技術,如高通使用量化的方法,讓Stable Diffusion能夠在手機上運行。




聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31536

    瀏覽量

    270343
收藏 人收藏

    評論

    相關推薦

    拋棄8GB內存,端AI模型加速內存升級

    電子發燒友網報道(文/黃晶晶)端AI模型的到來存儲市場產生了最直接的反應。年初我們對旗艦智能手機的存儲容量統計中,16GB內存+51
    的頭像 發表于 11-03 00:02 ?4786次閱讀
    拋棄8GB內存,端<b class='flag-5'>側</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b><b class='flag-5'>加速</b>內存升級

    廣和通Fibocom AI Stack:加速AI部署新紀元

    近日,廣和通正式推出了Fibocom AI Stack,這一創新解決方案旨在賦能千行百業的端應用,推動AI技術的廣泛商用。 Fibocom AI
    的頭像 發表于 01-13 11:32 ?373次閱讀

    【「大模型啟示錄」閱讀體驗】對大模型更深入的認知

    讓我想到,我使用AI工具時,很少考慮到背后的技術是如何運作的。現在,我更加好奇這些工具的工作原理,以及它們是如何與大模型技術相結合的。 總
    發表于 12-20 15:46

    智譜推出四個全新端模型 攜英特爾按下AI普及加速

    隨著AI的發展,端AI模型越來越受到廣大客戶及廠商的關注,業界領先的大模型公司智譜于近日推出了四個全新的端
    的頭像 發表于 12-02 17:13 ?259次閱讀
    智譜推出四個全新端<b class='flag-5'>側</b><b class='flag-5'>模型</b> 攜英特爾按下<b class='flag-5'>AI</b>普及<b class='flag-5'>加速</b>鍵

    把握關鍵節點,美格智能持續推動端AI規模化拓展

    將成為和系統同樣重要的存在,如果說電路是連接身體的“血管”,那么AI就將成為終端的智慧“大腦”。加速演進大模型加速走向端
    的頭像 發表于 11-26 01:00 ?229次閱讀
    把握關鍵節點,美格智能持續推動端<b class='flag-5'>側</b><b class='flag-5'>AI</b>規模化拓展

    把握關鍵節點,美格智能持續推動端AI規模化拓展

    將成為和系統同樣重要的存在,如果說電路是連接身體的“血管”,那么AI就將成為終端的智慧“大腦”。 ?加速演進,大模型加速走向端
    的頭像 發表于 11-25 16:45 ?362次閱讀
    把握關鍵節點,美格智能持續推動端<b class='flag-5'>側</b><b class='flag-5'>AI</b>規模化拓展

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型處理復雜任務時的效率和響應速度。以下是對LLM大
    的頭像 發表于 07-24 11:38 ?1017次閱讀

    AI模型與小模型的優缺點

    人工智能(AI)的廣闊領域中,模型作為算法與數據之間的橋梁,扮演著至關重要的角色。根據模型的大小和復雜度,我們可以將其大致分為AI
    的頭像 發表于 07-10 10:39 ?3642次閱讀

    云知聲邊緣模型技術探索和應用

    解決的課題。 2024高工智能汽車開發者大會暨艙駕智能與跨域論壇上,云知聲智慧座艙解決方案中心總經理鮑晴峰以《邊緣模型帶來智能座艙交互新體驗》為題,分享了云知聲邊緣
    的頭像 發表于 06-29 15:30 ?896次閱讀

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    大語言模型基礎技術21隨著Transformer結構機器翻譯領域取得巨大成功,研究人員開始探索其在其他自然語言處理任務中的潛力。很快,Transformer 結構被證明不僅適用于序列到序列的轉換任務
    發表于 05-05 12:17

    高通支持Meta Llama 3大語言模型驍龍旗艦平臺上實現終端執行

    高通和Meta合作優化Meta Llama 3大語言模型,支持未來的驍龍旗艦平臺上實現終端執行。
    的頭像 發表于 04-20 09:13 ?573次閱讀

    NVIDIA加速識因智能AI模型落地應用方面的重要作用介紹

    本案例介紹了 NVIDIA 加速識因智能 AI模型落地應用方面的重要作用。生成式大模型已廣泛應用于各領域,通過學習人類思維方式,能快速
    的頭像 發表于 03-29 15:28 ?689次閱讀

    真實用戶體驗,終端模型能為信息無障礙做些什么

    終端模型
    腦極體
    發布于 :2024年03月20日 17:04:44

    防止AI模型被黑客病毒入侵控制(原創)聆思大模型AI開發套件評測4

    ,應用場景和安全需求會有所不同。我會幫助客戶構建安全的 AI模型。上面的只是一些基本的安全措施,實際中我可以利用eFPGA芯片對上述的功能進行加速,下面我編寫一個
    發表于 03-19 11:18

    cubemx ai導入onnx模型壓縮失敗了怎么解決?

    cubemx ai導入onnx模型壓縮失敗。請問我怎么解決
    發表于 03-19 07:58
    香港六合彩马报| 赌百家乐官网赢的奥妙| 百家乐官网跟路技巧| 优博百家乐yobo88| 百家乐不倒翁注码| 优博百家乐官网yobo88| 西青区| 棋牌娱乐城| 澳门顶级赌场金沙| 百家乐骗局视频| 百家乐玩法的技巧| 百家乐必胜绝技| 康莱德百家乐官网的玩法技巧和规则 | 百家乐的视频百家乐| 博e百娱乐城怎么样| 伯爵百家乐官网赌场娱乐网规则 | 百家乐官网tt赌场娱乐网规则| 百家乐轮盘一体机厂家| 壶关县| 百家乐做庄家必赢诀窍| 浦城县| 百家乐庄闲的分布| 国外合法赌博网站| 赌博百家乐赢不了| 崇仁县| 百家乐如何投注| 2013现金棋牌游戏| 百家乐平台哪个好本站所有数据都是网友推荐及提供 | 百家乐官网网址哪里有| 上市百家乐评论| 百家乐官网是不是有技巧| 金域百家乐的玩法技巧和规则| 皇冠百家乐官网客户端皇冠| 百家乐高手心得| 凤冈县| 百家乐最佳打| 百家乐官网赌博机怎么玩| 威尼斯人娱乐城博彩投注平台| 百家乐官网赌博信息| 大发888游戏平台寒怕| 玩百家乐官网怎么能赢呢|