衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種信息引導的量化后LLM微調新算法IR-QLoRA

智能感知與物聯網技術研究所 ? 來源:智能感知與物聯網技術研 ? 2024-11-19 17:16 ? 次閱讀

大模型應用開卷,連一向保守的蘋果,都已釋放出發展端側大模型的信號。 問題是,大語言模型(LLM)卓越的表現取決于“力大磚飛”,如何在資源有限的環境中部署大模型并保障性能,仍然頗具挑戰。 以對大模型進行量化+LoRA的路線為例,有研究表明,現有方法會導致量化的LLM嚴重退化,甚至無法從LoRA微調中受益。 為了解決這一問題,來自蘇黎世聯邦理工學院、北京航空航天大學和字節跳動的研究人員,最新提出了一種信息引導的量化后LLM微調新算法IR-QLoRA。論文已入選ICML 2024 Oral論文。

a4f62d2e-9f6e-11ef-93f3-92fbcf53809c.png

論文標題:Accurate LoRA-Finetuning Quantization of LLMs via Information Retention

論文鏈接:

hhttps://arxiv.org/pdf/2402.05445

代碼鏈接:

https://github.com/htqin/IR-QLoRA 論文介紹,IR-QLoRA能有效改善量化導致的大模型性能退化。在LLaMA和LLaMA 2系列中,用該方法微調的2位模型,相比于16位模型僅有0.9%的精度差異。

a50209b4-9f6e-11ef-93f3-92fbcf53809c.png

該方法的核心思想,是通過信息保留來使LoRA微調量化的大語言模型實現精度提升。 包含從統一信息角度衍生的兩種技術:信息校準量化和信息彈性連接。

信息校準量化LLM的量化權重被期望反映原始對應方所攜帶的信息,但比特寬度的減小嚴重限制了表示能力。從信息的角度來看,量化LLM和原始LLM的權重之間的相關性表示為互信息。

a518bdee-9f6e-11ef-93f3-92fbcf53809c.png

在LLM量化后,由于比特寬度的顯著減小導致表示能力的降低,量化權重的熵遠小于原始權重的熵。因此,優先考慮低比特權重內的信息恢復對于增強量化LLM至關重要。 首先從數學上定義信息校準的優化目標。校準過程可以看為向量化器引入一個校準常數以最大化信息,量化過程可以表述如下:

a51f8da4-9f6e-11ef-93f3-92fbcf53809c.png

由于原始權重是固定的,公式 (1) 中的優化目標可以表示為:

a533c666-9f6e-11ef-93f3-92fbcf53809c.png

由于直接求解公式 (3) 中的目標非常耗時,作者提出了一種分塊校準量化器信息的兩步策略: 第一步是初始化校準常數。基于神經網絡權重正態分布的常見假設,將每個權重量化塊的常數初始化為中值。由于正態分布中靠近對稱軸的區域的概率密度較高,因此該初始化旨在更大程度地利用量化器的間隔。應用位置相關中值來初始化, 以減輕異常值的影響。 第二步是優化校準常數、量化尺度、雙量化尺度。使用信息熵作為度量,并進行基于搜索的優化以獲得。通過將線性劃分為個候選來創建的搜索空間,其中是標準差,是系數。使用每個候選校準權重后,量化校準的權重并計算信息熵。獲得的量化尺度與基線一致。通過得到量化尺度,然后二次量化為和。 對于優化后的校準常數,執行類似于尺度的雙量化以節省內存,信息校準量化的量化過程可以總結為:

a54099ae-9f6e-11ef-93f3-92fbcf53809c.png

信息彈性連接除了基線中的量化LLM之外,由低秩矩陣組成的LoRA也阻礙了信息的恢復,為了增強LoRA的表示能力,幫助恢復量化LLM的信息,同時保持其輕量級性質,作者引入了有效的信息彈性連接。該方法構建了一個強大的低秩適配器,有助于利用從量化的LLM單元導出的信息。 具體來說,首先根據輸入和中間維度的最大公約數對原始特征進行分組和平均,并將其添加到由矩陣計算的輸出中。增加彈性連接的 LoRA 的第一個子單元可以表示為:

a564b06e-9f6e-11ef-93f3-92fbcf53809c.png

LoRA 的后一個矩陣將低秩中間表示變換為輸入維度,因此其伴隨的無參數變換使用重復串聯來增加維度。后一個子單元的計算過程可以表示為:

a56bed48-9f6e-11ef-93f3-92fbcf53809c.png

與 LLM 和 LoRA 單元中的矩陣乘法相比,無參數變換是一種多樣化的變換形式,進一步增強了量化 LLM 的信息表示。

實驗驗證作者廣泛評估了IR-QLoRA的準確性和效率。選擇LLaMA和LLaMA 2系列模型,在Alpaca和Flanv2數據集上構建參數高效的微調,使用MMLU和CommonsenseQA基準進行評估微調后量化模型的效果。 準確率 以下兩張表格分別展示了在Alpaca和Flanv2數據集上微調的MMLU基準的5-shot精度結果。綜合結果表明,在各種規模的LLaMA模型中,IR-QLoRA優于所有比較量化方法。 與基線方法QLoRA相比,IR-QLoRA在相同的微調管道下在MMLU基準上實現了精度的顯著提高。

a58cc73e-9f6e-11ef-93f3-92fbcf53809c.png

a599fe86-9f6e-11ef-93f3-92fbcf53809c.png

此外,在LLaMA 2上的準確性比較,證明了IR-QLoRA跨LLM系列的泛化性能。 下表中的結果表明,IR-QLoRA不僅平均實現了至少2.7%的性能改進,而且在幾乎每個單獨的指標上都表現出了優勢。這些結果表明IR-QLoRA在不同的LLM系列中表現出很強的泛化性。

a5ae6876-9f6e-11ef-93f3-92fbcf53809c.png

與MMLU基準上的現象類似,在CommonsenseQA基準上,與SOTA方法相比,IR-QLoRA始終保持了LLaMA-7B的最佳平均準確率,而且還顯著提高了大多數子項的有效性。

a5cb5c74-9f6e-11ef-93f3-92fbcf53809c.png

超低位寬 除了4比特以外,作者還評估了超低位寬下的IR-QLoRA建議。 具體來說,作者采用了QLoRA和LoftQ的量化方法,按照百分位量化方法構建了NF2和NF3量化。 下表顯示,隨著量化位寬的減小,基線QLoRA的性能急劇下降,以至于其在2位情況下的性能與隨機相差無幾。 相比之下,IR-QLoRA表現出更優越的性能,在Flan v2數據集上微調2位模型時,與16位模型相比僅有0.9%的精度差異。

a5d74e58-9f6e-11ef-93f3-92fbcf53809c.png

效率 IR-QLoRA的信息校準量化和信息彈性連接并沒有帶來額外的存儲和訓練開銷。 如上所示,信息校準量化增加的參數僅相當于量化的縮放因子,而且采用了雙重量化以進一步減少存儲。因此其帶來的額外存儲空間很小,在4位LLaMA-7B上僅增加了 2.04%。 校準常數的優化過程也只增加了微不足道的訓練時間(例如,LLaMA-7B為 0.46%,LLaMA-13B為 0.31%)。此外,增加的時間僅用于訓練過程中的初始優化,并不會導致推理時間的增加。信息彈性連接也只在每層引入了2個額外參數,在整個模型中可以忽略不計。

結論總的來說,基于統計的信息校準量化可確保LLM的量化參數準確保留原始信息;以及基于微調的信息彈性連接可以使LoRA利用不同信息進行彈性表示轉換。 廣泛的實驗證明,IRQLoRA在LLaMA和LLaMA 2系列中實現了令人信服的精度提升,即使是2-4位寬,耗時也僅增加了0.45%。 IR-QLoRA具有顯著的多功能性,可與各種量化框架無縫集成,并且大大提高了LLM的LoRA-finetuning量化精度,有助于在資源受限的情況下進行實際部署。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4630

    瀏覽量

    93362
  • LoRa
    +關注

    關注

    349

    文章

    1700

    瀏覽量

    232388
  • 大模型
    +關注

    關注

    2

    文章

    2551

    瀏覽量

    3172
  • LLM
    LLM
    +關注

    關注

    0

    文章

    299

    瀏覽量

    400

原文標題:ICML 2024 | 量化大模型退化嚴重?ETH北航字節推出LoRA新范式

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀

    ,減少了計算成本。LoRA(Low-Rank Adaptation):一種基于低秩分解的微調方法,通過分解模型參數矩陣為低秩矩陣來減少參數更新的數量,提高訓練效率。PET(Prompt-based
    發表于 01-14 16:51

    小白學大模型:構建LLM的關鍵步驟

    你梳理如何在構建AI算法應用時做出合適的決策。訓練LLM的三選擇https://wandb.ai/site/articles/training-llms/在構建A
    的頭像 發表于 01-09 12:12 ?434次閱讀
    小白學大模型:構建<b class='flag-5'>LLM</b>的關鍵步驟

    在NVIDIA TensorRT-LLM中啟用ReDrafter的些變化

    Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術,該技術現在可與 NVIDIA TensorRT-LLM
    的頭像 發表于 12-25 17:31 ?260次閱讀
    在NVIDIA TensorRT-<b class='flag-5'>LLM</b>中啟用ReDrafter的<b class='flag-5'>一</b>些變化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優化技術,包括自定義 Attention Kernel、Inflight
    的頭像 發表于 12-17 17:47 ?278次閱讀

    TensorRT-LLM低精度推理優化

    本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model
    的頭像 發表于 11-19 14:29 ?447次閱讀
    TensorRT-<b class='flag-5'>LLM</b>低精度推理優化

    LLM和傳統機器學習的區別

    在人工智能領域,LLM(Large Language Models,大型語言模型)和傳統機器學習是兩不同的技術路徑,它們在處理數據、模型結構、應用場景等方面有著顯著的差異。 1. 模型結構
    的頭像 發表于 11-08 09:25 ?772次閱讀

    理解LLM中的模型量化

    在本文中,我們將探討一種廣泛采用的技術,用于減小大型語言模型(LLM)的大小和計算需求,以便將這些模型部署到邊緣設備上。這項技術稱為模型量化。它使得人工智能模型能夠在資源受限的設備上高效部署。在當
    的頭像 發表于 10-25 11:26 ?301次閱讀
    理解<b class='flag-5'>LLM</b>中的模型<b class='flag-5'>量化</b>

    【飛凌嵌入式OK3576-C開發板體驗】rkllm模型量化構建

    ;目前 rk3576 平臺支持“w4a16”和“w8a8”兩量化類型,rk3588 僅支持“w8a8”量化類型; target_platform: 模型運行的硬件平臺, 可選擇的設置包括“rk3576
    發表于 08-27 22:50

    示波器探頭補償微調旋鈕的作用

    示波器探頭補償微調旋鈕是一種用于調整示波器探頭性能的重要組件。 、示波器探頭補償微調旋鈕的作用 校準探頭性能 示波器探頭補償微調旋鈕的主要
    的頭像 發表于 08-09 11:31 ?799次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學習模型,主要用于處理自然語言處理(NLP)任務。LLM模型的格式多種多樣,以下是些常見的
    的頭像 發表于 07-09 09:59 ?736次閱讀

    LLM模型和LMM模型的區別

    LLM(線性混合模型)和LMM(線性混合效應模型)之間的區別如下: 定義: LLM(線性混合模型)是一種統計模型,用于分析具有固定效應和隨機效應的線性數據。它允許研究者考慮數據中的非獨立性,例如
    的頭像 發表于 07-09 09:57 ?1219次閱讀

    llm模型和chatGPT的區別

    ,有許多不同的LLM模型,如BERT、GPT、T5等。 ChatGPT是一種基于GPT(Generative Pre-trained Transformer)模型的聊天機器人。GPT模型是一種
    的頭像 發表于 07-09 09:55 ?1329次閱讀

    LLM模型的應用領域

    在本文中,我們將深入探討LLM(Large Language Model,大型語言模型)的應用領域。LLM一種基于深度學習的人工智能技術,它能夠理解和生成自然語言文本。近年來,隨著計算能力的提高
    的頭像 發表于 07-09 09:52 ?733次閱讀

    什么是LLMLLM的工作原理和結構

    生成、機器翻譯、智能問答等多個領域展現出巨大的應用潛力。本文將從LLM的定義、發展歷程、工作原理、結構以及未來趨勢等方面進行深入解讀,以期為讀者提供個全面而清晰的認識。
    的頭像 發表于 07-02 11:45 ?9057次閱讀

    AI初創公司Alembic攻克LLM虛假信息難題

    近日,AI領域的創新者Alembic公司宣布了項重大突破:其全新AI系統成功解決了LLM(大型語言模型)中的虛假信息生成問題。這成就標志著長久以來困擾
    的頭像 發表于 06-18 14:26 ?590次閱讀
    百家乐官网手机软件| 单机百家乐的玩法技巧和规则 | 百家乐赢钱秘密| 明升备用网站| 百家乐路单破解方法| 云鼎百家乐官网注册| 百家乐真人斗地主| 百家乐官网学院| 大发888娱乐场解码器| 钱柜百家乐官网的玩法技巧和规则 | 百家乐二代皇冠博彩| TT百家乐官网现金网| 太阳百家乐娱乐| 高尔夫百家乐官网的玩法技巧和规则| 安徽棋牌游戏中心| 百家乐有真假宝单吗| 棋牌百家乐官网怎么玩| 威尼斯人娱乐网注册送38元彩金| 百家乐官网透明发牌机| 南宫市| 威尼斯人娱乐场 澳门赌场| 海港城百家乐官网的玩法技巧和规则| 大赢家即时比分网| 香港百家乐六合彩| 百家乐官网游乐园| 卡迪拉娱乐城开户| 平注打百家乐的方法| 百家乐官网7scs娱乐场| 皇家赌场007| 免费百家乐计划| 百家乐好不好玩| 澳门百家乐官网会出千吗| 大发888下载新澳博| 百家乐太阳城怎么样| 视频百家乐官网赌法| 赌场风云| 新全讯网3| 百家乐有电脑游戏吗| 百家乐官网游戏机破解方法| 六合彩玄机| CEO百家乐的玩法技巧和规则 |