大发娱乐城澳门赌场,现金棋牌贴吧,棋牌游戏456(中国)·官方网站

Hello大家好，在之前的視頻中我們的講解主要集中在訓練后量化，也就是PTQ，那么這期視頻我們就再來講一下另一種主要的量化類型，量化感知訓練，我們暫且不會涉及到QAT在TPU-MLIR中的應用，只是先停留在理論層面進行一個介紹。

我們在學習PTQ的時候知道了量化其實就是一個尋找合適的量化參數，將高位數據流映射為低位數據流的過程，實現模型輕量化并且提高推理效率，但在這個過程中模型的精度不可避免地會下降。

造成精度下降的原因有很多，其中主要有：

量化誤差的引入，就像右邊這張信號圖所示，我們在量化時做的取整操作其實就是用有限的離散取值去近似無限的連續取值，會不可避免的導致量化后的信號與量化前的信號有一定的偏差，當這種偏差越大時量化誤差往往也就越大。

而且Weight 與ac tivation tensor用INT8來表示則不可避免地也會出現一定的信息損失，例如我們之前提到的截斷誤差，并且模型在進行Multiply-Accumulate操作中會采用INT32來接收累加的結果，然后將累加的結果再轉換回INT8，這個過程可能也會導致一定的截斷誤差。上一期視頻中我們介紹的校準方法只能在截斷誤差與量化誤差之間做一個權衡，而不能完全消除它們。

還有就是我們量化推導那期視頻中提到過的用Multiplier與rShift代替Scale的表示也會產生些許誤差

QAT就是通過end-to-end training微調訓練后的模型參數，讓模型對量化的魯棒性更強，從而緩和造成的精度下降問題，而且通過QAT，我們也能夠達成更低位，例如INT4的量化，從而進一步輕量化模型與提高推理效率

實現方式就是在訓練過程中進行模擬量化，或者說是插入FakeQuant偽量化算子，對weight與activation tensor進行量化，然后再做反量化引入量化誤差進行訓練，所以在fine-tune的過程中模型還是以FP32精度進行運算的，并不是像推理過程中的低位運算。之后我們通過反向傳播與梯度下降的方式微調模型權重。

對于量化參數的確定，weight tensor的量化參數通常采用絕對最大值除以127的方式確定，而activation tensor量化參數則根據QAT算法的不同可能也有所不同。早期的QAT算法采用滑動平均的方式在訓練過程中對量化取值范圍進行統計更新，而近些年來主流的QAT算法直接將量化參數定位可學習參數在反向傳播過程中通過梯度下降進行更新。

這樣的做法在實際實現過程中我們主要會遇到一個問題，就是偽量化算子中的round函數梯度要怎么計算，我們既然在原模型插入了偽量化算子，又要對模型進行重新訓練，就不得不考慮反向傳播時怎么計算它的梯度。

首先我們之前有看過量化后的信號波形圖其實是一個離散的階梯函數，這樣的函數是不可導的，或者說它們的梯度是處處為0的，這就導致權重無法得到更新。所以我們需要想辦法去對它做近似操作。

一種傳統的方式是用Straight-Through Estimator在反向傳播過程中讓偽量化算子輸入的梯度等于輸出的梯度，或者說使他梯度為1。

由這種方法延伸出了一系列的QAT算法，例如DoReFaNet，這個算法將activation和weight都壓縮在0,1之間進行量化，后面會繼續講解基于STE的QAT算法，敬請期待。
審核編輯：彭菁

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

函數

函數

+關注

關注
3

文章
4346

瀏覽量
62977
模型

模型

+關注

關注
1

文章
3313

瀏覽量
49229
數據流

數據流

+關注

關注
0

文章
121

瀏覽量
14440

yolov5量化INT8出錯怎么處理？

[Success]: tpuc-opt yolov5l_bm1684_int8_sym_tpu.mlir --mlir-disable-threading --strip-io-quant=\"

發表于 01-10 06:40

TPU-MLIR開發環境配置時出現的各種問題求解

按照 TPU-MLIR 開發指南進行環境配置： 2.1. 代碼下載? 代碼路徑: https://github.com/sophgo/tpu-mlir 克隆該代碼后, 需要在Docker中編譯

發表于 01-10 08:02

【算能RADXA微服務器試用體驗】+ GPT語音與視覺交互：2，圖像識別

BModel混合精度量化 ├── yolov8s_qtable_fp32 # TPU-MLIR編譯時，用于BM1684的INT8 BModel混合精度量化

發表于 07-14 23:36

YOLOv6中的用Channel-wise Distillation進行的量化感知訓練

1、YOLOv6中的用Channel-wise Distillation進行的量化感知訓練來自哪里　　知識蒸餾（KD）已被證明是一種用于訓練緊湊密集預測模型的簡單有效的工具。輕量級學

發表于 10-09 16:25

在“model_transform.py”添加參數“--resize_dims 640,640”是否表示tpu會自動resize的？

resize和letterbox的處理，在“TPU-MLIR入門快速指南.pdf”里的“使用TPU做前處理”里提到了“圖像裁剪”，沒看明白，能詳細解釋下的嗎？

發表于 09-18 07:56

Pytorch量化感知訓練的詳解

量化感知訓練（Quantization Aware Training ）是在模型中插入偽量化模塊（fake\_quant module）模擬量化

發表于 12-08 22:57 ?2498次閱讀

適配PyTorch FX讓量化感知訓練更簡單

近年來，量化感知訓練是一個較為熱點的問題，可以大大優化量化后訓練造成精度損失的問題，使得訓練過程

發表于 03-08 09:45 ?1237次閱讀

如何給TPU-MLIR添加新的算子

如何給TPU-MLIR添加新的算子

發表于 08-18 11:29 ?757次閱讀

TPU-MLIR中的融合處理

TPU-MLIR中的融合處理

發表于 08-18 11:29 ?539次閱讀

如何使用TPU-MLIR進行模型轉換

TPU-MLIR之精度驗證

發表于 08-21 10:41 ?778次閱讀

基于STE的QAT算法

TPU-MLIR之量化感知訓練（下）

發表于 08-21 10:46 ?710次閱讀

TPU-MLIR量化敏感層分析，提升模型推理精度

背景介紹TPU-MLIR編譯器可以將機器學習模型轉換成算能芯片上運行的bmodel模型。由于浮點數的計算需要消耗更多的計算資源和存儲空間，實際應用中往往采用量化后的模型（也稱定點模型）進行推理。相比

發表于 10-10 10:17 ?1464次閱讀

如何適配新架構？TPU-MLIR代碼生成CodeGen全解析！

背景介紹TPU-MLIR的CodeGen是BModel生成的最后一步，該過程目的是將MLIR文件轉換成最終的Bmodel。本文介紹了CodeGen的基本原理和流程，并記錄了針對BM1684X等新架構

發表于 11-02 08:34 ?1835次閱讀

深入學習和掌握TPU硬件架構有困難？TDB助力你快速上手！

TDB介紹TDB(TPUDeBugger)是針對TPU-MLIR編譯出來的BModel設計的一系列調試工具集合,可以支持對BModel反匯編、結構可視化、單步執行仿真等功能，使用方法靈活。能夠

發表于 12-22 08:33 ?810次閱讀

如何高效處理LMEM中的數據？這篇文章帶你學會！

WeightReorder是TPU-MLIR的一個pass（參考TPU-MLIR編譯流程圖），其完成了對部分常量數據的Layout變化和合并。本文介紹其中ConvlotionKernel

發表于 01-19 08:33 ?925次閱讀

衡阳派盒市场营销有限公司

搜索歷史

TPU-MLIR之量化感知訓練

評論

yolov5量化INT8出錯怎么處理？

TPU-MLIR開發環境配置時出現的各種問題求解

【算能RADXA微服務器試用體驗】+ GPT語音與視覺交互：2，圖像識別

YOLOv6中的用Channel-wise Distillation進行的量化感知訓練

在“model_transform.py”添加參數“--resize_dims 640,640”是否表示tpu會自動resize的？

Pytorch量化感知訓練的詳解

適配PyTorch FX讓量化感知訓練更簡單

如何給TPU-MLIR添加新的算子

TPU-MLIR中的融合處理

如何使用TPU-MLIR進行模型轉換

基于STE的QAT算法

TPU-MLIR量化敏感層分析，提升模型推理精度

如何適配新架構？TPU-MLIR代碼生成CodeGen全解析！

深入學習和掌握TPU硬件架構有困難？TDB助力你快速上手！

如何高效處理LMEM中的數據？這篇文章帶你學會！