衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用框架訓練網絡加速深度學習推理

星星科技指導員 ? 來源:NVIDIA ? 作者:Houman,Yu-Te Cheng, ? 2022-04-01 15:45 ? 次閱讀

TensorRT 7.0 開始, Universal Framework Format( UFF )被棄用。在本文中,您將學習如何使用新的 TensorFlow -ONNX- TensorRT 工作流部署經過 TensorFlow 培訓的深度學習模型。圖 1 顯示了 TensorRT 的高級工作流。

pYYBAGJGrYaAOHdwAADOhwG6fXc468.png

圖 1 。 TensorRT 是一種推理加速器。

首先,使用任何框架訓練網絡。網絡訓練后,批量大小和精度是固定的(精度為 FP32 、 FP16 或 INT8 )。訓練好的模型被傳遞給 TensorRT 優化器,優化器輸出一個優化的運行時(也稱為計劃)。。 plan 文件是 TensorRT 引擎的序列化文件格式。計劃文件需要反序列化才能使用 TensorRT 運行時運行推斷。

要優化在 TensorFlow 中實現的模型,只需將模型轉換為 ONNX 格式,并使用 TensorRT 中的 ONNX 解析器解析模型并構建 TensorRT 引擎。圖 2 顯示了高級 ONNX 工作流。

pYYBAGJGrYyAFfa6AAAwQkoylqI526.jpg

圖 2 。 ONNX 工作流。

在本文中,我們將討論如何使用 ONNX 工作流創建一個 TensorRT 引擎,以及如何從 TensorRT 引擎運行推理。更具體地說,我們演示了從 Keras 或 TensorFlow 中的模型到 ONNX 的端到端推理,以及使用 ResNet-50 、語義分段和 U-Net 網絡的 TensorRT 引擎。最后,我們將解釋如何在其他網絡上使用此工作流。

下載 TensorFlow -onnx- TensorRT 后 – 代碼 tar 。 gz 文件,您還應該從 Cityscapes dataset scripts repo 下載 labels.py ,并將其與其他腳本放在同一個文件夾中。

ONNX 概述

ONNX 是機器學習和深度學習模型的開放格式。它允許您將不同框架(如 TensorFlow 、 PyTorch 、 MATLAB 、 Caffe 和 Keras )的深度學習和機器學習模型轉換為單一格式。

它定義了一組通用的運算符、深入學習的通用構建塊集和通用文件格式。它提供計算圖的定義以及內置運算符。可能有一個或多個輸入或輸出的 ONNX 節點列表形成一個無環圖。

ResNet ONNX 工作流示例

在這個例子中,我們展示了如何在兩個不同的網絡上使用 ONNX 工作流并創建一個 TensorRT 引擎。第一個網絡是 ResNet-50 。

工作流包括以下步驟:

將 TensorFlow / Keras 模型轉換為。 pb 文件。

將。 pb 文件轉換為 ONNX 格式。

創建 TensorRT 引擎。

從 TensorRT 引擎運行推斷。

將模型轉換為。 pb

第一步是將模型轉換為。 pb 文件。以下代碼示例將 ResNet-50 模型轉換為。 pb 文件:

pYYBAGJGroSAHXTkAAA3M58TYgE971.png

poYBAGJGro6Aas16AAA1y0oqBWA160.png

除了 Keras ,您還可以從以下位置下載 ResNet-50 :

深度學習示例 GitHub 存儲庫:提供最新的深度學習示例網絡。您還可以看到 ResNet-50 分支,它包含一個腳本和方法來訓練 ResNet-50v1 。 5 模型。

NVIDIA NGC 型號 :它有預訓練模型的檢查點列表。例如,在 ResNet-50v1 。 5 上搜索 TensorFlow ,并從 Download 頁面獲取最新的檢查點。

將。 pb 文件轉換為 ONNX

第二步是將。 pb 模型轉換為 ONNX 格式。為此,首先安裝 tf2onnx 。

安裝 tf2onnx 后,有兩種方法可以將模型從。 pb 文件轉換為 ONNX 格式。第二種方法是使用命令行。運行以下命令:

poYBAGJGrp6AauNjAAAJUsSVoZg886.png

從 ONNX 創建 TensorRT 引擎

要從 ONNX 文件創建 TensorRT 引擎,請運行以下命令:

poYBAGJGrsCAchTgAAA9Ld7RNrs608.png

pYYBAGJGrsqAO8PKAAAC-dmKx7E317.png

此代碼應保存在引擎。 py 文件,稍后在文章中使用。

此代碼示例包含以下變量:

最大工作區大小: 在執行時 ICudaEngine 可以使用的最大 GPU 臨時內存。

構建器創建一個空網絡( builder.create_network() ), ONNX 解析器將 ONNX 文件解析到網絡( parser.parse(model.read()) )。您可以為網絡( network.get_input(0).shape = shape )設置輸入形狀,然后生成器將創建引擎( engine = builder.build_cuda_engine(network) )。要創建引擎,請運行以下代碼示例:

pYYBAGJGruGAMPXuAAAtUQcqcpk628.png

在這個代碼示例中,首先從 ONNX 模型獲取輸入形狀。接下來,創建引擎,然后將引擎保存在。 plan 文件中。

運行來自 TensorRT 引擎的推理:

TensorRT 引擎在以下工作流中運行推理:

為 GPU 中的輸入和輸出分配緩沖區。

將數據從主機復制到 GPU 中分配的輸入緩沖區。

在 GPU 中運行推理。

將結果從 GPU 復制到主機。

根據需要重塑結果。

下面的代碼示例詳細解釋了這些步驟。此代碼應保存在推理。 py 文件,稍后將在本文中使用。

poYBAGJGrviAfprXAAA-GEWQnbE980.png

pYYBAGJGrv-AK8KsAABG5Zo7Tiw771.png

pYYBAGJGrweAehrVAAA6DPqzQCU341.png

為第一個輸入行和輸出行確定兩個維度。您可以在主機( h_input_1 、 h_output )中創建頁鎖定內存緩沖區。然后,為輸入和輸出分配與主機輸入和輸出相同大小的設備內存( d_input_1 , d_output )。下一步是創建 CUDA 流,用于在設備和主機分配的內存之間復制數據。

在這個代碼示例中,在 do_inference 函數中,第一步是使用 load_images_to_buffer 函數將圖像加載到主機中的緩沖區。然后將輸入數據傳輸到 GPU ( cuda.memcpy_htod_async(d_input_1, h_input_1, stream) ),并使用 context.execute 運行推理。最后將結果從 GPU 復制到主機( cuda.memcpy_dtoh_async(h_output, d_output, stream) )。

ONNX 工作流語義分割實例

在本文 基于 TensorRT 3 的自主車輛快速 INT8 推理 中,作者介紹了一個語義分割模型的 UFF 工作流過程。

在本文中,您將使用類似的網絡來運行 ONNX 工作流來進行語義分段。該網絡由一個基于 VGG16 的編碼器和三個使用反褶積層實現的上采樣層組成。網絡在 城市景觀數據集 上經過大約 40000 次迭代訓練

有多種方法可以將 TensorFlow 模型轉換為 ONNX 文件。一種方法是 ResNet50 部分中解釋的方法。 Keras 也有自己的 Keras 到 ONNX 文件轉換器。有時, TensorFlow -to-ONNX 不支持某些層,但 Keras-to-ONNX 轉換器支持這些層。根據 Keras 框架和使用的層類型,您可能需要在轉換器之間進行選擇。

在下面的代碼示例中,使用 Keras-to-ONNX 轉換器將 Keras 模型直接轉換為 ONNX 。下載預先訓練的語義分段文件 semantic_segmentation.hdf5 。

pYYBAGJGrxuAAvmEAAAd4F0DPHw247.png

圖 3 顯示了網絡的體系結構。

poYBAGJGrY2AE4CrAABfgyFbT7k214.png

圖 3 。基于 VGG16 的語義分割模型。

與前面的示例一樣,使用下面的代碼示例創建語義分段引擎。

pYYBAGJGryaARbkjAAAq9e7lxJY387.png

要測試模型的輸出,請使用 城市景觀數據集 。要使用城市景觀,必須具有以下功能: sub_mean_chw 和 color_map 。這些函數也用于 post , 基于 TensorRT 3 的自主車輛快速 INT8 推理 。

在下面的代碼示例中, sub_mean_chw 用于從圖像中減去平均值作為預處理步驟, color_map 是從類 ID 到顏色的映射。后者用于可視化。

pYYBAGJGrzqAQX-AAAA3KOHqUOg723.png

poYBAGJGr0OABoXYAAAbHaod2Dw526.png

下面的代碼示例是上一個示例的其余代碼。必須先運行上一個塊,因為需要定義的函數。使用這個例子比較 Keras 模型和 TensorRT 引擎 semantic 。 plan 文件的輸出,然后可視化這兩個輸出。根據需要替換占位符 /path/to/semantic_segmentation.hdf5 和 input_file_path 。

poYBAGJGr16AQnJHAABCiJPN_VU162.png

poYBAGJGr2WAZGszAAAPXrDEFdc349.png

圖 4 顯示了實際圖像和實際情況,以及 Keras 的輸出與 TensorRT 引擎的輸出的對比。如您所見, TensorRT 發動機的輸出與 Keras 的類似。

pYYBAGJGrZSACUPPAAQTP3OFMbU453.png

圖 4a 原始圖像 。

poYBAGJGrZaAGb1ZAAB8Qxy0v4k876.png

圖 4b 地面真相標簽

poYBAGJGrZeADUl3AABv5WMB6Sk459.png

圖 4c 。 TensorRT 的輸出。

pYYBAGJGrZyAZI-mAABv5WMB6Sk593.png

圖 4d : Keras 的輸出。

在其他網絡上試試

現在您可以在其他網絡上嘗試 ONNX 工作流。有關分段網絡的好例子的更多信息,請參閱 GitHub 上的 具有預訓練主干的分割模型 。

作為一個例子,我們用一個 ONNX 網絡來說明如何使用。本例中的網絡是來自 segmentation_models 庫的 U-Net 。在這里,我們只加載模型,而沒有對其進行訓練。您可能需要在首選數據集上訓練這些模型。

關于這些網絡的一個重要點是,當您加載這些網絡時,它們的輸入層大小如下所示:( None , None , None , 3 )。要創建一個 TensorRT 引擎,您需要一個輸入大小已知的 ONNX 文件。在將此模型轉換為 ONNX 之前,請通過為其輸入指定大小來更改網絡,然后將其轉換為 ONNX 格式。

例如,從這個庫( segmentation _ models )加載 U-Net 網絡并為其輸入指定大小( 244 、 244 、 3 )。在為推理創建了 TensorRT 引擎之后,做一個與語義分段類似的轉換。根據應用程序和數據集的不同,可能需要使用不同的顏色映射。

poYBAGJGr3qARsYkAAAr2J6FKGE279.png

我們之前提到的另一種下載方式是從 vz6 下載。它有一個預先訓練模型的檢查點列表。例如,您可以在 TensorFlow 中搜索 UNet ,然后轉到 Download 頁面以獲取最新的檢查點。

總結

在這篇文章中,我們解釋了如何使用 TensorFlow-to-ONNX-to-TensorRT 工作流來部署深度學習應用程序,并給出了幾個示例。第一個例子是 ResNet-50 上的 ONNX- TensorRT ,第二個例子是在 Cityscapes 數據集上訓練的基于 英偉達數據中心深度學習產品性能 的語義分割。

關于作者

Houman 是 NVIDIA 的高級深度學習軟件工程師。他一直致力于開發和生產 NVIDIA 在自動駕駛車輛中的深度學習解決方案,提高 DNN 的推理速度、精度和功耗,并實施和試驗改進 NVIDIA 汽車 DNN 的新思想。他在渥太華大學獲得計算機科學博士學位,專注于機器學習

About Yu-Te Cheng

Yu-Te Cheng 是 NVIDIA 自主駕駛組高級深度學習軟件工程師,從事自駕領域的各種感知任務的神經結構搜索和 DNN 模型訓練、壓縮和部署,包括目標檢測、分割、路徑軌跡生成等。他于 2016 年獲得卡內基梅隆大學機器人學碩士學位。

About Josh Park

Josh Park 是 NVIDIA 的汽車解決方案架構師經理。到目前為止,他一直在研究使用 DL 框架的深度學習解決方案,例如在 multi-GPUs /多節點服務器和嵌入式系統上的 TensorFlow 。此外,他一直在評估和改進各種 GPUs + x86 _ 64 / aarch64 的訓練和推理性能。他在韓國大學獲得理學學士和碩士學位,并在德克薩斯農工大學獲得計算機科學博士學位

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 代碼
    +關注

    關注

    30

    文章

    4828

    瀏覽量

    69055
  • 深度學習
    +關注

    關注

    73

    文章

    5515

    瀏覽量

    121553
收藏 人收藏

    評論

    相關推薦

    大模型訓練框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一個用于簡化和加速深度學習模型訓練的庫,它支持在多種硬件配置上進行分布式訓練,包括 C
    的頭像 發表于 01-14 14:24 ?122次閱讀

    卷積神經網絡的實現工具與框架

    : TensorFlow是由Google Brain團隊開發的開源機器學習框架,它支持多種深度學習模型的構建和訓練,包括卷積神經
    的頭像 發表于 11-15 15:20 ?328次閱讀

    PyTorch GPU 加速訓練模型方法

    深度學習領域,GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作
    的頭像 發表于 11-05 17:43 ?658次閱讀

    Pytorch深度學習訓練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學習訓練
    的頭像 發表于 10-28 14:05 ?275次閱讀
    Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>訓練</b>的方法

    GPU深度學習應用案例

    能力,可以顯著提高圖像識別模型的訓練速度和準確性。例如,在人臉識別、自動駕駛等領域,GPU被廣泛應用于加速深度學習模型的訓練
    的頭像 發表于 10-27 11:13 ?508次閱讀

    NVIDIA助力麗蟾科技打造AI訓練推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業和科研機構提供了一套高效、靈活的 AI 訓練推理加速解決方案。無論是在復雜的 AI 開發任務中,還是在高并發
    的頭像 發表于 10-27 10:03 ?318次閱讀
    NVIDIA助力麗蟾科技打造AI<b class='flag-5'>訓練</b>與<b class='flag-5'>推理</b><b class='flag-5'>加速</b>解決方案

    FPGA加速深度學習模型的案例

    FPGA(現場可編程門陣列)加速深度學習模型是當前硬件加速領域的一個熱門研究方向。以下是一些FPGA加速
    的頭像 發表于 10-25 09:22 ?357次閱讀

    AI大模型與深度學習的關系

    人類的學習過程,實現對復雜數據的學習和識別。AI大模型則是指模型的參數數量巨大,需要龐大的計算資源來進行訓練推理深度
    的頭像 發表于 10-23 15:25 ?1278次閱讀

    NVIDIA推出全新深度學習框架fVDB

    在 SIGGRAPH 上推出的全新深度學習框架可用于打造自動駕駛汽車、氣候科學和智慧城市的 AI 就緒型虛擬表示。
    的頭像 發表于 08-01 14:31 ?686次閱讀

    FPGA在人工智能中的應用有哪些?

    FPGA(現場可編程門陣列)在人工智能領域的應用非常廣泛,主要體現在以下幾個方面: 一、深度學習加速 訓練推理過程
    發表于 07-29 17:05

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關鍵技術的詳細探討,內容將涵蓋模型壓縮、
    的頭像 發表于 07-24 11:38 ?1017次閱讀

    TensorFlow與PyTorch深度學習框架的比較與選擇

    深度學習作為人工智能領域的一個重要分支,在過去十年中取得了顯著的進展。在構建和訓練深度學習模型的過程中,
    的頭像 發表于 07-02 14:04 ?1075次閱讀

    深度學習模型訓練過程詳解

    深度學習模型訓練是一個復雜且關鍵的過程,它涉及大量的數據、計算資源和精心設計的算法。訓練一個深度學習
    的頭像 發表于 07-01 16:13 ?1506次閱讀

    利用深度循環神經網絡對心電圖降噪

    的網 絡具有更好的性能。這可以通過\"遷移學 習\"框架解釋訓練過程來部分解釋。它是 一種流行的深度學習技術,允許使用與目標數 據不同的域、分布和任務的
    發表于 05-15 14:42

    FPGA在深度學習應用中或將取代GPU

    硬件公司供貨的不斷增加,GPU 在深度學習中的市場需求還催生了大量公共云服務,這些服務為深度學習項目提供強大的 GPU 虛擬機。 但是顯卡也受硬件和環境的限制。Larzul 解釋說:
    發表于 03-21 15:19
    百家乐官网电话投注多少| 大发888优惠代码| K7百家乐官网的玩法技巧和规则| 百家乐官网投注程式| E胜博| 大发888官方6222.| 百家乐的玩法技巧和规则| 百家乐官网群dmwd| 百家乐官网视频软件下载| 新利国际网站| 威尼斯人娱乐城官网| 荷规则百家乐的玩法技巧和规则 | 武汉百家乐赌具| 潘多拉百家乐官网的玩法技巧和规则| 百家乐官网筹码桌| 百家乐官网高手技巧| 郯城县| 皇冠网开户| 百家乐网页游戏| 至尊娱乐城| 网络赌博网站| 邻水| 圣淘沙百家乐官网现金网| 皇冠在线娱乐| 全椒县| 百家乐官网平台开户哪里优惠多 | 百家乐官网博娱乐平台赌百家乐官网| 网络百家乐官网现金游戏哪里的信誉好啊| 百家乐官网平台送彩金| 百家乐官网园云鼎赌场娱乐网规则| 百家乐官网套利| 金宝博百家乐游戏| 乳山市| 百家乐官网打法心得| 海尔百家乐官网的玩法技巧和规则| 做生意门朝哪个方向好| 视频百家乐破解| 百家乐baccarat| 大发888娱乐场登陆| 太阳城亚洲开户| 网上百家乐官网有人赢过吗|