衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

FPGA的深度學習加速器有怎樣的挑戰和機遇

Q4MP_gh_c472c21 ? 來源:未知 ? 2019-01-29 16:48 ? 次閱讀

FPGA神經網絡加速器如今越來越受到 AI 社區的關注,本文對基于 FPGA 的深度學習加速器存在的機遇與挑戰進行了概述。

近年來,神經網絡在各種領域相比于傳統算法有了極大的進步。在圖像、視頻、語音處理領域,各種各樣的網絡模型被提出,例如卷積神經網絡、循環神經網絡。訓練較好的 CNN 模型把 ImageNet 數據集上 5 類頂尖圖像的分類準確率從 73.8% 提升到了 84.7%,也靠其卓越的特征提取能力進一步提高了目標檢測準確率。RNN 在語音識別領域取得了最新的詞錯率記錄。總而言之,由于高度適應大量模式識別問題,神經網絡已經成為許多人工智能應用的有力備選項。

然而,神經網絡模型仍舊存在計算量大、存儲復雜問題。同時,神經網絡的研究目前還主要聚焦在網絡模型規模的提升上。例如,做 224x224 圖像分類的最新 CNN 模型需要 390 億浮點運算(FLOP)以及超過 500MB 的模型參數。由于計算復雜度直接與輸入圖像的大小成正比,處理高分辨率圖像所需的計算量可能超過 1000 億。

因此,為神經網絡應用選擇適度的計算平臺特別重要。一般來說,CPU 每秒能夠完成 10-100 的 GFLOP 運算,但能效通常低于 1 GOP/J,因此難以滿足云應用的高性能需求以及移動 app 的低能耗需求。相比之下,GPU 提供的巔峰性能可達到 10TOP/S,因此它是高性能神經網絡應用的絕佳選擇。此外,Caffe 和 TensorFlow 這樣的編程框架也能在 GPU 平臺上提供易用的接口,這使得 GPU 成為神經網絡加速的首選。

除了 CPU 和 GPU,FPGA 逐漸成為高能效神經網絡處理的備選平臺。根據神經網絡的計算過程,結合為具體模型設計的硬件,FPGA 可以實現高度并行并簡化邏輯。一些研究顯示,神經網絡模型能以硬件友好的方式進行簡化,不影響模型的準確率。因此,FPGA 能夠取得比 CPU 和 GPU 更高的能效。

回顧 20 世紀 90 年代,那時 FPGA 剛出現,但不是為了神經網絡,而是為了電子硬件原型的快速開發而設計的。由于神經網絡的出現,人們開始探索、改進其應用,但無法確定其發展方向。盡管在 1994 年,DS Reay 首次使用 FPGA 實現神經網絡加速,但由于神經網絡自身發展不夠成熟,這一技術并未受到重視。直到 2012 年 ILSVRC 挑戰賽 AlexNet 的出現,神經網絡的發展漸為明晰,研究社區才開始往更深、更復雜的網絡研究發展。后續,出現了 VGGNet、GoogleNet、ResNet 這樣的模型,神經網絡越來越復雜的趨勢更為明確。當時,研究者開始注意到基于 FPGA 的神經網絡加速器,如下圖 1 所示。直到去年,IEEE eXplore 上發表的基于 FPGA 的神經網絡加速器數量已經達到了 69 個,且還在一直增加。這足以說明該方向的研究趨勢。

圖 1:基于 FPGA 的神經網絡加速器開發歷史

論文:A Survey of FPGA Based Deep Learning Accelerators: Challenges and Opportunities

論文地址:https://arxiv.org/abs/1901.04988

摘要:隨著深度學習的快速發展,神經網絡和深度學習算法已經廣泛應用于各個領域,如圖片、視頻和語音處理等。但是,神經網絡模型也變得越來越大,這體現在模型參數的計算上。雖然為了提高計算性能,研究者在 GPU 平臺上已經做了大量努力,但專用硬件解決方案仍是必不可少的,而且與純軟件解決方案相比正在形成優勢。在這篇論文中,作者系統地探究了基于 FPGA 的神經網絡加速器。具體來講,他們分別回顧了針對特定問題、特定算法、算法特征、通用模板的加速器,還比較了不同設備和網絡模型中基于 FPGA 加速器的設計和實現,并將其與 CPU 和 GPU 的版本進行了比較。最后,作者討論了 FPGA 平臺上加速器的優勢和劣勢,并進一步探索了未來研究存在的機會。

圖 2: 不同數據量化方法的比較

表 1: 不同平臺上不同模型的性能比較

機遇和挑戰

早在 20 世紀 60 年代,Gerald Estrin 就提出了可重構計算的概念。但是直到 1985 年,第一個 FPGA 芯片才被 Xilinx 引入。盡管 FPGA 平臺的并行性和功耗非常出色,但由于其重構成本高,編程復雜,該平臺沒有引起人們的重視。隨著深度學習的持續發展,其應用的高并行性使得越來越多的研究人員投入到基于 FPGA 的深度學習加速器研究中來。這也是時代的潮流。

基于 FPGA 加速器的優勢

1)高性能,低能耗:高能效的優點不容小覷,之前的許多研究已經證明了這一點。從表 1 中可以看出,GOP/j 在 FPGA 平臺上的表現可以達到在 CPU 平臺上的幾十倍,它在 FPGA 平臺上表現的最低水平與其在 GPU 平臺上的表現處于一個層級。這足以說明基于 FPGA 的神經網絡加速器的高能效優勢。

2)高并行性:高并行性是選擇 FPGA 平臺加速深度學習的主要特性。由于 FPGA 的可編輯邏輯硬件單元,可以使用并行化算法輕松優化硬件,已達到高并行性。

3)靈活性:由于 FPGA 具有可重構性,它可以適用于復雜的工程環境。例如,在硬件設計和應用設計完成之后,通過實驗發現性能未能達到理想狀態。可重構性使得基于 FPGA 的硬件加速器能夠很好地處理頻繁的設計變更并滿足用戶不斷變化的需求。因此,與 ASIC 平臺相比,這種靈活性也是 FPGA 平臺的亮點。

4)安全性:當今的人工智能時代需要越來越多的數據用于訓練。因此,數據的安全性越來越重要。作為數據的載體,計算機的安全性也變得更加顯著。目前,一提到計算機安全性,想到的都是各種殺毒軟件。但是這些軟件只能被動地防御,不能消除安全風險。相比之下,從硬件架構層級著手能夠更好地提高安全性。

基于 FPGA 的加速器的劣勢

1)可重構成本:FPGA 平臺的可重構性是一把雙刃劍。盡管它在計算提速方面提供了許多便利,但是不同設計的重構所消耗的時間卻不容忽視,通常需要花幾十分鐘到幾個小時。此外,重構過程分為兩種類型:靜態重構和動態重構。靜態重構,又叫編譯時重構,是指在任務運行之前配置硬件處理一個或多個系統功能的能力,并且在任務完成前將其鎖定。另一個也稱為運行時配置。動態重構是在上下文配置模式下進行的。在執行任務期間,硬件模塊應該按照需要進行重構。但是它非常容易延遲,從而增加運行時間。

2)編程困難:盡管可重構計算架構的概念被提出很久了,也有很多成熟的工作,但可重構計算之前并未流行起來。主要有兩個原因:

從可重構計算的出現到 21 世紀初的 40 年時間是摩爾定律的黃金時期,其間技術每一年半更迭一次。所以這種架構更新帶來的性能提升不像技術進步那么直接、有力;對成熟的系統而言,在 CPU 上傳統的編程采用高階抽象編程語言。但是,可重構計算需要硬件編程,而通常使用的硬件編程語言(Verilog、VHDL)需要程序員花費大量時間才能掌握。

期望

盡管基于 FPGA 的神經網絡加速器仍舊有這樣、那樣的問題,但其未來發展依然可期。以下幾個方向仍然有待研究:

優化計算流程中的其他部分,現在,主流研究聚焦在矩陣運算回路,激活函數的計算少有人涉及。訪問優化。需要進一步研究進行數據訪問的其他優化方法。數據優化。使用能夠自然提升平臺性能的更低位數據,但大部分的低位數據使得權重和神經元的位寬一樣。圖 2 還可以改進與非線性映射的位寬差。所以,應該探索出更好的平衡態。頻率優化。當前,大部分 FPGA 平臺的運算頻率在 100-300MHz,但 FPGA 平臺理論上的運算頻率可以更高。這一頻率主要受限于片上 SRAMDSP 之間的線程。未來研究需要找到是否有方式避免或者解決該問題。FPGA 融合。據參考論文 37 中提到的表現,如果規劃和分配問題能夠得到良好解決,多 FPGA 集群可以取得更好的結果。此外,當前此方向沒有太多研究。所以非常值得進一步探索。自動配置。為了解決 FPGA 平臺上復雜的編程問題,如果做出類似英偉達 CUDA 這樣的用戶友好的自動部署框架,應用范圍肯定會拓寬。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1630

    文章

    21796

    瀏覽量

    605989
  • 加速器
    +關注

    關注

    2

    文章

    807

    瀏覽量

    38087
  • AI
    AI
    +關注

    關注

    87

    文章

    31513

    瀏覽量

    270326
  • 深度學習
    +關注

    關注

    73

    文章

    5513

    瀏覽量

    121545

原文標題:基于FPGA的深度學習加速器的挑戰與機遇

文章出處:【微信號:gh_c472c2199c88,微信公眾號:嵌入式微處理器】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    FPGA在做深度學習加速時需要的技能

    前言 做深度學習加速器已經兩年了,從RTL設計到仿真驗證,以及相應的去了解了Linux驅動,深度學習壓縮方法等等。今天來捋一捋AI
    的頭像 發表于 10-10 16:25 ?3694次閱讀
    <b class='flag-5'>FPGA</b>在做<b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>加速</b>時需要的技能

    FPGA深度學習能走多遠?

    并行計算的能力,可以在硬件層面并行處理大量數據。這種并行處理能力使得 FPGA 在執行深度學習算法時速度遠超傳統處理,能夠提供更低的延遲和更高的吞吐量,從而
    發表于 09-27 20:53

    華為FPGA加速云服務如何加速讓硬件應用高效上云?

    華為FPGA加速云服務讓“硬用”上云成為新增長點隨著通信和互聯網產業的快速發展,FPGA作為高性能計算加速器在大數據、
    發表于 10-22 07:12

    機器學習實戰:GNN加速器FPGA解決方案

    的場景。如上所述種種設計挑戰的存在,使得業界急需一種可以支持高度并發實時計算、巨大內存容量和帶寬、以及在數據中心范圍可擴展的GNN加速解決方案。5. GNN加速器FPGA設計方案Ac
    發表于 10-20 09:48

    一種基于FPGA的圖神經網絡加速器解決方案

    Achronix Speedster7t1500器件成為應對在GNN加速器設計中面臨的各種挑戰的完美解決方案。表1:GNN設計面臨的挑戰和Achronix Speedster7t1500 FP
    發表于 09-25 17:20

    英特爾推出深度學習加速器和新一代至強芯片抗衡英偉達

    Intel 在世界超算大會 SC16 推出深度學習推理加速器和新至強芯片 Xeon-E5-2699A 在今年的世界超算大會 SC16 上, Intel 發布了針對 AI 開發者的深度
    發表于 11-18 11:59 ?760次閱讀

    優化基于FPGA深度卷積神經網絡的加速器設計

    CNN已經廣泛用于圖像識別,因為它能模仿生物視覺神經的行為獲得很高識別準確率。最近,基于深度學習算法的現代應用高速增長進一步改善了研究和實現。特別地,多種基于FPGA平臺的深度CNN
    發表于 11-17 13:31 ?8116次閱讀

    FPGA深度學習領域的應用

    本文從硬件加速的視角考察深度學習FPGA,指出有哪些趨勢和創新使得這些技術相互匹配,并激發對FPGA如何幫助
    的頭像 發表于 06-28 17:31 ?6965次閱讀

    FPGA深度學習加速的技能總結

    深度學習加速器已經兩年了,從RTL設計到仿真驗證,以及相應的去了解了Linux驅動,深度學習壓縮方法等等。
    的頭像 發表于 03-08 16:29 ?8884次閱讀
    <b class='flag-5'>FPGA</b>做<b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>加速</b>的技能總結

    基于深度學習的矩陣乘法加速器設計方案

    為滿足深度學習推理中對不同規模矩陣乘法的計算需求,提出一種基于 Zynq soc平臺的整數矩陣乘法加速器。采用基于總線廣播的并行結構,充分利用片上數據的重用性并最小化中間累加結果的移動范圍,以降
    發表于 05-25 16:26 ?3次下載

    基于AdderNet的深度學習推理加速器

    電子發燒友網站提供《基于AdderNet的深度學習推理加速器.zip》資料免費下載
    發表于 10-31 11:12 ?0次下載
    基于AdderNet的<b class='flag-5'>深度</b><b class='flag-5'>學習</b>推理<b class='flag-5'>加速器</b>

    2022 谷歌出海創業加速器展示日: 見證入營企業成長收獲

    經歷三個月的沉淀, 迎來了展示日的大放異彩。 10 家入營企業的路演分享,帶來諸多啟發 —— 企業出海什么挑戰和難點? 加入谷歌出海創業加速器,團隊哪些收獲? 三個月的培訓和交流,
    的頭像 發表于 11-24 17:40 ?852次閱讀

    基于FPGA深度學習CNN加速器設計方案

    因為CNN的特有計算模式,通用處理對于CNN實現效率并不高,不能滿足性能要求。 因此,近來已經提出了基于FPGA,GPU甚至ASIC設計的各種加速器來提高CNN設計的性能。
    發表于 06-14 16:03 ?2387次閱讀
    基于<b class='flag-5'>FPGA</b>的<b class='flag-5'>深度</b><b class='flag-5'>學習</b>CNN<b class='flag-5'>加速器</b>設計方案

    Rapanda流加速器-實時流式FPGA加速器解決方案

    電子發燒友網站提供《Rapanda流加速器-實時流式FPGA加速器解決方案.pdf》資料免費下載
    發表于 09-13 10:17 ?0次下載
    Rapanda流<b class='flag-5'>加速器</b>-實時流式<b class='flag-5'>FPGA</b><b class='flag-5'>加速器</b>解決方案

    FPGA加速深度學習模型的案例

    FPGA(現場可編程門陣列)加速深度學習模型是當前硬件加速領域的一個熱門研究方向。以下是一些FPGA
    的頭像 發表于 10-25 09:22 ?351次閱讀
    真人百家乐官网代理合作| 怎样看百家乐官网路单| 百家乐官网21点| 哪个百家乐官网平台信誉好| 百家乐官网赌场分析网| 永利百家乐游戏| 全讯网3344555.com| 滦南县| 百家乐官网榄梯打法| 怎么赌百家乐官网能赢| 百家乐赌博娱乐城大全| 大发888娱乐场下载远程| 百家乐官网2号机器投注技巧| 百家乐视频游戏账号| 棋牌娱乐城注册送58| 百家乐官网获胜秘决百家乐官网获胜秘诀 | 做生意带什么招财| 大发888娱乐官网| 关于百家乐官网切入点| 做生意店铺风水好吗| 大发888海立方| 娱网百家乐官网补丁| 狮威百家乐娱乐网| 真钱百家乐官网送钱| 大连百家乐官网食品| 威尼斯人娱乐城免费注册| 百家乐官网经验博彩正网| 百家乐赢钱公式冯耕| 大赢家博彩网| 网页百家乐官网游戏下载| 澳门百家乐路单| 百家乐官网稳赢投注方法| 澳门百家乐有哪些| 百家乐官网作弊演示| 百家乐推二八杠| 淮阳县| 玩百家乐官网游戏的最高技巧 | 永利高a1娱乐城送彩金| 百家乐官网博之道娱乐城| 五张百家乐的玩法技巧和规则| 百家乐官网视频金币|