六合彩资料免费公开,棋牌游戏诚招代理商,阳光在线代理开户(中国)·官方网站

本文重點解釋如何訓練卷積神經網絡以解決實際問題。

01神經網絡的訓練過程

CIFAR網絡由不同層的神經元組成。如圖1所示，32 × 32像素的圖像數據被呈現給網絡并通過網絡層傳遞。CNN處理過程的第一步就是提取待區分對象的特性和結構，這需要借助濾波器矩陣實現。設計人員對CIFAR網絡進行建模后，由于最初無法確定這些濾波器矩陣，因此這個階段的網絡無法檢測模式和對象。

為此，首先需要確定濾波器矩陣的所有參數，以最大限度地提高檢測對象的精度或最大限度地減少損失函數。這個過程就稱為神經網絡訓練。前文所描述的常見應用在開發和測試期間只需對網絡進行一次訓練就可以使用，無需再調整參數。如果系統對熟悉的對象進行分類，則無需額外訓練；當系統需要對全新的對象進行分類時，才需要額外進行訓練。

進行網絡訓練需要使用訓練數據集，并使用類似的一組測試數據集來測試網絡的精度。例如CIFAR-10網絡數據集為十個對象類的圖像集合：飛機、汽車、鳥、貓、鹿、狗、青蛙、馬、輪船和卡車。我們必須在訓練CNN之前對這些圖像進行命名，這也是人工智能應用開發過程中最為復雜的部分。本文討論的訓練過程采用反向傳播的原理，即向網絡連續展示大量圖像，并且每次都同時傳送一個目標值。本例的目標值為圖像中相關的對象類。在每次顯示圖像時，濾波器矩陣都會被優化，這樣對象類的目標值就會和實際值相匹配。完成此過程的網絡就能夠檢測出訓練期間從未看到過的圖像中的對象。

02過擬合和欠擬合

在神經網絡的建模過程中經常會出現的問題是：神經網絡應該有多少層，或者是神經網絡的濾波器矩陣應該有多大。回答這個問題并非易事，因此討論網絡的過擬合和欠擬合至關重要。過擬合由模型過于復雜以及參數過多而導致。我們可以通過比較訓練數據集和測試數據集的損失來確定預測模型與訓練數據集的擬合程度。如果訓練期間損失較低并且在向網絡呈現從未顯示過的測試數據時損失過度增加，這就強烈表明網絡已經記住了訓練數據而不是在實施模式識別。此類情況主要發生在網絡的參數存儲空間過大或者網絡的卷積層過多的時候。這種情況下應當縮小網絡規模。

03損失函數和訓練算法

學習分兩個步驟進行。第一步，向網絡展示圖像，然后由神經元網絡處理這些圖像生成一個輸出矢量。輸出矢量的最大值表示檢測到的對象類，例如示例中的"狗"，該值不一定是正確的。這一步稱為前向傳播。

目標值與輸出時產生的實際值之間的差值稱為損失，相關函數則稱為損失函數。網絡的所有要素和參數均包含在損失函數中。神經網絡的學習過程旨在以最小化損失函數的方式定義這些參數。這種最小化可通過反向傳播的過程實現。在反向傳播的過程中，輸出產生的偏置（損失 = 目標值-實際值）通過網絡的各層反饋，直至達到網絡的起始層。

因此，前向傳播和反向傳播在訓練過程中產生了一個可以逐步確定濾波器矩陣參數的循環。這種循環過程會不斷重復，直至損失值降至一定程度以下。

04優化算法、梯度和梯度下降法

為說明訓練過程，圖3顯示了一個包含x和y兩個參數的損失函數的示例，這里z軸對應于損失。如果我們仔細查看該損失函數的三維函數圖，我們就會發現這個函數有一個全局最小值和一個局部最小值。

目前，有大量數值優化算法可用于確定權重和偏置。其中，梯度下降法最為簡單。梯度下降法的理念是使用梯度算子在逐步訓練的過程中找到一條通向全局最小值的路徑，該路徑的起點從損失函數中隨機選擇。梯度算子是一個數學運算符，它會在損失函數的每個點生成一個梯度矢量。該矢量的方向指向函數值變化最大的方向，幅度對應于函數值的變化程度。在圖3的函數中，右下角（紅色箭頭處）由于表面平坦，因此梯度矢量的幅度較小。而接近峰值時的情況則完全不同。此處矢量（綠色箭頭）的方向急劇向下，并且由于此處高低差明顯，梯度矢量的幅度也較大。

因此我們可以利用梯度下降法從任意選定的起點開始以迭代的方式尋找下降至山谷的最陡峭路徑。這意味著優化算法會在起點計算梯度，并沿最陡峭的下降方向前進一小步。之后算法會重新計算該點的梯度，繼續尋找創建一條從起點到山谷的路徑。這種方法的問題在于起點并非是提前定義的，而是隨機選擇的。在我們的三維地圖中，某些細心的讀者會將起點置于函數圖左側的某個位置，以確保路徑的終點為全局最小值（如藍色路徑所示）。其他兩個路徑（黃色和橙色）要么非常長，要么終點位于局部最小值。但是，算法必須對成千上萬個參數進行優化，顯然起點的選擇不可能每次都碰巧正確。在具體實踐中，這種方法用處不大。因為所選擇的起點可能會導致路徑（即訓練時間）較長，或者目標點并不位于全局最小值，導致網絡的精度下降。

因此，為避免上述問題，過去幾年已開發出大量可作為替代的優化算法。一些替代的方法包括隨機梯度下降法、動量法、AdaGrad方法、RMSProp方法、Adam方法等。鑒于每種算法都有其特定的優缺點，實踐中具體使用的算法將由網絡開發人員決定。

05訓練數據

在訓練過程中，我們會向網絡提供標有正確對象類的圖像，如汽車、輪船等。本例使用了已有的 CIFAR-10 dataset。當然，在具體實踐中，人工智能可能會用于識別貓、狗和汽車之外的領域。這可能需要開發新應用，例如檢測制造過程中螺釘的質量必須使用能夠區分好壞螺釘的訓練數據對網絡進行訓練。創建此類數據集極其耗時費力，往往是開發人工智能應用過程中成本最高的一步。編譯完成的數據集分為訓練數據集和測試數據集。訓練數據集用于訓練，而測試數據則用于在開發過程的最后檢查訓練好的網絡的功能。

原文轉自亞德諾半導體

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4779

瀏覽量
101169
cnn

cnn

+關注

關注
3

文章
353

瀏覽量
22334

衡阳派盒市场营销有限公司

搜索歷史

【世說知識】干貨速來！詳析卷積神經網絡(CNN)的特性和應用

評論

卷積神經網絡有何用途卷積神經網絡通常運用在哪里

卷積神經網絡的基本概念、原理及特點

BP神經網絡和卷積神經網絡的關系

循環神經網絡和卷積神經網絡的區別

卷積神經網絡的實現原理

bp神經網絡和卷積神經網絡區別是什么

卷積神經網絡分類方法有哪些

卷積神經網絡的基本結構和工作原理

cnn卷積神經網絡分類有哪些

cnn卷積神經網絡三大特點是什么

卷積神經網絡訓練的是什么

卷積神經網絡的原理與實現

卷積神經網絡cnn模型有哪些

卷積神經網絡的原理是什么

卷積神經網絡和bp神經網絡的區別