編者按:深度卷積神經(jīng)網(wǎng)絡對視覺系統(tǒng)來說是個不錯的模型,但這些靜態(tài)系統(tǒng)不能解釋現(xiàn)實視覺反應中的短暫動態(tài)行為。于是神經(jīng)科學家們建造了一個基于任務的深度循環(huán)網(wǎng)絡,加入循環(huán)單元可以解決更困難的視覺問題。以下是論智的編譯。
摘要
前饋卷積神經(jīng)網(wǎng)絡(CNN)是目前最先進的目標分類任務工具,例如ImageNet。另外,他們是靈長類動物大腦中視覺系統(tǒng)中精準定量平均響應時間的模型。然而,生物視覺系統(tǒng)的兩種普遍存在的結構特征是典型CNN不具備的,即皮質(zhì)區(qū)域內(nèi)的局部循環(huán),以及下游區(qū)域到上游區(qū)域的遠距離反饋。在這篇文章中,我們研究了循環(huán)結構在提高分類性能時的作用,我們發(fā)現(xiàn),在ImageNet任務中,標準的循環(huán)形式(vanilla RNN和LSTM)無法在深度CNN中達到良好表現(xiàn)。相反,能將兩種結構特征——bypassing和gating——結合起來的結構能將任務精確度極大地提升。
我們將這些設計原則應用在數(shù)千個模型中的自動搜索上,它們確定了局部循環(huán)單元和遠距離反饋連接對目標辨認很有用。另外,這些經(jīng)過任務優(yōu)化的卷積RNN能比反饋網(wǎng)絡更好地解釋靈長類動物神經(jīng)系統(tǒng)中神經(jīng)元的活動,說明大腦的循環(huán)連接在執(zhí)行不同的視覺動作時非常重要。
背景介紹
大腦的傳感器系統(tǒng)必須在含有噪音的復雜感知數(shù)據(jù)中檢測出有意義的模式。視覺環(huán)境可以揭示物體正面或負面的價值,例如食物種類、危險的信號或難忘的人。然而這些信號在不同場景中的位置、姿勢、背景和前景都相差很大,所以從低屬性圖像中很難辨別出目標物體。
最近的研究表明,針對任務優(yōu)化的深度卷積神經(jīng)網(wǎng)絡(CNN)是靈長類動物大腦的視覺編碼精確的量化模型。CNN經(jīng)過訓練,可以識別ImageNet中的物體,并且能比其他模型更好地解釋視覺系統(tǒng)中的神經(jīng)元反饋。模型的各個卷積層分辨提供不同視覺區(qū)域的線性預測。
但是,靈長動物的視覺系統(tǒng)有些結構并沒有被前饋CNN完全模仿,即皮質(zhì)區(qū)域的局部循環(huán)連接和不同區(qū)域的遠距離連接。目前還不清楚循環(huán)的作用,有科學家猜想循環(huán)是用來填補缺失的數(shù)據(jù),或進行從上到下基于注意力的特征調(diào)整。
雖然經(jīng)過增強的有循環(huán)結構的CNN可以用來解決相對簡單的遮擋或預測任務,但這些模型既不能適應復雜的任務(前饋CNN可以解決),也不能解釋神經(jīng)反饋。事實上,由于目標識別的復雜性和多樣性,ImageNet中的很多圖片質(zhì)量都參差不齊,所以有可能要用到上述的循環(huán)處理機制。而且最近很多對ImageNet高效的解決方法都提出在多個圖層之中用同樣的結構基序。于是我們選擇研究循環(huán)結構究竟能否提高模型在ImageNet數(shù)據(jù)集上的分類表現(xiàn)。雖然其他工作用CNN的輸出最為RNN的輸入解決視覺任務,在這里我們將循環(huán)結構和CNN本身結合,因為這類結構在神經(jīng)科學中是非常常見的。
模型結構
為了研究卷積RNN的空間結構,我們用TensorFlow庫增強標準的、有局部和遠距離循環(huán)結構的CNN,如圖所示:
卷積循環(huán)網(wǎng)絡中含有局部循環(huán)和遠程前饋連接的結合
在卷積RNN的每個圖層中,來自較高層的前饋輸入被重新修改尺寸,以匹配前饋輸入的空間維度。兩種類型的輸入都由標準的2D卷積處理。如果該層有任何局部循環(huán),則輸出會輸入到下一個循環(huán)單元。
在這項工作中,所有形式的循環(huán)都向前饋基礎模型中添加了參數(shù)。由于這樣可以提升模型的性能,我們訓練了兩種與卷積RNN相對照的模型:
有更多卷積過濾層的前饋模型(更寬)或者更多層的模型(更深),以匹配循環(huán)模型中參數(shù)的數(shù)量;
將卷積模型展開后進行復制,其中的參數(shù)數(shù)量和原始的卷積RNN一樣。
實驗結果
新型RNN結構提高了任務處理性能
我們首先測試了有著標準RNN單位的增強CNN(例如vanilla RNN和LSTM)能夠提高在ImageNet目標物體辨認上的表現(xiàn)。二者對比如圖所示:
結果發(fā)現(xiàn)在類似AlexNet這樣的六層前饋上,精確度稍有提升。
但這里的循環(huán)結構存在兩個問題,首先,由于單一參數(shù)數(shù)量的增多,這些卷積RNN并沒有檢測性能提升了多少。其次,將前饋模型做得更寬或更深,比單純地增加標準RNN單元性能提升得更多,參數(shù)卻更少。這說明標準RNN結構雖然適用于很多種任務,但是不適合深度CNN中的任務。
我們研究后發(fā)現(xiàn)這是因為標準RNN中缺少兩種關鍵屬性:
Gating,即隱藏狀態(tài)的值決定下一步的輸入有多少能通過、保留或丟棄;
Bypassing,即一個零初始化的隱藏狀態(tài)允許前饋輸入通過下一層。
重要的是,這兩種特征都是為了解決梯度消失的問題。于是我們將兩種特征部署到循環(huán)結構中。具體結果如圖:
之后經(jīng)過對更深的循環(huán)結構進行超參數(shù)優(yōu)化后,我們用卷積RNN模擬了靈長類動物腹流(參與物體識別)神經(jīng)。
結語
實際上,這篇論文詳細介紹了CNN中的循環(huán)單元能在目標識別中有效提高性能,我們的發(fā)現(xiàn)能提高不同的局部循環(huán)結構對應大腦中不同的行為的概率。我們相信通過將該方法應用到CNN上,我們能提高現(xiàn)有的很多方法的性能。未來的實驗將探尋不同的任務是否能在卷積RNN對神經(jīng)的反饋上取代監(jiān)督目標辨別。另外還將測試模型能否低于其他形式的噪聲。
-
傳感器
+關注
關注
2553文章
51390瀏覽量
756582 -
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4779瀏覽量
101169 -
視覺系統(tǒng)
+關注
關注
3文章
336瀏覽量
30847
原文標題:任務導向的視覺系統(tǒng)卷積循環(huán)模型
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論