據(jù)了解,1997年,兩位科學(xué)家Sepp Hochreiter和Jürgen Schmidhuber共同創(chuàng)建了長(zhǎng)短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于改善循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的長(zhǎng)期記憶功能。
近期,Hochreiter在arXiv平臺(tái)發(fā)表論文,推出了一款新型的XLSTM(擴(kuò)展LSTM)架構(gòu),有效克服了傳統(tǒng)LSTM互聯(lián)網(wǎng)結(jié)構(gòu)“僅能按時(shí)間順序處理信息”的局限性,有望挑戰(zhàn)當(dāng)前熱門(mén)的Transformer架構(gòu)。
該論文指出,Hochreiter在新的XLSTM架構(gòu)中運(yùn)用了指數(shù)型門(mén)控循環(huán)網(wǎng)絡(luò),并引入了“sLSTM”和“mLSTM”兩種記憶規(guī)則,使神經(jīng)網(wǎng)絡(luò)能夠更高效地利用RAM,實(shí)現(xiàn)類似于Transformer的并行化處理。
研究團(tuán)隊(duì)通過(guò)對(duì)基于XLSTM和Transformer架構(gòu)的兩款模型進(jìn)行150億個(gè)Token的訓(xùn)練和測(cè)試,結(jié)果顯示,XLSTM表現(xiàn)更為出色,特別是在“語(yǔ)言能力”方面表現(xiàn)尤為突出。因此,研究人員預(yù)測(cè),未來(lái)XLSTM有可能與Transformer展開(kāi)競(jìng)爭(zhēng)。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4779瀏覽量
101166 -
RAM
+關(guān)注
關(guān)注
8文章
1369瀏覽量
115001 -
架構(gòu)
+關(guān)注
關(guān)注
1文章
519瀏覽量
25551
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論