基于xLSTM和Transformer的模型評(píng)估：xLSTM在“語(yǔ)言能力”的表現(xiàn)

據(jù)了解，1997年，兩位科學(xué)家Sepp Hochreiter和Jürgen Schmidhuber共同創(chuàng)建了長(zhǎng)短期記憶（LSTM）神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，用于改善循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的長(zhǎng)期記憶功能。

近期，Hochreiter在arXiv平臺(tái)發(fā)表論文，推出了一款新型的XLSTM（擴(kuò)展LSTM）架構(gòu)，有效克服了傳統(tǒng)LSTM互聯(lián)網(wǎng)結(jié)構(gòu)“僅能按時(shí)間順序處理信息”的局限性，有望挑戰(zhàn)當(dāng)前熱門(mén)的Transformer架構(gòu)。

該論文指出，Hochreiter在新的XLSTM架構(gòu)中運(yùn)用了指數(shù)型門(mén)控循環(huán)網(wǎng)絡(luò)，并引入了“sLSTM”和“mLSTM”兩種記憶規(guī)則，使神經(jīng)網(wǎng)絡(luò)能夠更高效地利用RAM，實(shí)現(xiàn)類似于Transformer的并行化處理。

研究團(tuán)隊(duì)通過(guò)對(duì)基于XLSTM和Transformer架構(gòu)的兩款模型進(jìn)行150億個(gè)Token的訓(xùn)練和測(cè)試，結(jié)果顯示，XLSTM表現(xiàn)更為出色，特別是在“語(yǔ)言能力”方面表現(xiàn)尤為突出。因此，研究人員預(yù)測(cè)，未來(lái)XLSTM有可能與Transformer展開(kāi)競(jìng)爭(zhēng)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4779

瀏覽量
101166
RAM

RAM

+關(guān)注

關(guān)注
8

文章
1369

瀏覽量
115001
架構(gòu)

架構(gòu)

+關(guān)注

關(guān)注
1

文章
519

瀏覽量
25551

評(píng)論

相關(guān)推薦

【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

內(nèi)為企業(yè)帶來(lái)效益。在選擇模型時(shí)，需要評(píng)估其性能表現(xiàn)。這包括模型的準(zhǔn)確性、響應(yīng)速度、對(duì)話流暢性、情感理解能

發(fā)表于 12-17 16:53

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

的表達(dá)方式和生成能力。通過(guò)預(yù)測(cè)文本中缺失的部分或下一個(gè)詞，模型逐漸掌握語(yǔ)言的規(guī)律和特征。常用的模型結(jié)構(gòu) Transformer架構(gòu)：大

發(fā)表于 08-02 11:03

Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型，自其提出以來(lái)，已經(jīng)在自然語(yǔ)言

發(fā)表于 07-12 14:07 ?534次閱讀

Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程

在自然語(yǔ)言處理（NLP）領(lǐng)域，Transformer模型以其卓越的性能和廣泛的應(yīng)用前景，成為了近年來(lái)最引人注目的技術(shù)之一。Transformer

發(fā)表于 07-10 11:48 ?2066次閱讀

Transformer模型在語(yǔ)音識(shí)別和語(yǔ)音生成中的應(yīng)用優(yōu)勢(shì)

隨著人工智能技術(shù)的飛速發(fā)展，語(yǔ)音識(shí)別和語(yǔ)音生成作為人機(jī)交互的重要組成部分，正逐漸滲透到我們生活的各個(gè)方面。而Transformer模型，自其誕生以來(lái)，憑借其獨(dú)特的自注意力機(jī)制和并行計(jì)算能力，在

發(fā)表于 07-03 18:24 ?1307次閱讀

使用PyTorch搭建Transformer模型

Transformer模型自其問(wèn)世以來(lái)，在自然語(yǔ)言處理（NLP）領(lǐng)域取得了巨大的成功，并成為了許多先進(jìn)模型（如BERT、GPT等）的基礎(chǔ)。本

發(fā)表于 07-02 11:41 ?1838次閱讀

大語(yǔ)言模型：原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

解鎖我理解的是基于深度學(xué)習(xí)，需要訓(xùn)練各種數(shù)據(jù)知識(shí)最后生成自己的的語(yǔ)言理解和能力的交互模型。對(duì)于常說(shuō)的RNN是處理短序列的數(shù)據(jù)時(shí)表現(xiàn)出色，耳真正厲害的是

發(fā)表于 05-12 23:57

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

類任務(wù)上表現(xiàn)出色，甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務(wù)，類似于人類的系統(tǒng)2，如數(shù)字推理等。然而，隨著參數(shù)量的增加，大語(yǔ)言模型在這類任務(wù)上并未出現(xiàn)質(zhì)的飛

發(fā)表于 05-07 17:21

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

度、多角度的解釋或回答。通過(guò)這些評(píng)測(cè)任務(wù)，我們能夠全面而深入地了解模型在中文語(yǔ)言理解方面的實(shí)際能力。常識(shí)百科類評(píng)測(cè)任務(wù)：此類評(píng)測(cè)任務(wù)主要評(píng)估

發(fā)表于 05-07 17:12

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

處理各種自然語(yǔ)言任務(wù)時(shí)都表現(xiàn)出了驚人的能力。這促使一個(gè)新的研究方向誕生——基于Transformer 的預(yù)訓(xùn)練語(yǔ)言

發(fā)表于 05-05 12:17

【大語(yǔ)言模型：原理與工程實(shí)踐】核心技術(shù)綜述

我也不打算把網(wǎng)上相關(guān)的信息在總結(jié)一下，這樣的話，工作量很大。我主要看了-大語(yǔ)言模型基礎(chǔ)技術(shù)這節(jié) 大語(yǔ)言模型（Large Language

發(fā)表于 05-05 10:56

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

了隨著模型規(guī)模擴(kuò)大，其性能和能力提升速度的變化規(guī)律。這一定律在深度學(xué)習(xí)中表現(xiàn)為模型規(guī)模與性能改進(jìn)之間的關(guān)系，通常表明擴(kuò)大

發(fā)表于 05-04 23:55

【大語(yǔ)言模型：原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

處理中預(yù)訓(xùn)練架構(gòu)Transformer，以及這些技術(shù)在現(xiàn)實(shí)世界中的如何應(yīng)用。通過(guò)具體案例的分析，作者展示了大語(yǔ)言模型在解決實(shí)際問(wèn)題中的強(qiáng)大

發(fā)表于 04-30 15:35

大模型在戰(zhàn)略評(píng)估系統(tǒng)中的應(yīng)用有哪些

智慧華盛恒輝大模型，顧名思義，是指參數(shù)規(guī)模超過(guò)千萬(wàn)的機(jī)器學(xué)習(xí)模型。這些模型主要應(yīng)用于自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等領(lǐng)域，在大場(chǎng)景下的

發(fā)表于 04-24 13:48 ?323次閱讀

基于Transformer模型的壓縮方法

基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用，特別是在自然語(yǔ)言處理（NLP）和計(jì)算機(jī)視覺(jué)（CV）領(lǐng)域。

發(fā)表于 02-22 16:27 ?713次閱讀

微云疏影
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁(yè)

Hot 對(duì)比各家主流MCU指標(biāo)，國(guó)產(chǎn)MCU真的品質(zhì)不佳？
Hot 模擬信號(hào)和數(shù)字信號(hào)的區(qū)別和特點(diǎn)

New 方正電機(jī)成為小鵬汽車(chē)驅(qū)動(dòng)電機(jī)供應(yīng)商，總需求量預(yù)計(jì)達(dá)35萬(wàn)臺(tái)
New 雷諾-吉利動(dòng)力總成合資企業(yè)HORSE在倫敦成立

精選推薦
更多

文章

資料

帖子

穿過(guò)幻覺(jué)荒野，大模型RAG越野賽

腦極體
8天前

2185 閱讀

春節(jié)返鄉(xiāng)，記得帶上這全國(guó)34個(gè)省的AI人脈……

腦極體
8天前

2204 閱讀

先進(jìn)電動(dòng)汽車(chē)的電壓轉(zhuǎn)換策略在48V電動(dòng)汽車(chē)供電網(wǎng)絡(luò)中部署區(qū)域架構(gòu)

Vicor
12天前

2859 閱讀

解析汽車(chē)拋負(fù)載Load Dump：load dump產(chǎn)生原因與TVS并聯(lián)保護(hù)方案

力特奧維斯Littelfuse
12天前

2797 閱讀

泰克示波器在直流充電樁電流紋波測(cè)試中的應(yīng)用

泰克科技
12天前

2681 閱讀

PCB布線設(shè)計(jì)-模擬和數(shù)字布線的異同

yuxiao_ping
174

免費(fèi)

0下載

【HarmonyOS】智能硬件開(kāi)發(fā)3-HarmonyOS內(nèi)核設(shè)計(jì)

o_dream
2.79 MB

免費(fèi)

11下載

帶NFC的PCB名片

李雪
0.21 MB

2積分

3下載

NFC天線設(shè)計(jì)說(shuō)明

姚小熊27
0.51 MB

免費(fèi)

37下載

3W帶立體聲耳機(jī)輸出模式的雙聲道音頻功率放大器HXJ2038數(shù)據(jù)手冊(cè)

楊豐奎
0.49 MB

2積分

1下載

RK3588 原廠設(shè)計(jì)資料首次公開(kāi)（規(guī)格書(shū)+原理圖+設(shè)計(jì)說(shuō)明+DDR參考），速搶

h1654155861.7375
23小時(shí)前

205 閱讀

【貝啟科技BQ3568HM開(kāi)源鴻蒙開(kāi)發(fā)板深度試用報(bào)告】2-上電體驗(yàn)

jf_36765885
23小時(shí)前

196 閱讀

推薦一款三相三線制電源模組

硬件設(shè)計(jì)小菜
23小時(shí)前

375 閱讀

rockchip rk3576開(kāi)發(fā)設(shè)計(jì)資料

h1654155861.7375
23小時(shí)前

319 閱讀

反激開(kāi)關(guān)電源工作原理

jf_84115621
23小時(shí)前

274 閱讀

推薦專欄
更多

衡阳派盒市场营销有限公司

搜索歷史

基于xLSTM和Transformer的模型評(píng)估：xLSTM在“語(yǔ)言能力”的表現(xiàn)

評(píng)論

【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程

Transformer模型在語(yǔ)音識(shí)別和語(yǔ)音生成中的應(yīng)用優(yōu)勢(shì)

使用PyTorch搭建Transformer模型

大語(yǔ)言模型：原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

【大語(yǔ)言模型：原理與工程實(shí)踐】核心技術(shù)綜述

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

【大語(yǔ)言模型：原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

大模型在戰(zhàn)略評(píng)估系統(tǒng)中的應(yīng)用有哪些

基于Transformer模型的壓縮方法