衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于xLSTM和Transformer的模型評(píng)估:xLSTM在“語(yǔ)言能力”的表現(xiàn)

微云疏影 ? 來(lái)源:綜合整理 ? 作者:綜合整理 ? 2024-05-13 10:31 ? 次閱讀

據(jù)了解,1997年,兩位科學(xué)家Sepp Hochreiter和Jürgen Schmidhuber共同創(chuàng)建了長(zhǎng)短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于改善循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的長(zhǎng)期記憶功能。

近期,Hochreiter在arXiv平臺(tái)發(fā)表論文,推出了一款新型的XLSTM(擴(kuò)展LSTM)架構(gòu),有效克服了傳統(tǒng)LSTM互聯(lián)網(wǎng)結(jié)構(gòu)“僅能按時(shí)間順序處理信息”的局限性,有望挑戰(zhàn)當(dāng)前熱門(mén)的Transformer架構(gòu)。

該論文指出,Hochreiter在新的XLSTM架構(gòu)中運(yùn)用了指數(shù)型門(mén)控循環(huán)網(wǎng)絡(luò),并引入了“sLSTM”和“mLSTM”兩種記憶規(guī)則,使神經(jīng)網(wǎng)絡(luò)能夠更高效地利用RAM,實(shí)現(xiàn)類似于Transformer的并行化處理。

研究團(tuán)隊(duì)通過(guò)對(duì)基于XLSTM和Transformer架構(gòu)的兩款模型進(jìn)行150億個(gè)Token的訓(xùn)練和測(cè)試,結(jié)果顯示,XLSTM表現(xiàn)更為出色,特別是在“語(yǔ)言能力”方面表現(xiàn)尤為突出。因此,研究人員預(yù)測(cè),未來(lái)XLSTM有可能與Transformer展開(kāi)競(jìng)爭(zhēng)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4779

    瀏覽量

    101166
  • RAM
    RAM
    +關(guān)注

    關(guān)注

    8

    文章

    1369

    瀏覽量

    115001
  • 架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    519

    瀏覽量

    25551
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

    內(nèi)為企業(yè)帶來(lái)效益。選擇模型時(shí),需要評(píng)估其性能表現(xiàn)。這包括模型的準(zhǔn)確性、響應(yīng)速度、對(duì)話流暢性、情感理解
    發(fā)表于 12-17 16:53

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    的表達(dá)方式和生成能力。通過(guò)預(yù)測(cè)文本中缺失的部分或下一個(gè)詞,模型逐漸掌握語(yǔ)言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大
    發(fā)表于 08-02 11:03

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來(lái),已經(jīng)自然語(yǔ)言
    的頭像 發(fā)表于 07-12 14:07 ?534次閱讀

    Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程

    自然語(yǔ)言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來(lái)最引人注目的技術(shù)之一。Transformer
    的頭像 發(fā)表于 07-10 11:48 ?2066次閱讀

    Transformer模型語(yǔ)音識(shí)別和語(yǔ)音生成中的應(yīng)用優(yōu)勢(shì)

    隨著人工智能技術(shù)的飛速發(fā)展,語(yǔ)音識(shí)別和語(yǔ)音生成作為人機(jī)交互的重要組成部分,正逐漸滲透到我們生活的各個(gè)方面。而Transformer模型,自其誕生以來(lái),憑借其獨(dú)特的自注意力機(jī)制和并行計(jì)算能力
    的頭像 發(fā)表于 07-03 18:24 ?1307次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問(wèn)世以來(lái),自然語(yǔ)言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本
    的頭像 發(fā)表于 07-02 11:41 ?1838次閱讀

    語(yǔ)言模型:原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

    解鎖 我理解的是基于深度學(xué)習(xí),需要訓(xùn)練各種數(shù)據(jù)知識(shí)最后生成自己的的語(yǔ)言理解和能力的交互模型。 對(duì)于常說(shuō)的RNN是處理短序列的數(shù)據(jù)時(shí)表現(xiàn)出色,耳真正厲害的是
    發(fā)表于 05-12 23:57

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    類任務(wù)上表現(xiàn)出色,甚至零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務(wù),類似于人類的系統(tǒng)2,如數(shù)字推理等。然而,隨著參數(shù)量的增加,大語(yǔ)言模型在這類任務(wù)上并未出現(xiàn)質(zhì)的飛
    發(fā)表于 05-07 17:21

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

    度、多角度的解釋或回答。通過(guò)這些評(píng)測(cè)任務(wù),我們能夠全面而深入地了解模型中文語(yǔ)言理解方面的實(shí)際能力。 常識(shí)百科類評(píng)測(cè)任務(wù):此類評(píng)測(cè)任務(wù)主要評(píng)估
    發(fā)表于 05-07 17:12

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    處理各種自然語(yǔ)言任務(wù)時(shí)都表現(xiàn)出了驚人的能力。這促使一個(gè)新的研究方向誕生——基于Transformer 的預(yù)訓(xùn)練語(yǔ)言
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    我也不打算把網(wǎng)上相關(guān)的信息總結(jié)一下,這樣的話,工作量很大。 我主要看了-大語(yǔ)言模型基礎(chǔ)技術(shù)這節(jié) 大語(yǔ)言模型(Large Language
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    了隨著模型規(guī)模擴(kuò)大,其性能和能力提升速度的變化規(guī)律。這一定律深度學(xué)習(xí)中表現(xiàn)模型規(guī)模與性能改進(jìn)之間的關(guān)系,通常表明擴(kuò)大
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

    處理中預(yù)訓(xùn)練架構(gòu)Transformer,以及這些技術(shù)現(xiàn)實(shí)世界中的如何應(yīng)用。通過(guò)具體案例的分析,作者展示了大語(yǔ)言模型解決實(shí)際問(wèn)題中的強(qiáng)大
    發(fā)表于 04-30 15:35

    模型戰(zhàn)略評(píng)估系統(tǒng)中的應(yīng)用有哪些

    智慧華盛恒輝大模型,顧名思義,是指參數(shù)規(guī)模超過(guò)千萬(wàn)的機(jī)器學(xué)習(xí)模型。這些模型主要應(yīng)用于自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等領(lǐng)域,大場(chǎng)景下的
    的頭像 發(fā)表于 04-24 13:48 ?323次閱讀

    基于Transformer模型的壓縮方法

    基于Transformer架構(gòu)的大型模型人工智能領(lǐng)域中發(fā)揮著日益重要的作用,特別是自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域。
    的頭像 發(fā)表于 02-22 16:27 ?713次閱讀
    基于<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的壓縮方法
    澳门百家乐官网常赢打法| bet365网站地址器| 百家乐官网路单规则| 天堂鸟百家乐的玩法技巧和规则 | 澳门百家乐官网实战| 百家乐筹码套装100片| 伯爵百家乐官网赌场娱乐网规则| 锦江国际娱乐| 百家乐娱乐网开户| 找查百家乐官网玩法技巧| 六合彩印刷图库| 百家乐决战推筒子| 百家乐官网稳赢技法| 大嘴棋牌官方下载| 百家乐论坛博彩拉| 七胜百家乐官网娱乐网| 淘宝皇冠网店| 万宝路百家乐的玩法技巧和规则| 宝格丽百家乐官网娱乐城| 全讯网开奖现场| 百家乐怎么玩高手| 百家乐官网下注瀛钱法| 大发888娱乐场存款168| 百家乐庄闲必胜手段| 菲律宾百家乐官网开户| 博久网| E世博百家乐的玩法技巧和规则| 百家乐官网计划软件| 7人百家乐官网桌子| 集结号棋牌下载| 百家乐娱乐网网77scs| 吕百家乐官网赢钱律| 百家乐官网娱乐求指点呀| 百乐坊娱乐城官网| KK百家乐的玩法技巧和规则| 百家乐官网赌博筹| 网上百家乐官网正规代理| 拉斯维加斯| 微信百家乐群二维码| 太阳城百家乐下载网址| 澳门百家乐官网的玩法技巧和规则 |