衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一個真實閑聊多模態數據集TikTalk

深度學習自然語言處理 ? 來源:NLP工作站 ? 2023-02-09 09:31 ? 次閱讀

介紹

隨著大量預訓練語言模型在文本對話任務中的出色表現,以及多模態的發展,在對話中引入多模態信息已經引起了大量學者的關注。目前已經提出了各種各樣的多模態對話數據集,主要來自電影、電視劇、社交媒體平臺等,但這些數據與真實世界的日常聊天對話之間還是存在一些差距。

對話形式過于同質化。視頻中的現場評論缺乏明確背景,更偏向于評論,并充斥著重復的數據用來活躍氣氛。而從影視劇中提取出來的對話內容或解說員根據指定圖片提出的對話內容,都不是現實對話場景中自然生成的聊天,而是為了推動情節發展設計的一些人物臺詞或高度依賴形象。

缺乏對話的時間順序。現實世界的多模態對話場景可能包含具有時間順序的不同上下文,而目前大多數數據集中的靜態圖片所能提供的信息有限,限制了對話參與者在主題方面的多樣性。并且不同的語言語境中存在著獨特的表達方式和流行文化,很難進行翻譯或遷移到其他語言。

588c0238-a808-11ed-bfe3-dac502259ad0.png

因此,該論文提出了具有獨特特色的中文多模態對話數據集-TikTalk。TikTalk是基于視頻的真實世界人類聊天語料庫,是開放域的,并由用戶自發生成非故意創建的數據集。其中,與圖像、音頻和外部知識相關的回復占比分別為42%、10%和34%,如圖1(a)所示,聊天源于視頻內容,圖1(b)中的“其他表演”和舞蹈分析需要一些外部知識,圖1(c)中的對話建立在音頻內容之上。

58a35c12-a808-11ed-bfe3-dac502259ad0.png

最后采用排名、相關性和多樣性三種度量指標對現有生成模型進行分析,發現模型與人類表現仍有很大差距,在TikTalk數據集上有相當大的改進空間。

TikTalk Dataset

TikTalk數據集從抖音上采集,其抖音擁有超過25個大類的視頻,如教育、美食、游戲、旅游、娛樂等。每個視頻都有作者提供的標題和用戶的評論。用戶可以在視頻和一級評論下進行進一步的討論,這接近于現實世界面對面的多模態聊天場景。

Data Construction

該論文收集了2021年在抖音上發布的視頻,以及標題、評論和回復。為了保護隱私,沒有抓取任何用戶信息。由于視頻基數大,視頻質量良莠不齊,大部分視頻只有一級評論,無法構成對話語料庫。由于視頻高贊、評論高贊表示用戶評分高,因此在爬取數據時通過點贊數過濾低質量的視頻和評論。

數據清理時,用正則表達式過濾掉句子中無用的內容,例如:“@某人”、重復的詞語、以及一些不道德的言論等;此外,評論中帶有的表情符號,通常可以表明用戶的情緒,因此,從對話中提取它們,并作為附加信息。

Data Statistics

該論文共爬取153340個視頻,最終獲取38703個視頻和367670個對話來構建TikTalk數據集。將訓練集、驗證集和測試集按照35703、1000和2000進行劃分,詳細統計數據見表2。

58b595ee-a808-11ed-bfe3-dac502259ad0.png

可以看出,視頻平均長度為34.03s,提供了豐富的視頻和音頻信息;每段對話的平均輪數為2.25,由于對話的文本上下文較短,回復更有可能來自視頻或外部知識。

Data Analysis

TikTalk數據集有如下幾個特征:

高度自發和自由,對話是由用戶觀看視頻后發起,沒有任何的預先的意圖及指導,類似于現實世界中的日常閑聊。

多種模式,對話上下文包括相關的圖像、音頻和文本,提供了更多樣化的信息來源,同時也對聊天場景進行了更多的限制,提高了回答的可信度標準。

開放領域的,由于社交平臺是開放域的,討論話題也十分豐富。

觀察數據發現,對話回復中經常包含與上下文信息相關的詞語,例如:圖1(a)中的“it”為視頻中的“海鷗”,圖1(c)中討論了音頻描述的故事,圖1(b)中的回復中為上下文觀點,并分析了視頻外的其他節目,與個人經驗及常識相關。因此,該論文分析了數據及中數據與各種信息相關的響應占比,包括視頻中的視覺內容和音頻內容、文本內容及隱形的外部知識。采用眾包的方式進行數據標注,并選擇另外其他三個具有代表性的對話數據集(每個數據集隨機選取300個樣本)進行對比。

從回復中提取名詞和代詞,要求標注人員判斷這些詞語或完整的回復是否是指:(1)視頻上下文;(2)音頻上下文;(3)文本上下文;(4)隱藏外部知識;(5)其他。并且,回復可以涉及多種模式的信息。

四種數據的比較如圖2(a)所示。TikTalk數據除去文本上下文和外部知識后,信息源占比最高,表示視頻中的圖像和音頻可以提供更多的信息。來自外部知識的回復比例最高(約33%,說明),說明多模態上下文更豐富時,會引入更多與當前對話相關的新信息。

58f0acc4-a808-11ed-bfe3-dac502259ad0.png

進一步探究IGC和TikTalk之間的差異,研究當對話輪數數增加時,IGC和TikTalk對不同上下文的依賴性,如圖2(b)和(c)所示。IGC數據集中圖像與對話的比例顯著下降,而TikTalk數據集中沒有這種趨勢。可能是因為IGC的每個對話中只使用一個圖像,隨著時間的推移,可用的信息越來越少。

Experiments

采用三個自動指標(相關性、排序、多樣性),從多個角度評估模型在TikTalk上的性能,

相關性:針對模型生成的回復,與5個金標準計算BLEU-2、BLEU-4 、Meteor、Rouge-L和CIDEr。

排序:每段對話構建一個100個樣本的候選集,其中包括5個金標準和95個隨機選擇的錯誤回復。在推理階段,模型根據生成每個回復的對數似然分數降序對候選集進行排序。計算Recall@K和Mean Rank。

多樣性:計算回復的Dist-1和Dist-2指標。

從不同的任務和設置中評估一些最先進的對話模型,包括:Livebot、DialoGPT、Maria、Maria-Audio、Maria-C3KG等。為了適應TikTalk的特點,在現有的基于圖像的對話模型中引入音頻和外部知識作為輸入,并分別對模型的性能進行評估。

實驗結果如表3所示,可以看出TikTalk與以前的任務和數據集有很大不同,需要更強大的多模態對話模型。

590947b6-a808-11ed-bfe3-dac502259ad0.png

從測試集和上述基線模型生成結果中選擇了一些數據示例,對比結果如圖3所示。由于視頻場景和用戶個性的多樣性,TikTalk數據集需要復雜的理解和推理能力。雖然部分基線偶爾可以產生一些合理的響應,但它們遠遠不能滿足現實世界多模式對話的期望。

591d544a-a808-11ed-bfe3-dac502259ad0.png

總結

中文數據集,且用且珍惜。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • IGCT
    +關注

    關注

    2

    文章

    28

    瀏覽量

    16125
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24834

原文標題:中文多模態對話數據集-TikTalk

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    體驗MiniCPM-V 2.6 模態能力

    模態組網
    jf_23871869
    發布于 :2025年01月20日 13:40:48

    lABCIWQmultyWindows模態窗口2010

    lABCIWQmultyWindows模態窗口2010。
    發表于 05-17 17:47 ?0次下載

    文化場景下的模態情感識別

    自動情感識別是非常具有挑戰性的課題,并且有著廣泛的應用價值.本文探討了在文化場景下的模態情感識別問題.我們從語音聲學和面部表情等
    發表于 12-18 14:47 ?0次下載

    關于模態機器學習綜述論文

    因此,當研究問題或數據包括多個這樣的模態時,其特征在于模態。 本文主要關注但不僅僅關注三種形式:自然語言既可以是書面的,也可以是口頭的;
    的頭像 發表于 01-21 13:38 ?8869次閱讀

    基于注意力神經網絡的模態情感分析方法

    近年來,越來越多的人熱衷于在社交媒體上同時用圖片和文本等媒體形式表達自己的感受與看法,使得以圖片和文本為主要內容的模態數據不斷増長。相比單模態數據
    發表于 04-28 14:41 ?8次下載
    基于注意力神經網絡的<b class='flag-5'>多</b><b class='flag-5'>模態</b>情感分析方法

    DocumentAI的模型、任務和基準數據

    隨著最近幾年模態大火的,越來越多的任務都被推陳出新為模態版本。譬如,傳統對話任務,推出了考慮視覺信息的
    的頭像 發表于 08-22 09:55 ?1894次閱讀

    面向社交媒體的模態屬性級情感分析

    方面,相比于單的文本數據模態數據包含了多種不同信息,這些信息之間往往一一對應、互為補充
    的頭像 發表于 10-19 10:10 ?2124次閱讀

    中文模態對話數據

    隨著大量預訓練語言模型在文本對話任務中的出色表現,以及模態的發展,在對話中引入模態信息已經引起了大量學者的關注。目前已經提出了各種各樣的
    的頭像 發表于 02-22 11:03 ?1438次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態</b>對話<b class='flag-5'>數據</b><b class='flag-5'>集</b>

    模態GPT:國內發布款可以在線使用的模態聊天機器人!

    基于開源模態模型 OpenFlamingo,作者使用公開數據創建了各種視覺指令數據,包括視覺問答、圖像字幕、視覺推理、文本 OCR 和視
    的頭像 發表于 05-12 09:55 ?1247次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態</b>GPT:國內發布<b class='flag-5'>一</b>款可以在線使用的<b class='flag-5'>多</b><b class='flag-5'>模態</b>聊天機器人!

    模態上下文指令調優數據MIMIC-IT

    然而,理想的 AI 對話助手應該能夠解決涉及多種模態的任務。這需要獲得多樣化和高質量的
    的頭像 發表于 06-12 16:36 ?794次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態</b>上下文指令調優<b class='flag-5'>數據</b><b class='flag-5'>集</b>MIMIC-IT

    模態數據定制服務:提升智能化應用的關鍵利器

    可以獲得更準確、全面且豐富的信息,為智能化應用提供強有力的支持。在這方面,數據堂是您的理想合作伙伴。 作為家領先的數據科技公司,數據堂致力于提供
    的頭像 發表于 06-18 21:24 ?523次閱讀

    全球首個面向網聯智能車的通信與模態感知數據發布

    7月2日,2023中國智能車大會暨國家智能車發展論壇在廣州南沙盛大開幕。會上重磅發布全球首個面向網聯智能車的包含車和多路端的通信與模態感知數據
    的頭像 發表于 07-13 15:20 ?830次閱讀

    更強更通用:智源「悟道3.0」Emu模態大模型開源,在模態序列中「補全切」

    熱度。Flamingo 具備強大的模態上下文少樣本學習能力。 Flamingo 走的技術路線是將大語言模型與預訓練視覺編碼器結合,并插入可學習的層來捕捉跨
    的頭像 發表于 07-16 20:45 ?751次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型開源,在<b class='flag-5'>多</b><b class='flag-5'>模態</b>序列中「補全<b class='flag-5'>一</b>切」

    人工智能領域模態的概念和應用場景

    隨著人工智能技術的不斷發展,模態成為了備受關注的研究方向。模態技術旨在將不同類型的
    的頭像 發表于 12-15 14:28 ?1w次閱讀

    商湯日日新模態大模型權威評測第

    剛剛,商湯科技日日新SenseNova模態大模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第
    的頭像 發表于 12-20 10:39 ?345次閱讀
    百家乐官网大娱乐场开户注册 | 大发888卡| 大发888娱乐场存款| 威尼斯人娱乐城游戏lm0| 2024年九宫八卦吉位| 钱柜百家乐官网娱乐城| 百家乐官网最新庄闲投注法| 百家乐官网有方法赚反水| 优博娱乐网| 卡宾娱乐| 闽侯县| 姚记娱乐城官网| 铜梁县| 皇冠网上投注| 青神县| 带百家乐官网的时时彩平台| 线上百家乐官网赌法| 百家乐官网伴侣| 百家乐是真的吗| 怎样玩百家乐官网的玩法技巧和规则 | 大发888洗码| 皇冠足球走地| 最好的百家乐官网论坛| 免费百家乐官网在线| 怎样玩百家乐官网的玩法技巧和规则 | 博e百娱乐城注册| 大发888娱乐场网址| 日博娱乐| 欢乐谷娱乐城| 百家乐官网视频游戏盗号| 百家乐官网新送彩金| 顶尖百家乐开户| 澳门百家乐网上娱乐场开户注册 | 百家乐买闲打法| 大发888真人娱乐场游戏平台| 拉斯维加斯娱乐| 赌场百家乐官网投注公式| 真人百家乐官网作| 百家乐手机投注平台| 百家乐五湖四海娱乐网| 威尼斯人娱乐场 澳门赌场|