摘要
擁有指令跟隨能力的大型語言模型已經(jīng)徹底改變了人工智能領(lǐng)域。這些模型通過其自然語言界面展現(xiàn)出卓越的通用性,能夠應(yīng)對各種現(xiàn)實世界任務(wù)。
然而,它們的性能在很大程度上依賴于高質(zhì)量的示例數(shù)據(jù),通常難以獲得。當涉及到多模態(tài)指令跟隨時,這一挑戰(zhàn)進一步加劇。
我們介紹了TextBind,這是一個幾乎無需注釋的框架,用于賦予更大型的語言模型多輪交織的多模態(tài)指令跟隨能力。
我們的方法僅需要圖像描述對,并從語言模型生成多輪多模態(tài)指令-響應(yīng)對話。我們發(fā)布了我們的數(shù)據(jù)集、模型和演示,以促進未來在多模態(tài)指令跟隨領(lǐng)域的研究。
數(shù)據(jù)
TextBind提供了處理和生成任意交織的圖像和文本內(nèi)容的示例,使語言模型能夠在開放世界場景中與用戶進行自然互動。
模型
我們的模型包括一個圖像編碼器、一個圖像解碼器、一個語言模型,以及連接它們的橋接網(wǎng)絡(luò),支持多輪交織的多模態(tài)指令跟隨。它可以生成并處理任意交織的圖像和文本內(nèi)容。
demo
語言模型能夠執(zhí)行各種任務(wù),包括根據(jù)一組圖像創(chuàng)作引人入勝的故事,比較多個圖像中的共同和不同之處,用生動的圖像解釋概念,生成帶有插圖的長篇連貫故事等等。最有趣的是,我們模型的核心創(chuàng)新在于其能夠在廣泛的真實場景中與用戶自然互動。歡迎訪問我們的demo[1]。
例子
-
編碼器
+關(guān)注
關(guān)注
45文章
3669瀏覽量
135251 -
圖像
+關(guān)注
關(guān)注
2文章
1089瀏覽量
40574 -
語言模型
+關(guān)注
關(guān)注
0文章
538瀏覽量
10342
原文標題:TextBind:在開放世界中多輪交織的多模態(tài)指令跟隨
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
![](https://file1.elecfans.com/web3/M00/06/A4/wKgZO2eN4dmAWH2dAAPhhyGFzsw191.png)
交織多址接入系統(tǒng)信道容量證明
多文化場景下的多模態(tài)情感識別
一個真實閑聊多模態(tài)數(shù)據(jù)集TikTalk
多模態(tài)GPT:國內(nèi)發(fā)布一款可以在線使用的多模態(tài)聊天機器人!
![<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>GPT:國內(nèi)發(fā)布一款可以在線使用的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>聊天機器人!](https://file1.elecfans.com/web2/M00/82/B1/wKgZomRdnNyAILFCAAANZY-5k2s765.png)
多模態(tài)上下文指令調(diào)優(yōu)數(shù)據(jù)集MIMIC-IT
![<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>上下文<b class='flag-5'>指令</b>調(diào)優(yōu)數(shù)據(jù)集MIMIC-IT](https://file1.elecfans.com/web2/M00/89/87/wKgZomSG2X-AL_bJAAAdp_f-WOY899.png)
VisCPM:邁向多語言多模態(tài)大模型時代
![VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型時代](https://file1.elecfans.com/web2/M00/90/58/wKgZomTYhLiAOB2yAAAF_DGy7s8873.png)
更強更通用:智源「悟道3.0」Emu多模態(tài)大模型開源,在多模態(tài)序列中「補全一切」
![更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型開源,<b class='flag-5'>在</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列<b class='flag-5'>中</b>「補全一切」](https://file1.elecfans.com/web2/M00/90/58/wKgZomTYhR6AZoxQAAAgOIO9AdM434.png)
基于Transformer多模態(tài)先導性工作
![基于Transformer<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>先導性工作](https://file1.elecfans.com/web2/M00/93/E8/wKgZomTiwsWABfecAAAsXPyHECw197.png)
評論