棋牌游戏破解工具外挂,中国彩票优惠大厅官网首页查询结果,卡塔尔世界杯壁纸手机超清(中国)·官方网站

論文：MCSE: Multimodal Contrastive Learning of Sentence Embeddings

鏈接：https://aclanthology.org/2022.naacl-main.436.pdf

代碼：https://github.com/uds-lsv/MCSE

視覺作為人類感知體驗的核心部分，已被證明在建立語言模型和提高各種NLP任務的性能方面是有效的。作者認為視覺作為輔助語義信息可以進一步促進句子表征學習。在這篇論文中，為了同時利用視覺信息和文本信息，作者采用了sota句子嵌入框架SimCSE，并將其擴展為多模態對比目標。作者發現，除了文本語料庫之外，使用少量多模態數據可以顯著提高STS任務的性能。在論文的最后，作者也對該方法所存在的局限性進行了分析

雖然這篇論文的框架非常簡單，但是我覺得對于實驗和作者的局限性分析還是有值得思考的地方

方法

MCSE模型

SimCSE：

就是通過dropout+編碼兩次構建正樣本對，進行對比學習

給定一個圖像句子對，把他們映射到一個共同的嵌入空間中

f()為預訓練的語言編碼器和預訓練的圖像編碼器，g()為映射頭

接下來就是多模態對比學習：

最終的損失函數為 SimCSE的損失+多模態對比損失：

Experiments

作者使用Flickr30k（包含29, 783個訓練圖像）和MS-COCO（包含82, 783個訓練圖像）作為多模態數據集，使用Wiki1M（個句子）作為文本語料庫

SimCSE和MCSE的差別就是，MCSE利用了圖像-句子對，引入了多模態對比損失。即使多模態數據量相對較小，可獲得輔助視覺信息的MCSE模型也能進一步取得顯著的改進。在STS16上，Bert+MCSE的性能較差，作者解釋為域差異，其中一些接近訓練分布的子集比其他子集更能從視覺基礎中獲益。

表1

為了進一步研究不同數據集的影響，作者只在多模態數據上訓練模型，并在表2中報告結果。我們觀察到，在沒有大型純文本語料庫的情況下，性能比表1中的結果下降了很多，但是依然可以超過SimCSE。此外，作者將成對的圖像替換為打亂的圖像進行訓練，模型下降了0.8-5.0個點，進一步驗證了視覺語義的有效性。

這點其實我不太理解，是將圖像句子對的匹配關系給打亂了么，如果是這樣的話，感覺好像沒什么意義呀

表2

作者使用bert-base model只在多模態數據上進行了訓練，來研究數據規模大小對性能的影響，在數量有限的樣本上，SimCSE取得了更好的性能，隨著數據量的增加，MCSE的性能更好，作者推測，這一現象可以歸因于多模態映射投權重的漸進訓練。

作者報告了alignment and uniformity兩個量化指標，結果表明，與SimCSE模型相比，MCSE模型在保持一致性的同時獲得了更好的對齊得分。這一分析進一步支持了視覺基礎可以通過改善文本嵌入空間的對齊特性來增強句子特征學習。

Limitations

作者還指出了該方法所存在的局限性，多模態數據收集標注困難，如果可以合理的利用噪聲圖像-句子對，或者擺脫顯式的圖像文本對齊關系，將會有很大的實用價值。此外，我們發現只有來自相關領域的子集可以獲得顯著的改進，而其他子集則受到域偏移的影響。對于學習通用的句子嵌入來說，減小域偏移是至關重要的。此外，“語義相似度”的定義是高度任務依賴的。除了STS基準之外，值得探討的是純文本模型和多模態模型在其他基準上的性能差距，這些基準也可以評估句子特征的質量。

編輯：黃飛

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴