SambaNova 與 Together 兩家公司合作開源了可商用的 BLOOMChat,一個 1760 億參數的多語言聊天大語言模型 (LLM)。由 BLOOM (176B) 在助理式的對話數據集上進行指導調整,并支持多種語言的對話、問題回答和生成性答案。
根據介紹,BLOOMChat 是一個新的、開放的、多語言的聊天 LLM。SambaNova 和 Together 使用 SambaNova 獨特的可重構數據流架構在 SambaNova DataScale 系統上訓練了 BLOOMChat;其建立在 BigScience 組織的 BLOOM 之上,并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上進行了微調。目前,BLOOM 已經是最大的多語言開放模型,在 46 種語言上進行了訓練。
在針對英語、中文、法語、阿拉伯語、西班牙語、印度語這 6 種語言的評測中,GPT-4 的勝率為 54.75%,BLOOMChat 的勝率為 45.25%,稍弱于 GPT-4。但與其它 4 種主流的開源聊天 LLM 相比,BLOOMChat 在 65.92% 的時間內表現更優。且在使用 BLOOMChat 進行跨語言 NLP 任務的初步研究中,BLOOMChat 在 WMT 翻譯基準中的表現要優于其他 BLOOM 變體和主流開源聊天模型。
“我們確實想指出,與我們比較的這些模型中,有些并不適合多語言環境。但由于開源社區中沒有替代品,所以才有了現在的比較。我們的研究結果表明,使用正確的技術,可以在開源 LLM 之上構建以實現強大的多語言聊天功能。我們希望我們的研究結果和 BLOOMChat checkpoint 的發布能夠為開源社區的持續討論做出貢獻,并激發 LLM 領域的進一步發展。”
項目團隊使用定性和定量措施來評估了 BLOOMChat 的多語言聊天能力以及跨語言任務能力。共做了 3 種不同場景的實驗測評,評測了英語、中文、阿拉伯語、法語、西班牙語和印度語。
實驗一:人類偏好排序
旨在將 BLOOMChat 模型在多種語言中的聊天能力與現有的開源模型以及選定的封閉源模型進行比較。使用了 “OpenAssistant Conversations”附錄 E 中的 22 個英文問題作為基準。首先讓一些人類志愿者將這 22 個英文問題手動翻譯成他們各自的母語;然后讓另一組不同的志愿者,在匿名的前提下評價每個模型所給出的回答。
將 BLOOMChat 與 OpenAssistant-30B、LLaMA-Adapter-V2-65B 和 BLOOMZ (176B) 三種開源模型進行了比較:
51 名志愿者在所有模型和 6 種語言中共提交了 1158 次比較。如上圖所示,BLOOMChat (65.92%) 明顯優于其它幾個開源模型。
與GPT-4 相比:
實驗二:模型質量評估
此實驗旨在驗證 BLOOMChat 生成的多種語言文本的質量。
81.8% 的回答被歸類為 “正確” 或 “可接受但有輕微缺陷”。盡管只在英語數據集上進行了微調,但 BLOOMChat 在每種語言中都獲得了超過 70% 的 “正確” 或 “可接受” 評級。
實驗三:WMT 翻譯任務
為了初步了解模型解決跨語言 NLP 任務的能力,評估了模型在 WMT 翻譯任務上的翻譯能力。
總體而言,BLOOMChat 在翻譯任務中的表現明顯優于其他 BLOOM 變體和開源聊天模型,但和 GPT-4 還有一定差距。
此外,BLOOMChat 團隊也坦承了一些該模型的局限性:
BLOOMChat 有時可能會生成聽起來合理但事實不正確或與主題無關的回復信息。
BLOOMChat 可能在單個回復中無意間切換語言,影響輸出的連貫性和可理解性。
BLOOMChat 可能會產生重復的短語或句子,導致回復內容缺乏吸引力和有效信息。
BLOOMChat 在生成代碼或解決復雜數學問題方面的性能可能會受到限制。
BLOOMChat 可能無意中生成含有不適當或有害內容的回復。
審核編輯 :李倩
-
開源
+關注
關注
3文章
3408瀏覽量
42713 -
語言模型
+關注
關注
0文章
538瀏覽量
10342 -
數據集
+關注
關注
4文章
1209瀏覽量
24835 -
LLM
+關注
關注
0文章
299瀏覽量
400
原文標題:可商用多語言聊天LLM開源,性能直逼GPT-4
文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
Llama 3 與 GPT-4 比較
ChatGPT 的多語言支持特點
llm模型和chatGPT的區別
OpenAI推出新模型CriticGPT,用GPT-4自我糾錯
OpenAI API Key獲取:開發人員申請GPT-4 API Key教程
![OpenAI API Key獲取:開發人員申請<b class='flag-5'>GPT-4</b> API Key教程](https://file1.elecfans.com/web2/M00/B1/D3/wKgZomVddfqAVkq0AABxTmjVfN0431.png)
開發者如何調用OpenAI的GPT-4o API以及價格詳情指南
![開發者如何調用OpenAI的<b class='flag-5'>GPT-4</b>o API以及價格詳情指南](https://file1.elecfans.com/web2/M00/EA/20/wKgZomZW4A2AUr3OAAD6aRXRTyQ948.png)
阿里云正式發布通義千問2.5,中文性能全面趕超GPT-4 Turbo
阿里云發布通義千問2.5大模型,多項能力超越GPT-4
微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型
大語言模型(LLMs)如何處理多語言輸入問題
![大<b class='flag-5'>語言</b>模型(LLMs)如何處理<b class='flag-5'>多語言</b>輸入問題](https://file1.elecfans.com/web2/M00/C3/10/wKgZomXpYpaAMZDvAAAVaQD0BhM225.png)
新火種AI|秒殺GPT-4,狙殺GPT-5,橫空出世的Claude 3振奮人心!
![新火種AI|秒殺<b class='flag-5'>GPT-4</b>,狙殺<b class='flag-5'>GPT</b>-5,橫空出世的Claude 3振奮人心!](https://file1.elecfans.com//web2/M00/C2/E7/wKgZomXofCqAHVbgAALexcwIK9w322.jpg)
評論