近日,多模態人工智能模型基準評測集MMMU更新榜單,云知聲山海多模態大模型UniGPT-mMed以通用能力、醫療專業能力雙雙排名第一的優異成績登頂榜首,力壓GPT-4V,充分彰顯其硬核實力。
作為國內權威多模態基準評測,MMMU由IN.AI Research等多家機構聯合構建,專注于考量人工智能在解決大學層次多學科問題時的多模態理解與推理能力。
該評測集涉及藝術與設計、商科、科學、健康與醫學、人文與社會科學、技術與工程等六個常見學科,包含 1.15 萬個精心選取的多模態問題,涵蓋 30 個不同的科目和183 個子領域。同時,MMMU 中許多問題都需要專家級的推理能力,例如,使用傅立葉變換或均衡理論來推導問題的解,這在滿足評測內容廣泛性的同時,也確保了其深度。
此外,MMMU還提出了兩個獨特的挑戰:一是其涵蓋多種圖像格式,從照片和繪畫等視覺場景到圖表和表格,可用于測試 LMM 的感知能力;二是MMMU的輸入形式是文本和圖像的混合,要求AI模型能夠將圖像和文本信息結合起來進行深入理解,并在此基礎上執行復雜推理。這不僅考驗了模型的學科知識儲備,也對其綜合分析和應用能力提出了更高要求。
評測結果顯示,云知聲山海多模態大模型UniGPT-mMed以總分57的優異成績登頂榜首,并在健康與醫學細分賽道超越GPT-4V,力壓一眾大模型拔得頭籌,充分展現出其在擁有業內一流的通用能力之外,更具備打造世界領先的行業大模型的能力。
UniGPT-mMed是云知聲基于山海大模型底座構建的多模態大模型。其通過分析和整合海量論文、書籍及網站數據,利用精細化數據處理技術,自動識別并提取圖片及其相關文本描述,并通過多模態分析技術評估圖片的質量和圖文之間的匹配度,篩選出最優數據。與此同時,系統能夠參考圖片和上下文信息對圖片進行重新描述,使得圖文數據更加對齊。
通過預設問答場景,UniGPT-mMed能夠將圖文對齊數據轉化為高質量的場景問答數據集,并采用思維鏈和自我反思技術,進一步優化生成數據,最終構建起一個包含數億條高質量圖文問答的數據集,進而為用戶提供更加豐富、準確和可靠的信息檢索和問答服務。
此次評測,是云知聲在多模態大模型賽道持續深耕、不斷技術創新的成果體現。
作為中國AGI技術產業化的先行者,云知聲于2016年開始打造Atlas人工智能基礎設施,并以此為基礎,構建云知大腦(UniBrain)技術中臺——以山海(UniGPT)通用認知大模型為核心,結合多模態感知與生成、知識圖譜、物聯平臺等智能組件,為云知聲智慧物聯、智慧醫療、智慧座艙、智慧交通等業務提供高效的產品化支撐,持續推動“U(云知大腦)+X(應用場景)”戰略布局,致力推動千行百業的智慧化升級。
作為云知大腦的核心,山海大模型具備語言生成、語言理解、知識問答、邏輯推理、代碼能力、數學能力、安全合規能力七項通用能力及插件擴展、領域增強、企業定制三項行業落地能力,能夠滿足更多場景的應用需求。今年8月,云知聲推出山海多模態大模型,通過整合跨模態信息,山海多模態大模型能夠接收文本、音頻、圖像等多種形式作為輸入,并實時生成文本、音頻和圖像的任意組合輸出,帶來實時多模態擬人交互體驗,開啟AGI新范式。
目前,山海大模型已相繼在OpenCompass大模型評測、SuperCLUE中文大模型基準測評、MedBench評測、Flageval大模型評測、SuperBench等多個權威評測中屢創佳績,穩居國內大模型第一梯隊;在醫療專業能力上,其基于山海大模型孵化的醫療大模型在CCKS 2023 PromptCBLUE醫療大模型評測中奪得通用賽道一等獎,并在MedBench評測中位列全球第一,各項指標全面超越GPT-4。
登頂MMMU評測榜,充分印證了云知聲山海多模態大模型在通用能力、專業能力層面的突出實力,也將鞭策云知聲持續迭代多模態大模型技術底座,實現大模型技術在多領域場景下的滲透和應用,以技術創新為各行各業帶來更多智能化變革。
-
人工智能
+關注
關注
1796文章
47666瀏覽量
240285 -
云知聲
+關注
關注
0文章
195瀏覽量
8418 -
大模型
+關注
關注
2文章
2545瀏覽量
3165
原文標題:引領多模態大模型新高度,山海UniGPT-mMed登頂MMMU權威測評榜
文章出處:【微信號:云知聲,微信公眾號:云知聲】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論