近日,由盛大AI團(tuán)隊(duì)研發(fā)的模型Watt-tool-70B和Newsbang/homer-72B,登上國際知名AI排行榜榜首。其中,Watt-tool-70B是由盛大旗下Watt團(tuán)隊(duì)研發(fā)的旗艦?zāi)P停壳拔涣蠦FCL Leaderboard總榜單第一。

據(jù)悉,榜單BFCL Leaderboard是由加州大學(xué)伯克利分校開發(fā)的評(píng)估LLM工具調(diào)用能力基準(zhǔn)測試平臺(tái)。作為目前大語言模型(LLM)最熱門的研究方向之一,工具調(diào)用(Function-Calling)是為了讓LLM理解,并能準(zhǔn)確使用API(應(yīng)用程序編程接口),來執(zhí)行更復(fù)雜而具體的任務(wù)。在近期公布的最新一輪評(píng)估結(jié)果中,Watt的“多輪對話執(zhí)行能力”相較于排名第二的GPT-4o 領(lǐng)先11分,比排名第十的Gemini-1.5-Pro 領(lǐng)先近40分。
“這個(gè)模型將加速大模型落地‘融合’過程。”Watt有關(guān)負(fù)責(zé)人說,還有助于從底層數(shù)據(jù)標(biāo)注到人機(jī)交互的體系化建設(shè),讓大模型初步實(shí)現(xiàn)從“光說不練”到“能文能武”。
此外,由盛大集團(tuán)NewsBang團(tuán)隊(duì)開發(fā)的Newsbang/homer-72B 模型位列Open LLM LeaderBoard v2榜單第一。Open LLM Leaderboard V2是由Hugging Face維護(hù)的開源語言模型評(píng)測平臺(tái)升級(jí)版本,采用更全面和嚴(yán)格評(píng)估標(biāo)準(zhǔn),對各類開源大語言模型進(jìn)行多維度測試和排名。Newsbang/homer-72B重視提升模型在推理和思考方面的能力,通過搭配數(shù)據(jù)篩選機(jī)制等,在多個(gè)核心評(píng)測維度,該模型性能有了大幅提升。

據(jù)公開報(bào)道,2023年初,盛大集團(tuán)宣布All in AI戰(zhàn)略,去年10月,聯(lián)合多家高校發(fā)表了AI與長期記憶方面的論文,其自研的OMNE大模型多智能體框架登上GAIA 基準(zhǔn)測試排行榜榜首;其旗下的天橋腦科學(xué)研究院(TCCI)與國際學(xué)術(shù)雜志《Science》合作推出全球AI驅(qū)動(dòng)科學(xué)大獎(jiǎng),舉辦和支持包括“AI+精神健康”在內(nèi)的各種高水平國際會(huì)議和夏校項(xiàng)目,助力培養(yǎng)跨學(xué)科青年AI人才等。
-
AI
+關(guān)注
關(guān)注
87文章
31513瀏覽量
270314 -
人工智能
+關(guān)注
關(guān)注
1796文章
47666瀏覽量
240268 -
語言模型
+關(guān)注
關(guān)注
0文章
538瀏覽量
10340
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
商湯科技推出“日日新”融合大模型
格陸博科技榮登兩大權(quán)威機(jī)構(gòu)榜單
谷歌正式發(fā)布Gemini 2.0 性能提升近兩倍
云知聲榮登2024全球AIGC先鋒者系列榜單
AI模型部署和管理的關(guān)系
NPU技術(shù)如何提升AI性能
AI大模型的性能優(yōu)化方法
阿里國際發(fā)布翻譯大模型Marco
普強(qiáng)成功榮登兩大榜單
ai大模型和ai框架的關(guān)系是什么
AI大模型與小模型的優(yōu)缺點(diǎn)
韓國兩大芯片公司尋求合并,以開發(fā)新一代AI芯片
小米大語言模型獲備案,有望應(yīng)用于汽車、手機(jī)等產(chǎn)品
SCHURTER碩特波蘭子公司連續(xù)兩年登上《福布斯鉆石獎(jiǎng)》榜單
潞晨科技Colossal-AI + 浪潮信息AIStation,大模型開發(fā)效率提升10倍

評(píng)論