隨著人工智能技術的飛速發展,大語言模型(Large Language Models, LLMs)在各行各業的應用日益廣泛,尤其是在軟件開發、數據分析、客戶服務等領域。蘑菇云創客空間[445期開放夜]就以“ChatGPT、Gemini、通義千問等一眾大語言模型,哪家更適合您”這樣的主題,開展了一次深度的大語言模型的測評。開放夜現場測評了十幾個國內外大語言模型,測評角度從邏輯、數學、翻譯、倫理等方面,深入探討和體驗了這些大語言模型的實際效能。
測評的大語言模型:
1.Kimi 智能助手:由月之暗面科技有限公司開發的先進AI。
2.智譜清言:由智言科技開發的大語言模型,以深度學習和自然語言處理技術見長。
3.訊飛星火:科大訊飛推出的創新語言模型。
4.文心一言:百度的前沿語言模型,致力于理解和生成自然語言。
5.豆包:專注于提供個性化的智能對話服務。
6.通義千問:以廣泛的知識庫和靈活的對話能力著稱。
7.海螺AI:新興的語言模型,擅長處理復雜的語言任務。
8.騰訊混元助手:騰訊推出的多功能AI助手。
9.Sider: 是由日本公司Sider開發的大語言模型。
10.ChatGPT:由OpenAI開發,國際上廣受認可的更大規模、功能更全面的語言模型。
11.Claude:Anthropic開發的先進語言模型,注重安全性和可靠性。
12.groq:以其專為AI設計的硬件加速器而聞名。
13.Gemini: OpenAI 開發的較小規模的語言模型,旨在提供更高效的計算和資源利用。
14.Mixtral:開源人工智能初創公司 MistralAI開發的超越GPT-3.5的AI模型
測評問題一: 雞兔同籠的數學問題
雞兔同籠是一個經典的數學問題,通過觀察雞兔的頭和腳的數量關系,可以利用代數方程來解決問題,從而確定籠子里雞和兔子的數量。這個問題常常展示了代數方程組的應用。
針對雞兔同籠的問題,除了Gemini Pro沒有得出正確的結果,其余的大語言模型都可以給出正確結果。
測評問題二:翻譯(詩句中翻英)
詩人馬致遠的詩句“斷腸人在天涯”,描寫了“夕陽向西緩緩落下,只有孤獨的旅人漂泊在遙遠的地方。”詩句的翻譯涉及到文化差異和詩人獨特情感。Mixtral 的語言模型正確的解釋了詩句本身的含義,幫助翻譯者很好地理解這句詩句。 Claude的語言模型對于詩句的本身理解是不正確的。
這句詩翻譯家許淵沖翻譯為“Far, far from home is the heartbroken one.”由此可見,大語言模型可以幫助翻譯者分析這句詩基本的意思,但是涉及文化層面的深層含義,還是做不到意譯的。
開放夜也探討了如下涉及生活、工作的一些問題,比如:
過年福字要倒著貼,那為什么不直接生產倒過來的福字呢?
收到公司的裁員通知郵件,你應該怎么回復郵件來保住工作?
一個烏龜掉進了井里,井里有30米深。烏龜白天爬3米,晚上滑下2米。問這只烏龜需要多長時間才能爬出井口?
DFRobot AIGC小組主理人夏青在開放夜的現場測評了十幾個國內外大語言模型,通過多維度問題的測評,他認為:對于處理綜合性問題,OpenAI的ChatGPT 4.0邏輯清楚,能提供非常有用的信息。盡管在回答一些較為復雜的問題上略顯不足,但在大多數場合下,其性能仍然令人滿意。然而,ChatGPT 4.0在國內的使用成本是一個不容忽視的問題,不僅涉及訂閱費用,也包括使用的技術門檻。
與此同時,Gemini和Claude等海外語言模型,盡管在遵循指令方面略顯不足,但已達到了實用水平。令人驚喜的是,國內的Qwen1.5 72b開源模型在中文理解和特定任務,幾乎能與ChatGPT4.0匹敵此外,其他開源模型如Mixtral和新發布的LLaMA3雖在邏輯性上略遜于商業模型如ChatGPT,但總體表現已超越了ChatGPT 3.5。
綜合分析來看,盡管ChatGPT 4.0仍然是目前市場上最優秀的大語言模型,但不可忽視的是,無論是國際市場還是國內市場,其他廠商的模型均顯示出迅速的進步。開源模型的崛起也證明了開源社區在AI時代的巨大潛力。當前的大語言模型在處理理性問題方面表現一致,但通常無法提供情緒價值回應。例如,一些國內模型如“豆包”將展現其在情緒回應方面的潛力。這種能力的發展可能為未來陪伴型機器人的商業模型提供新的方向。
蘑菇云創客空間
蘑菇云創客空間是上海浦東的一家創客空間,是科技部授牌的首批國家級創客空間,由浦軟孵化器提供場地支持、上海智位機器人提供硬件及技術支持的一家為創客服務的開放式創客空間。擁有獨立的加工室、公共協作區域以及儲物、耗材商店,為硬件愛好者、程序員、設計師、DIY 發燒友等各類創客,甚至包括進行創新研發的科創團隊提供一個開放式的社區化會員空間。
審核編輯 黃宇
-
Gemini
+關注
關注
0文章
56瀏覽量
7617 -
語言模型
+關注
關注
0文章
538瀏覽量
10342 -
ChatGPT
+關注
關注
29文章
1570瀏覽量
8067 -
通義千問
+關注
關注
1文章
25瀏覽量
278
發布評論請先 登錄
相關推薦
評論