衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

新火種AI|谷歌深夜發(fā)布復仇神器Gemini,原生多模態(tài)碾壓GPT-4?

新火種 ? 來源:新火種 ? 作者:新火種 ? 2023-12-08 09:09 ? 次閱讀

作者:一號

GPT-4最強的對手出現(xiàn)了。

北京時間12月7日凌晨,谷歌CEO“劈柴”突然發(fā)布重磅AI殺手锏——Gemini。就在前幾天,還有消息說Gemini要推遲一個月才上線,結果現(xiàn)在這么突然地發(fā)布,著實讓AI圈料不到。以谷歌以往的實力,不用想,這又是AI界的一個“不眠之夜”。

在去年ChatGPT發(fā)布不到兩周,谷歌就拉響了「警報」來應戰(zhàn),好不容易搞出來的Bard,在首次亮相的時候卻出現(xiàn)了失誤,讓谷歌市值一夜蒸發(fā)了1000億美元。

而且,GPT(Generative Pre-training Transformer)還是基于Transformer開發(fā)的,而這個Transformer模型最早還是谷歌提出來,要想谷歌心甘情愿地服輸,可不是那么容易。

果然,這一年的時間里,關于Gemini的消息就層出不窮,有的說谷歌大腦和DeepMind部門合并,幾乎耗盡谷歌內(nèi)部算力資源,就是為了背水一戰(zhàn),和OpenAI決戰(zhàn)。

不過前段時間,OpenAI的發(fā)布會把AI界炸了一圈,還上演了一出“宮斗劇”,甚至還傳出讓人浮想聯(lián)翩的Q*,谷歌都沒一點新消息,差點就讓人以為AI圈的王者已定。

就在一個月之前,英偉達科學家Jim Fan就曾說過,“人們對谷歌Gemini的期望高得離譜!谷歌要想重奪當年AlphaGo的輝煌,Gemini不僅要100%達到GPT-4的能力,還要在成本或者速度上比GPT-4更好。”

wKgZomVx5m-ARkC3AAMUeHCh2m0257.jpg

生來就是全才

還好,從Gemini公布的演示視頻來看,它沒讓人失望。

“Gemini,從第一天起就是多模態(tài)大模型——跨越文本、圖像、視頻、音頻和代碼的無縫推理。”這是谷歌官網(wǎng)上,介紹Gemini的第一句話。

與ChatGPT通過升級迭代,逐步加上視覺、音頻等多模態(tài)能力,形成“合體金剛”的路徑不同,Gemini生來就是一位全才。它從第一天起就被設計成原生多模態(tài)結構,文本、圖像、音視頻能力從最開始就一起訓練,從這一點上來看,Gemini的學習更像人類。這就意味著,Gemini可以無縫調(diào)動多模態(tài)能力,抽象和理解、操作和組合不同類型的信息

舉個例子,如果你同時上傳一張圖片給ChatGPT和Gemini,那么ChatGPT的處理將會是這樣的,先借助GPT-4V認出來圖里是什么,然后轉成文本交給GPT去進行語義理解,然后再作回答;而Gemini則可以基于圖像直接進行理解并回應,不用進行不同模型之間的調(diào)動。因此,在實操過程中,Gemini可以減少信息的丟失,回應也可以更加迅速和絲滑。

這從谷歌給到的演示視頻中便可以看出:

wKgaomVx5m-ATxr4AAaNqEAfdFk912.jpg

演示者一邊畫畫,Gemini就可以一邊辨認,并且用自然、流利的語音和演示者對話,在演示者拿出藍色的玩具鴨實物后,它還會幽默的回應:“看起來藍色的鴨子比我想象中更常見。”

很顯然,這樣的體驗更接近漫威中的“賈維斯”——一個高級人工智能,能與人類自如地進行交互。

而這樣的體驗,離不開Gemini的原生多模態(tài)架構

Gemini VS GPT-4

除了擁有令人驚嘆的原生多模態(tài)能力,在性能上,Gemini也是相當強悍

按照尺寸的不同,Gemini共有“中杯”、“大杯”還有“超大杯”三種,即Ultra、Pro和Nano三個不同的版本。它們在性能和適配任務上的側重點各有不同。

wKgZomVx5nCAAlrsAAQdwAiMIp4903.jpg

·Gemini Ultra —規(guī)模最大且功能最強大的模型,適用于高度復雜的任務,預計2024年初推出。

·Gemini Pro — 適用于各種任務的最佳模型,已經(jīng)被用在了谷歌聊天機器人Bard的升級版上。

·Gemini Nano — 可以在端端側設備上運行的高效模型,已經(jīng)可以跑在谷歌Pixel 8 Pro手機上了。

根據(jù)谷歌給到的資料,從自然圖像、音頻和視頻理解,再到數(shù)學推理,Gemini Ultra的性能在32個常見的大語言模型(LLM)研究和開發(fā)的學術基準測試中,拿下了30個SOTA

其中,它在通用、推理、數(shù)學和編程等大方向的成績?nèi)缦拢?/p>

wKgaomVx5nCAIyIhAANdlxvRA2o279.jpg

更讓人驚奇的是,在MMLU(大規(guī)模多任務語言理解)任務上,Gemini Ultra的得分達到了90.0%,超越了人類專家89.8%的成績,首次達到了超越人類專家水平

wKgZomVx5nGASGIoAAD4e_iIynk849.jpg

MMLU測試包括數(shù)學、物理、歷史、法律、醫(yī)學等57個學科,主要是用來考察大語言模型世界知識和解決問題的能力,而在這些學科中的每一個,Gemini都達到了甚至超過了行業(yè)專家的水準。

在圖像基準測試中,Gemini Ultra在不使用OCR(對象字符識別)來提取圖像文本進行下一步處理的情況下,表現(xiàn)優(yōu)于GPT-4V

各種測試都表明,Gemini在多模態(tài)處理上表現(xiàn)出了強大的能力,并且在更復雜的推理上也有很大的潛力。

實際能力被質(zhì)疑

然而,在模型發(fā)布后不久,就有人在谷歌給到的60頁技術報告中發(fā)現(xiàn)了一些“小技巧”。

在MMLU測試中,Gemini的結果下面用灰色小字標注著CoT@32,這表示,這個結果是使用了思維練提示技巧,嘗試了32次后選出來的最好結果,而對比GPT-4,則是無提示詞技巧,只嘗試了5次的結果,這測試結果,變量確實控制得不是很好。

wKgaomVx5nKACzbBAACicmHlaP0009.jpg

而且在顯示超越人類專家的示意圖里,比例尺上也有問題,讓人以為超越了人類專家很多,但實際上并沒有相差多少。

HuggingFace的技術主管Philipp Schmind“修復”了這張圖,表示實際上應該是這樣:

wKgZomVx5nKAaE0IAALmdPXcCwY271.jpg

并且,在谷歌給到的一篇解釋多模態(tài)交互過程的博客中,似乎表明了演示視頻里,Gemini實時互動并不是真的,而是使用了靜態(tài)圖片,通過多段提示詞拼湊,最后再剪輯視頻,才達到了演示視頻里的效果。

wKgaomVx5nOANtJfAALLPAPOdSk302.jpg

不管谷歌是不是有意使用“障眼法”,Gemini的發(fā)布無疑給看似穩(wěn)定的AI界帶來了一些“動蕩”。

并且,谷歌還宣布推出了迄今為止最強大、最高效、最可擴展的TPU系統(tǒng):Cloud TPU v5p,Gemini正式在此基礎上訓練的,這意味著谷歌將有能力拜托英偉達的算力限制,也算給了AI芯片市場帶來了一些變化。

大模型的多模態(tài)探索

隨著ChatGPT通過升級迭代,擁有了多模態(tài)能力,以及Gemini所展現(xiàn)出來的原生多模態(tài)能力,我們可以清晰地感受到,AI大模型浪潮已經(jīng)進入了一個全新的階段,即從大語言模型轉向多模態(tài)模型。后者將更符合人類和世界交互最自然的方式:用眼睛看,用耳朵聽,用嘴巴說,用文字記錄與決策。

wKgaomVx5nSAT2CIAAmclVNR7hE455.jpg

多模態(tài)領域的技術探索,與互聯(lián)網(wǎng)媒介形式的變化也十分吻合,即從文字媒體,再到

音視頻媒體。如今,隨著抖音以及TikTok等短視頻平臺的興起,視頻已經(jīng)成為了我們這個信息時代的主流。

根據(jù)思科的年度互聯(lián)網(wǎng)報告,視頻已經(jīng)占據(jù)了互聯(lián)網(wǎng)超過80%的流量

很明顯,如果一個AI大模型不具備識別圖像以及音視頻的能力,那么其訓練數(shù)據(jù)將會跟不上信息迭代的速度,其能力也將大打折扣。

現(xiàn)如今,在多模態(tài)模型道路的探索上,除了GPT,Gemini也加入了進來,不知道未來Meta的Llama還有馬斯克的Grok等等,是否也將加入角逐?


審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Gemini
    +關注

    關注

    0

    文章

    56

    瀏覽量

    7616
  • AI
    AI
    +關注

    關注

    87

    文章

    31520

    瀏覽量

    270339
  • GPT
    GPT
    +關注

    關注

    0

    文章

    360

    瀏覽量

    15505
  • 大模型
    +關注

    關注

    2

    文章

    2548

    瀏覽量

    3169
收藏 人收藏

    評論

    相關推薦

    谷歌正式發(fā)布Gemini 2.0 性能提升近兩倍

    在智能體時代,谷歌再次引領技術潮流,正式發(fā)布了其最新力作——Gemini 2.0。這款AI模型不僅在性能上實現(xiàn)了顯著提升,更是在
    的頭像 發(fā)表于 12-12 14:22 ?407次閱讀

    谷歌發(fā)布Gemini 2.0 AI模型

    谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名為“深度研究”的新特性,旨在為用戶提供更加全面和深入的復雜主題探索與報告撰寫輔助。 Gemini 2.0通過高
    的頭像 發(fā)表于 12-12 10:13 ?306次閱讀

    Llama 3 與 GPT-4 比較

    隨著人工智能技術的飛速發(fā)展,我們見證了一代又一代的AI模型不斷突破界限,為各行各業(yè)帶來革命性的變化。在這場技術競賽中,Llama 3和GPT-4作為兩個備受矚目的模型,它們代表了當前AI領域的最前
    的頭像 發(fā)表于 10-27 14:17 ?545次閱讀

    科大訊飛發(fā)布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

    超過GPT-4 Turbo,數(shù)學能力和代碼能力更是超過了Open AI最新一代GPT模型GPT-4o。此外,其效率相對提升50%。
    的頭像 發(fā)表于 10-24 11:39 ?557次閱讀

    國內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和模態(tài)GPT4o API調(diào)用開發(fā)教程!

    1. 前言 ChatGPT-4o API 是 OpenAI 提供的強大工具,可用于自然語言處理和模態(tài)任務。在國內(nèi)直聯(lián)使用這些服務需要一些配置和技巧。本文將詳細介紹GPT-4o模型以及
    的頭像 發(fā)表于 06-08 00:33 ?5556次閱讀
    國內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>GPT4</b>o API調(diào)用開發(fā)教程!

    谷歌發(fā)布模態(tài)AI新品,加劇AI巨頭競爭

    在全球AI競技場上,谷歌與OpenAI一直穩(wěn)居領先地位。近日,谷歌在I/O開發(fā)者大會上掀起了一股新的技術浪潮,發(fā)布了多款全新升級的
    的頭像 發(fā)表于 05-16 09:28 ?492次閱讀

    阿里云發(fā)布通義千問2.5大模型,多項能力超越GPT-4

    阿里云隆重推出了通義千問 2.5 版,宣稱其“技術進步,全面超越GPT-4”,尤其是在中文環(huán)境中的多種任務(如文本理解、文本生成、知識問答及生活建議、臨時聊天及對話以及安全風險評估)方面表現(xiàn)出色,超越了GPT-4
    的頭像 發(fā)表于 05-09 14:17 ?1038次閱讀

    商湯科技發(fā)布5.0模態(tài)大模型,綜合能力全面對標GPT-4 Turbo

    商湯科技發(fā)布5.0模態(tài)大模型,綜合能力全面對標GPT-4 Turbo 4月23日,商湯科技董事長兼CEO徐立在2024商湯技術交流日上
    的頭像 發(fā)表于 04-24 16:49 ?1179次閱讀

    谷歌推出模態(tài)VLOGGER AI

    谷歌最新推出的VLOGGER AI技術引起了廣泛關注,這項創(chuàng)新的模態(tài)模型能夠讓靜態(tài)肖像圖“活”起來并“說話”。用戶只需提供一張人物肖像照片和一段音頻內(nèi)容,VLOGGER
    的頭像 發(fā)表于 03-22 10:45 ?904次閱讀

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級至GPT-4取得顯著進步,如今再次更新至性能卓越的GPT-4 Turbo模型,這無疑將使得
    的頭像 發(fā)表于 03-13 13:42 ?780次閱讀

    火種AI|秒殺GPT-4,狙殺GPT-5,橫空出世的Claude 3振奮人心!

    GPT-4被拉下神壇, Claude 3很可能對GPT-4實現(xiàn)全方位的碾壓 。 Anthropic發(fā)布3個模型,全方位實現(xiàn)
    的頭像 發(fā)表于 03-06 22:22 ?715次閱讀
    新<b class='flag-5'>火種</b><b class='flag-5'>AI</b>|秒殺<b class='flag-5'>GPT-4</b>,狙殺<b class='flag-5'>GPT</b>-5,橫空出世的Claude 3振奮人心!

    OpenAI推出ChatGPT新功能:朗讀,支持37種語言,兼容GPT-4GPT-3

    據(jù)悉,“朗讀”功能支持37種語言,且能夠自主識別文本類型并對應相應的發(fā)音。值得關注的是,該功能對GPT-4以及GPT-3.5版本的ChatGPT均適用。此舉彰顯了OpenAI致力于“模態(tài)
    的頭像 發(fā)表于 03-05 15:48 ?1007次閱讀

    Anthropic推出Claude 3系列模型,全面超越GPT-4,樹立AI新標桿

    近日,AI領域的領軍企業(yè)Anthropic震撼發(fā)布了全新的Claude 3系列模型,該系列模型在模態(tài)和語言能力等關鍵領域展現(xiàn)出卓越性能,成功擊敗了此前被廣泛認為是全球最強
    的頭像 發(fā)表于 03-05 09:49 ?742次閱讀

    全球最強大模型易主:GPT-4被超越,Claude 3系列嶄露頭角

    近日,人工智能領域迎來了一場革命性的突破。Anthropic公司發(fā)布了全新的Claude 3系列模型,該系列模型在模態(tài)和語言能力等關鍵指標上展現(xiàn)出卓越性能,成功超越了此前被廣泛認為是全球最強
    的頭像 發(fā)表于 03-05 09:42 ?709次閱讀

    谷歌Gemini 1.5深夜爆炸上線,史詩級模態(tài)硬剛GPT-5!最強MoE首破100萬極限上下文紀錄

    我們經(jīng)歷了LLM劃時代的一夜。GeminiUltra發(fā)布還沒幾天,Gemini1.5就來了。卯足勁和OpenAI微軟一較高下的谷歌,開始進入了高產(chǎn)模式。自家最強的Gemini1.0Ul
    的頭像 發(fā)表于 02-19 12:28 ?769次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b> 1.5<b class='flag-5'>深夜</b>爆炸上線,史詩級<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>硬剛<b class='flag-5'>GPT</b>-5!最強MoE首破100萬極限上下文紀錄
    百家乐官网娱乐网代理佣金| 澳门顶级赌场官网| 迪威百家乐娱乐平台| 百家乐龙虎玩| 太阳城线上娱乐城| 六合彩报码| 阳东县| 百家乐官网软件编辑原理| 真人百家乐官网游戏网址| 百家乐分析下载| 百家乐网上娱乐场开户注册| rmb百家乐的玩法技巧和规则| 恒利百家乐的玩法技巧和规则| 大发888yule| 淮阳县| 百家乐官网龙虎玩| 百家乐官网视频打麻将| 真人百家乐官网娱乐场开户注册 | 百家乐倍投软件| 澄城县| 上海玩百家乐官网算不算违法 | 百家乐时时彩网站| 大发888娱乐城送58| 百家乐官网注册送彩金平台| 百家乐官网电子| 大发888真钱棋牌| 帝王百家乐全讯网2| 大发888开户注册哪家好| 合肥百家乐官网赌博机| 有百家乐的游戏平台| 456棋牌游戏| 博之道百家乐官网的玩法技巧和规则| 波音百家乐现金网| 百家乐官网博彩金| 百家乐平玩法lm0| 云博国际| 网上百家乐好玩吗| 邵阳县| 百家乐官网视频麻将游戏| 美女百家乐官网的玩法技巧和规则 | 百家乐赌场策略|