衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓練數據陷難題

新火種 ? 來源:新火種 ? 作者:新火種 ? 2023-12-20 09:09 ? 次閱讀

作者:一號

編輯:小迪

谷歌過于心急,Gemini推出不到半月,就遭遇兩次“危機”。

美東時間12月6日,谷歌推出了迄今為止規模最大,能力最強的大模型Gemini。其原生多模態的能力,通過一條約6分鐘的演示視頻,展現得淋漓盡致,讓人不得不感慨它的強大,就連馬斯克都評論說,“(Gemini)令人印象深刻”。

谷歌在AI領域的成就有目共睹,盡管之前推出的Bard表現不盡人意,讓谷歌市值一夜蒸發了1000億美元。但經過一年沉淀,加上和DeepMind聯合研發,所以Gemini(雙子星)可是被寄予了厚望。

但是,Gemini發布后僅一天,就有人指控谷歌“造假”。除了在數據對比上沒有使用相同條件,演示視頻效果也是經過剪輯的。逼得谷歌不得不給出文檔承認視頻是經過加工的。

12月14日,視頻“造假”事件還沒降溫,谷歌就宣布對外免費開放Gemini Pro的API。讓不少人高興得奔走相告。因為相較于GPT-4收費版才能擁有的視覺模型,Gemini Pro可以直接給平民AI玩家體驗AI視覺能力的機會。

但就在API開放后不久,就有用戶發現,在Poe上使用Gemini Pro時,如果用簡體中文連續詢問“你好”和“你是誰”這兩個問題時,Gemini Pro會直接說出“我是百度文心大模型”這樣的回答,給網友都看“呆”了。

谷歌Gemini被百度文心一眼“奪舍”了?

微博大V闌夕就發博展示了這樣的效果,就連進一步詢問“你的創始人是誰”時,它也很干脆地回答:李彥宏。

wKgZomWBqMqAfHd-AAQRnmzppkY379.jpg

難道Gemini被百度“奪舍”了?不少人懷疑這是因為博主在對話前面設置了提示詞,讓Gemini扮演文心一言,但這位博主強調,沒有任何前置對話。

wKgaomWBqMuAEsG6AAFYsarFxxM625.jpg

本著求真的態度,我們也去Poe上試用了一下,結果真的可以復現。

wKgZomWBqMuAAcdgAAP589GT9k0828.jpg

會不會是Poe平臺上的接口用錯了?不過Poe平臺可不是什么野雞套殼網站,它是美版知乎Quora推出的AI聊天機器人平臺,你所熟知的ChatGPT、Claude等知名AI都可以在上面使用。而且如果你使用英文提問Gemini,它就會立刻恢復正常。并且單就從“作案動機”上來講,Poe也沒有必要這么做。

除此之外,還有用戶在谷歌自己的Vertex AI平臺上,使用中文對話,也出現了這種情況。因此,Poe的接口使用出錯,這個可能基本可以被排除,問題應該出在Gemini本身。

wKgaomWBqMyAODq1AACIPl0BLUc359.jpg

使用AI生成的數據進行訓練已不新鮮

這樣看下來,要么就是谷歌使用了百度文心一言的語料進行訓練,要么就是它所使用的語料已經被AI“污染”了。

其實大模型訓練使用其他大模型生成的語料這件事情已經不是第一次發生,并且谷歌還是有“前科”的。在上一代Bard時,谷歌就曾被曝出使用ChatGPT的數據進行訓練,并且根據The Information報道,這件事情還造成了Jacob Devlin從谷歌離職。

就在上周末,字節跳動也被OpenAI禁止使用API接口,原因也是因為說字節在使用GPT訓練自己的AI,違反了使用條例。

wKgZomWBqMyAPJd4AAJ1abXz8sA239.jpg

如果按照現在每個模型堆“訓練數據量”的操作來看,互聯網上的人類原生的數據很快就會用完,并且各個模型之間也將會很相似。因此,獲取一些未被別人拿去訓練的數據,是模型之間保持差異化的一種方法。因此,有些AI公司會向一些擁有專屬數據的公司購買數據。例如OpenAI就曾表示愿意每年支付高達八位數的費用,用以獲取彭博社自有的歷史和持續的金融文件數據訪問權限。

wKgaomWBqM2AIpbBAAMBO88ElR0114.jpg

另一個思路,就是選擇使用AI合成的數據來進行訓練。香港大學、牛津大學和字節跳動的幾名研究院就曾嘗試過使用高質量AI合成圖片,來提升圖像分類模型的性能,結果發現效果還不錯,甚至比真實數據訓練還要好。

AI生成的內容正在“污染”互聯網

而從另一方面來看,AI生成的內容污染互聯網也是一個不得不重視的問題了。尤其是生成式AI大爆發的今年。在文字、圖像、視頻還有音頻等領域,AI生成的內容都正在“污染”互聯網上數據內容。

就在上個月,一些網友發現,在谷歌搜索上輸入已故夏威夷歌手Israel Kamakawiwo’ole的名字是,得到的搜索結果,前幾張圖片都是有AI生成的,而并非真實照片,并且這是一位以彈奏尤克里里而聞名的音樂家,但圖片里的他卻在彈吉他。

在文字方面也是,隨著百家號等媒體平臺上出現的AI幫寫等功能,AI生成的文章已經開始在互聯網上“蔓延”,這讓普通人在互聯網上篩選真實且有效的信息的效率反而降低了。可以說,AI生成內容對互聯網語料的“污染”,可能會導致產生一個新的需求,那就是幫人們分辨內容是否由AI生成的AI。

畢竟,目前訓練AI所需要的數據還是人類所生產的,在數據清洗過程中,需要注意清除一些由其他AI生成的內容。一旦互聯網上AI生成的內容越多,越能以假亂真,那么數據篩選的難度將越大。并且在大模型出現“幻覺”以及AI如何產生“智能涌現”這兩個問題沒有得到徹底解決之前,我想我們都無法做到徹底信賴AI生成的內容。

畢竟一旦AI生成了錯誤的內容,而另一個AI拿著這個內容去訓練,然后再另一個AI拿到新的錯誤內容......這樣“滾雪球”下去,AI最終會生成什么樣的逆天垃圾,我們真的無法想象。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Gemini
    +關注

    關注

    0

    文章

    56

    瀏覽量

    7616
  • AI
    AI
    +關注

    關注

    87

    文章

    31524

    瀏覽量

    270339
  • 文心一言
    +關注

    關注

    0

    文章

    125

    瀏覽量

    1329
收藏 人收藏

    評論

    相關推薦

    百度一言APP升級為

    百度宣布其文一言APP正式升級為,標志著百度在智能搜索領域邁出了重要
    的頭像 發表于 09-04 16:06 ?574次閱讀

    百度發布大模型4.0 Turbo與飛槳框架3.0,引領AI技術新篇章

    SUMMIT深度學習開發者大會2024上,向世界展示了百度AI領域的最新成果——大模型4.0 Turbo和飛槳框架3.0,并詳細披露了飛槳
    的頭像 發表于 06-29 16:03 ?725次閱讀

    百度大模型4.0 Turbo,正式發布 用戶規模已達3億

    的最新數據,并正式發布大模型4.0 Turbo、飛槳框架3.0等最新技術,披露飛槳生態最新成果。 ?01?
    的頭像 發表于 06-29 10:06 ?923次閱讀

    百度申請商標

    近日,百度在線網絡技術(北京)有限公司在知識產權領域有了新動作。據天眼查知識產權信息顯示,百度已申請多枚“”商標,這些商標將涵蓋廣告銷售、網站服務、健身器材、機械設備等多個領域。
    的頭像 發表于 06-19 09:20 ?532次閱讀

    互聯網大廠 AI App 大橫評:元寶、通義、豆包和文一言哪家強?

    騰訊終于也發布了toC的AI大模型APP——元寶,至此國內的四家大廠的AI大模型APP總算是集齊了。有請各家選手登場:百度
    的頭像 發表于 06-06 08:04 ?1727次閱讀
    互聯網大廠 <b class='flag-5'>AI</b> App 大橫評:元寶、通義、豆包和文<b class='flag-5'>心</b><b class='flag-5'>一言</b>哪家強?

    2024百度移動生態萬象大會:百度新搜索11%內容已AI生成

    萬象大會上百度集團資深副總裁、百度移動生態事業群組(MEG)總經理何俊杰公布了項統計數據百度新搜索已有11%的搜索內容是由
    發表于 05-30 18:58 ?447次閱讀

    李彥宏高度評價百度一言模型及AI技術,強調商業化將持續推進

    據了解,目前已有近10萬家企業使用了一言的能力,其中10%的大搜流量由該模型產生,每日有250萬用戶受益于文庫的AI功能。未來,百度計劃
    的頭像 發表于 05-11 10:44 ?584次閱讀

    火種AI|李彥宏發聲:一言4.0在國內可以取代ChatGPT!事實真的如此嗎?

    一言 VS ChatGPT,誰更勝籌?
    的頭像 發表于 04-19 10:14 ?865次閱讀
    新<b class='flag-5'>火種</b><b class='flag-5'>AI</b>|李彥宏發聲:<b class='flag-5'>文</b><b class='flag-5'>心</b><b class='flag-5'>一言</b>4.0在國內可以取代ChatGPT!事實真的如此嗎?

    百度一言用戶破2億,AI原生應用開發數量達19萬

    此外,李彥宏還提到,百度在去年 8 月宣布開放一言后,不僅在C端借助大模型改造用戶產品,將AI功能融入旗下多款產品;同時在B端,通過云業
    的頭像 發表于 04-16 15:05 ?685次閱讀

    百度一言新增定制聲音功能,數秒即可生成個人語音

    通過IT之家所述,用戶只需啟動一言App并點擊底部“+”按鈕,進入創建智能體界面;在聲音設置處找到專為個人量身打造的“創建我的聲音”功能。
    的頭像 發表于 04-07 16:20 ?981次閱讀

    優必選宣布人形機器人Walker S接入百度大模型

    優必選宣布人形機器人Walker S接入百度大模型,共同探索中國AI大模型+人形機器人的應用。
    的頭像 發表于 04-07 10:17 ?969次閱讀

    極越01 OTA V1.4.0升級,融合一言等技術,實現人車家深度融合

    平指出,目前極越 01已成功整合百度地圖、一言、Apollo以及小等多項技術。此外,
    的頭像 發表于 03-26 11:20 ?741次閱讀

    百度將為國行iPhone16提供AI功能

    谷歌、OpenAI 等公司的AI 。 國行iPhone16搭載百度AI功能的話會不會是內置
    的頭像 發表于 03-25 16:23 ?1028次閱讀

    一言將在2024年貢獻數十億元的增量收入

    百度一言在2024年有望為百度帶來數十億元人民幣的增量收入,這預測由
    的頭像 發表于 03-04 11:32 ?1297次閱讀

    是德科技如何賦能醫療AI大模型應用呢?

    自從ChatGPT爆火以來,各種AI大模型紛紛亮相,如百度科技的一言,科大訊飛的訊飛星火,華為的盤古
    的頭像 發表于 02-28 09:35 ?2409次閱讀
    做生意门朝向什么方向| 百家乐百博| qq德州扑克下载| 网上百家乐官网赌场娱乐网规则| 百家乐园云鼎赌场娱乐网规则 | 风水24山向| 女优百家乐的玩法技巧和规则| 百家乐官网最好的玩法| 百家乐破解分| 澳门百家乐官网会出千吗| 海尔百家乐的玩法技巧和规则 | 大发888娱乐城攻略| 易球百家乐官网娱乐城| 正品百家乐玩法| 百家乐官网金海岸软件| 大发888xp缺少 casino| 海王星百家乐官网的玩法技巧和规则 | 百家乐全程打庄| 金宝博滚球| 网络百家乐漏洞| 百家乐官网桌颜色可定制| 网上玩百家乐的玩法技巧和规则| 百家乐官网开户平台| 水果老虎机的规律| 网络老虎机| 百家乐足球投注网哪个平台网址测速最好| 百家乐官网做中介赚钱| 全讯网新宝2| 娱乐网百家乐官网补丁| 德州扑克概率| 百家乐闲9点| 菲律宾百家乐官网排行| 德州扑克读牌| 做生意门朝山| 托克逊县| 有钱人百家乐的玩法技巧和规则 | 大发888娱乐场 注册| 正宗杨公风水24山分金| 寿阳县| 水果机榨汁机| 百家乐分析软件下|