電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)前有AI落地難,如今AI大模型的落地也遇到了一些挑戰(zhàn)。雖然各大企業(yè)推出了非常多的行業(yè)垂直大模型,不過(guò)這些模型基本上還是基于云端去實(shí)現(xiàn)。在終端,目前AI智能手機(jī)和AI PC是最熱門的兩大應(yīng)用。
我們簡(jiǎn)單看一下AI智能手機(jī)行業(yè),已經(jīng)有數(shù)家廠商推出了配置在手機(jī)端的大模型。以vivo的藍(lán)心大模型為例,可以通過(guò)抓取屏幕中的內(nèi)容,智能且直接地完成日程添加的操作,使用戶體驗(yàn)更為便捷。還有榮耀MagicOS 8,大模型讓榮耀手機(jī)能夠捕獲用戶的意圖。在AI PC方面,道理大抵是相通的。
那么,除了原本就比較智能且出貨量較大的智能手機(jī)和PC之外,AI大模型還有什么終端方向值得去探索呢?OpenAI 給出的答案是機(jī)器人。
把ChatGPT裝進(jìn)機(jī)器人的大腦
近日,機(jī)器人初創(chuàng)公司Figure發(fā)布了自己第一個(gè)OpenAI大模型加持的機(jī)器人demo。視頻內(nèi)容顯示,當(dāng)一個(gè)1.7米左右的機(jī)器人被植入GPT大模型之后,智能化水平顯著提升,不僅能夠和人類無(wú)違和對(duì)話,而且也具有非常強(qiáng)的動(dòng)手能力。
根據(jù)demo內(nèi)容,這個(gè)搭載GPT的機(jī)器人能夠非常準(zhǔn)確地描述自己所見(jiàn)的內(nèi)容,比如面前的蘋果和杯子,以及演示人員手部的動(dòng)作。并且,當(dāng)演示人員讓這個(gè)機(jī)器人遞些吃的東西過(guò)去時(shí),它能夠在幾乎不需要反應(yīng)時(shí)間的情況下將蘋果遞給演示人員。這個(gè)demo顯示出,搭載GPT的機(jī)器人已經(jīng)具有非常高的“意識(shí)自主性”,雖然有些對(duì)話需要時(shí)間反應(yīng),不過(guò)他最終都能夠做出正確的舉措。
據(jù)悉,機(jī)器人初創(chuàng)公司Figure擁有一個(gè)豪華的技術(shù)團(tuán)隊(duì),創(chuàng)始人Adcock重金從波士頓動(dòng)力、特斯拉、谷歌等公司挖了大量的人才。再加上有了GPT的加持,F(xiàn)igure 01機(jī)器人可以自主做計(jì)劃、執(zhí)行任務(wù)、有記憶、聽(tīng)懂人話,離具身智能的程度更近一步。
上一個(gè)引起行業(yè)廣泛關(guān)注的機(jī)器人是VIMA(Vision-and-Language Navigation with Multi-Modal Transformers)。VIMA由李飛飛教授及來(lái)自斯坦福大學(xué)、加州理工、清華大學(xué)和英偉達(dá)的幾位學(xué)者組成的團(tuán)隊(duì)聯(lián)合打造,是一個(gè)使用多模態(tài)提示執(zhí)行各類任務(wù)的機(jī)械體操作系統(tǒng)。根據(jù)介紹,VIMA是一個(gè)帶有機(jī)械臂的LLM,可以接受多模態(tài)提示詞,單個(gè)的文本、圖像、視頻或這些信息的結(jié)合。
太平洋證券曾在研報(bào)中指出,雖然當(dāng)前人形機(jī)器人的智能AI系統(tǒng)還不夠成熟,但當(dāng)前ChatGPT的出現(xiàn)已展現(xiàn)了生成式AI具備較強(qiáng)理解和生成對(duì)話能力,結(jié)合OpenAI投資人形機(jī)器人賽道,以及特斯拉等巨頭的入局,看好未來(lái)人形機(jī)器人更快商業(yè)化落地。
無(wú)疑,F(xiàn)igure 01機(jī)器人展示出當(dāng)下具身智能機(jī)器人的最新進(jìn)展。具身智能機(jī)器人要求機(jī)器人能夠像人類一樣與環(huán)境交互、感知、規(guī)劃、決策、行動(dòng)、執(zhí)行任務(wù)。英偉達(dá)創(chuàng)始人黃仁勛在 ITF World 2023 半導(dǎo)體大會(huì)上就大談特談具身智能。他認(rèn)為,具身智能是能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng),是人工智能的下一個(gè)浪潮。
相信隨著AI大模型技術(shù)越來(lái)越成熟,這種大模型和機(jī)器人的融合會(huì)更加成熟,到時(shí)候機(jī)器人可能會(huì)無(wú)縫融入人類社會(huì)。
大模型融入機(jī)器人的挑戰(zhàn)
不過(guò),憧憬是美好的,過(guò)程總是很艱辛。針對(duì)AI大模型和機(jī)器人的融合,當(dāng)前還有很多困難需要克服,就像Figure 01機(jī)器人一樣,它還有很多細(xì)節(jié)問(wèn)題無(wú)法很平滑地處理。
在2023年底舉辦的中國(guó)信通院人工智能論壇上,很多專家就談到了AI大模型的終端落地難題,其中一些問(wèn)題實(shí)際上也是適用于機(jī)器人行業(yè)的。
比如,第一個(gè)是算力和存儲(chǔ)問(wèn)題,當(dāng)AI大模型在云端訓(xùn)練時(shí),相對(duì)算力還是比較充沛的,不過(guò)當(dāng)部署到終端的時(shí)候,模型受限于算力和存儲(chǔ)能力的顯著下降就需要做瘦身。這就牽連出第二個(gè)問(wèn)題,由于實(shí)際應(yīng)用經(jīng)驗(yàn)嚴(yán)重匱乏,目前大部分AI大模型的瘦身都是“拍腦袋式”的,這也是為什么Figure 01機(jī)器人在一些問(wèn)題上應(yīng)對(duì)非常好,在一些問(wèn)題上卻需要很久的推理思考。因此,在硬件問(wèn)題上,成本就會(huì)是個(gè)大麻煩,成本太低的話,AI大模型受影響就會(huì)非常嚴(yán)重,成本太高的話就無(wú)法廣泛普及。
第二個(gè)是數(shù)據(jù)的問(wèn)題,以機(jī)器人來(lái)說(shuō),最終落地到終端會(huì)有比較明確的場(chǎng)景。然而,就需要利用這類場(chǎng)景數(shù)據(jù)對(duì)AI大模型進(jìn)行二次訓(xùn)練,如何對(duì)這些數(shù)據(jù)進(jìn)行高質(zhì)量清洗,另外如何微調(diào)數(shù)據(jù)以達(dá)到更好的部署效果,這些都是巨大的挑戰(zhàn),因?yàn)橛刑嘟?jīng)驗(yàn)空白區(qū)。有人會(huì)問(wèn),竟然要求具身智能,要像人類一樣,那么不是應(yīng)該具有廣泛的知識(shí)嗎?理想形態(tài)當(dāng)然是這樣,甚至是機(jī)器人在一些能力上超過(guò)人類,但是受限于硬件,短期看這是不現(xiàn)實(shí)的。
第三個(gè)是仿真和部署的問(wèn)題。我們都知道,具身智能的機(jī)器人需要和物理世界接觸并融入物理世界。這就遇到了一個(gè)問(wèn)題,智能體是基于虛擬仿真環(huán)境進(jìn)行設(shè)計(jì)的,不過(guò)智能體部署之后,現(xiàn)實(shí)世界要復(fù)雜很多,如何將虛擬世界和物理世界耦合是一個(gè)更大的挑戰(zhàn)。這不僅要求智能體模型具有非常好的可擴(kuò)展性和成長(zhǎng)性,還需要一個(gè)強(qiáng)大的通用智能本體平臺(tái)。可能有人已經(jīng)想到了硬件性能冗余,不過(guò)考慮到可靠性和成本問(wèn)題,單純性能冗余明顯是不夠的,特定場(chǎng)景通用走向社會(huì)性通用的過(guò)程中,硬件平臺(tái)架構(gòu)創(chuàng)新是非常關(guān)鍵的。
目前,頭部企業(yè)實(shí)現(xiàn)AI大模型和機(jī)器人融合的方式有一些差異性。微軟公司使用ChatGPT大型語(yǔ)言模型 (LLM) 將人的語(yǔ)言快速轉(zhuǎn)換為機(jī)器人的高層控制代碼,然后轉(zhuǎn)化為機(jī)器人的控制;谷歌PaLM-E模型則是一種視覺(jué)路線,能夠觀察物理實(shí)體世界的信息,由大模型進(jìn)行分析理解,再將決策結(jié)果反饋至物理世界;特斯拉則是打通FSD和機(jī)器人的底層模塊,實(shí)現(xiàn)一定的算法復(fù)用,特斯拉利用大規(guī)模的數(shù)據(jù)集訓(xùn)練模型,可以提高算法在復(fù)雜環(huán)境下的性能,并認(rèn)為自動(dòng)駕駛的本質(zhì)就是機(jī)器人。
從結(jié)果來(lái)看,目前AI大模型+機(jī)器人已經(jīng)實(shí)現(xiàn)了一些功能,但是離通用智能和規(guī)模部署還有一段路要走。
結(jié)語(yǔ)
AI大模型如何在終端落地?這是一個(gè)困擾行業(yè)的問(wèn)題,將本身就智能的智能手機(jī)和PC升級(jí),這當(dāng)然是一個(gè)路徑。不過(guò),具身智能的機(jī)器人會(huì)有更大的想象空間,當(dāng)然這條路道阻且長(zhǎng)。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28640瀏覽量
208395 -
AI大模型
+關(guān)注
關(guān)注
0文章
320瀏覽量
349
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論