構建能夠在任何環境中無縫操作、使用各種技能處理不同物體和完成多樣化任務的通用機器人,一直是人工智能領域的長期目標。然而,不幸的是,大多數現有的機器人系統受到限制——它們被設計用于特定任務、在特定數據集上進行訓練,并在特定環境中部署。這些系統通常需要大量標注數據,依賴于特定任務的模型,在現實世界場景中部署時存在諸多泛化問題,并且難以對分布變化保持魯棒性。
受到網絡規模大容量預訓練模型(即基礎模型)在自然語言處理(NLP)和計算機視覺(CV)等研究領域開放集表現和內容生成能力印象深刻的啟發,我們將本綜述(survey)致力于探索(i)如何將現有的NLP和CV領域的基礎模型應用于機器人技術領域,以及(ii)專門針對機器人技術的基礎模型將會是什么樣子。我們首先概述了傳統機器人系統的構成及其普遍適用性的基本障礙。
接著,我們建立了一個分類體系,討論了當前利用現有基礎模型進行機器人技術探索和開發針對機器人技術的模型的工作。最后,我們討論了使用基礎模型啟用通用機器人系統的關鍵挑戰和有前景的未來發展方向。我們鼓勵讀者查看我們的“活動”GitHub倉庫,其中包括本綜述中審閱的論文以及相關項目和用于開發機器人技術基礎模型的倉庫資源:https://robotics-fm-survey.github.io/。 ?
?
? 我們在開發能夠適應不同環境并在其中運作的自治機器人系統方面仍面臨許多挑戰。以往的機器人感知系統利用傳統深度學習方法,通常需要大量標記數據來訓練監督學習模型[1-3];與此同時,為這些大型數據集構建眾包標記過程仍然相當昂貴。此外,由于傳統監督學習方法的泛化能力有限,訓練出的模型通常需要精心設計的領域適應技術才能將這些模型部署到特定場景或任務[4, 5],這往往需要進一步的數據收集和標記。
類似地,傳統的機器人規劃和控制方法通常需要精確建模世界、自主體的動力學和/或其他代理的行為[6-8]。這些模型針對每個特定環境或任務建立,并且在發生變化時通常需要重新構建,暴露了它們的有限可遷移性[8];事實上,在許多情況下,構建有效模型要么太昂貴,要么不切實際。盡管基于深度(強化)學習的運動規劃[9, 10]和控制方法[11-14]可以幫助緩解這些問題,但它們也仍然受到分布變化和泛化能力降低的困擾[15, 16]。 ?
在構建具有泛化能力的機器人系統所面臨的挑戰的同時,我們也注意到自然語言處理(NLP)和計算機視覺(CV)領域的顯著進步——引入了大型語言模型(LLMs)[17]用于NLP,使用擴散模型進行高保真圖像生成[18, 19],以及使用大容量視覺模型和視覺語言模型(VLMs)實現CV任務的零次/少次學習泛化[20-22]。
這些被稱為“基礎模型”[23],或簡稱為大型預訓練模型(LPTMS),這些大容量視覺和語言模型也已應用于機器人技術領域[24-26],有潛力賦予機器人系統開放世界的感知、任務規劃甚至運動控制能力。除了直接應用現有的視覺和/或語言基礎模型于機器人任務之外,我們也看到了開發更多針對機器人的特定模型的相當潛力,例如用于操控的動作模型[27, 28]或用于導航的運動規劃模型[29]。這些機器人基礎模型在不同任務甚至不同實體上顯示出了極大的泛化能力。
視覺/語言基礎模型也已直接應用于機器人任務[30, 31],顯示了將不同機器人模塊融合為單一統一模型的可能性。盡管我們看到將視覺和語言基礎模型應用于機器人任務以及開發新的機器人基礎模型的有前景的應用,但許多機器人技術的挑戰仍然難以企及。從實際部署的角度來看,模型通常無法復制,缺乏多實體泛化能力,或者無法準確捕捉環境中可行(或可接受)的情況。此外,大多數出版物利用基于Transformer的架構,專注于物體和場景的語義感知、任務級規劃或控制[28];其他可能受益于跨領域泛化能力的機器人系統組成部分尚未被充分探索——例如,用于世界動力學的基礎模型或可以進行符號推理的基礎模型。最后,我們想強調需要更多大規模實際數據以及具有多樣化機器人任務的高保真模擬器。 ?
在本文中,我們調查了基礎模型在機器人技術中的應用,并旨在理解基礎模型如何幫助緩解核心機器人技術挑戰。我們使用“機器人技術基礎模型”一詞來包括兩個不同的方面:(1)將現有的(主要是)視覺和語言模型應用于機器人技術,主要通過零樣本學習和情境學習;以及(2)使用機器人生成的數據開發和利用專門針對機器人任務的機器人基礎模型。我們總結了機器人技術基礎模型論文的方法論,并對我們調查的論文的實驗結果進行了元分析。 ?
本文的主要組成部分在圖1中進行了總結。本文的整體結構如圖2所述。在第2節中,我們簡要介紹了基礎模型時代之前的機器人研究,并討論了基礎模型的基礎知識。在第3節中,我們列舉了機器人研究中的挑戰,并討論了基礎模型可能如何緩解這些挑戰。在第4節中,我們總結了機器人技術中基礎模型的當前研究現狀。最后,在第6節中,我們提出了可能對這一研究交叉領域產生重大影響的潛在研究方向。 ?
? 機器人技術中的挑戰? ? 在本節中,我們總結了典型機器人系統中各種模塊面臨的五個核心挑戰,每個挑戰都在以下小節中詳細介紹。盡管類似的挑戰已在先前文獻中討論過(見第1.2節),但本節主要關注那些可能通過適當利用基礎模型來解決的挑戰,這一點從當前研究結果中得到了證據。我們還在本節中描述了分類法,以便在圖3中更容易回顧。 ?
?
? 用于機器人技術的基礎模型 ? 在本節中,我們重點討論在機器人技術中零次學習應用視覺和語言基礎模型。這主要包括用于機器人感知的VLMs的零樣本學習部署,在任務級別和運動級別規劃以及動作生成方面的LLMs的情境學習。我們在圖6中展示了一些代表性的工作。 ?
? 機器人基礎模型(RFMs)
隨著包含真實機器人的狀態-動作對的機器人數據集數量的增加,機器人基礎模型(RFMs)的類別也變得越來越可行[28, 29, 176]。這些模型的特點是使用機器人數據來訓練,以解決機器人任務。在本小節中,我們總結并討論了不同類型的RFMs。我們首先介紹能夠在第2.1節中的一個機器人模塊內執行一組任務的RFMs,這被定義為單一目的的機器人基礎模型。例如,一個能夠生成用于控制機器人的低級動作的RFM,或一個能夠生成更高級別運動規劃的模型。之后,我們介紹能夠在多個機器人模塊中執行任務的RFMs,因此它們是能夠執行感知、控制甚至非機器人任務的通用模型[30, 31]。
? 如何利用基礎模型解決機器人技術挑戰?
? 在第3節中,我們列出了機器人技術中的五個主要挑戰。在本節中,我們總結了基礎模型——無論是視覺和語言模型還是機器人基礎模型——如何以更有組織的方式幫助解決這些挑戰。? ? 所有與視覺信息相關的基礎模型,如VFMs、VLMs和VGMs,都用于機器人技術中的感知模塊。而LLMs則更加多功能,可以應用于規劃和控制領域。我們還在這里列出了RFMs,這些機器人基礎模型通常用于規劃和動作生成模塊。我們在表1中總結了基礎模型如何解決前述的機器人技術挑戰。從這個表中我們可以看出,所有基礎模型都擅長于各種機器人模塊任務的泛化。此外,LLMs尤其擅長于任務規范化。另一方面,RFMs擅長處理動力學模型的挑戰,因為大多數RFMs是無模型方法。?
? 對于機器人感知,泛化能力和模型的挑戰是相互聯系的,因為,如果感知模型已經具有非常好的泛化能力,那么就沒有必要為了領域適應或額外的微調而獲取更多數據。此外,解決安全挑戰的呼聲在很大程度上缺失,我們將在第6節中討論這個特殊問題。用于泛化的基礎模型 零次泛化是當前基礎模型的最顯著特征之一。機器人技術幾乎在所有方面和模塊都受益于基礎模型的泛化能力。首先,VLM和VFM作為默認的機器人感知模型在感知方面的泛化能力是一個很好的選擇。第二方面是任務級規劃的泛化能力,由LLMs[24]生成任務計劃的細節。第三個方面是運動規劃和控制方面的泛化能力,通過利用RFMs的力量。?
? 用于數據稀缺的基礎模型?
基礎模型在解決機器人技術中的數據稀缺問題上至關重要。它們為使用最少的特定數據學習和適應新任務提供了堅實的基礎。例如,最近的方法利用基礎模型生成數據來幫助訓練機器人,如機器人軌跡[236]和仿真[237]。這些模型擅長從少量示例中學習,使機器人能夠使用有限的數據快速適應新任務。從這個角度來看,解決數據稀缺問題相當于解決機器人技術中的泛化能力問題。除此之外,基礎模型——尤其是LLMs和VGMs——可以生成用于訓練感知模塊[238](見上面的4.1.5節)和任務規范化[239]的機器人技術數據集。? ?
用于減輕模型要求的基礎模型
正如第3.3節所討論的,建立或學習一個模型——無論是環境地圖、世界模型還是環境動力學模型——對于解決機器人技術問題至關重要,尤其是在運動規劃和控制方面。然而,基礎模型展現的強大的少/零次泛化能力可能會打破這一要求。這包括使用LLMs生成任務計劃[24],使用RFMs學習無模型的端到端控制策略[27, 256]等。? ?
用于任務規范化的基礎模型?
任務規范化作為語言提示[24, 27, 28],目標圖像[181, 272],展示任務的人類視頻[273, 274],獎勵[26, 182],軌跡粗略草圖[239],政策草圖[275]和手繪圖像[276],使目標規范化以一種更自然、類人的格式實現。多模態基礎模型允許用戶不僅指定目標,還可以通過對話解決歧義。最近在理解人機交互領域中的信任和意圖識別方面的工作開辟了我們理解人類如何使用顯式和隱式線索傳達任務規范化的新范式。雖然取得了顯著進展,但最近在LLMs提示工程方面的工作表明,即使只有一個模態,也很難生成相關輸出。視覺-語言模型被證明在任務規范化方面尤其擅長,顯示出解決機器人技術問題的潛力。擴展基于視覺-語言的任務規范化的理念,崔等人[181]探索了使用更自然的輸入,如從互聯網獲取的圖像,實現多模態任務規范化的方法。Brohan等人[27]進一步探索了從任務無關數據進行零次轉移的這一理念,提出了一個具有擴展模型屬性的新型模型類。該模型將高維輸入和輸出,包括攝像頭圖像、指令和馬達命令編碼成緊湊的令牌表示,以實現移動操縱器的實時控制。? ?
用于不確定性和安全的基礎模型?
盡管不確定性和安全是機器人技術中的關鍵問題,但使用機器人技術基礎模型解決這些問題仍然未被充分探索。現有的工作,如KNOWNO[187],提出了一種測量和對齊基于LLM的任務規劃器不確定性的框架。最近在鏈式思考提示[277]、開放詞匯學習[278]和LLMs中幻覺識別[279]方面的進展可能為解決這些挑戰開辟新途徑。? ?
審核編輯:黃飛
?
評論
查看更多