這項由英國伯恩茅斯大學領導的研究發表於2026年6月,論文編號為arXiv:2606.15514v1,有興趣深入了解的讀者可以通過該編號查詢完整論文。
機器人正在走進我們的生活。從工廠流水線上精準抓取零件的機械臂,到醫院裡協助手術的輔助機器人,再到家庭服務場景中幫忙擺放餐具的智能助手——這些機器人幾乎無一例外地依賴攝影機來"看"清楚世界。然而,攝影機是脆弱的。它可能被物體遮擋,可能因硬體故障而黑屏,也可能在嘈雜的工業環境中出現信號衰減。當機器人的某隻"眼睛"突然失明,它還能繼續完成任務嗎?
現有的大多數機器人學習系統都有一個心照不宣的假設:所有傳感器在任務執行過程中始終正常運作。一旦攝影機掉線,這些系統的表現往往會斷崖式下跌,甚至完全癱瘓。面對這個現實世界中真實存在卻長期被忽視的痛點,伯恩茅斯大學的研究團隊提出了一個名為RL4IL的全新方法,讓機器人即便在攝影機完全失效的情況下,仍然能以相當高的成功率完成操作任務——而且完全不需要重新訓練系統。這是機器人學習領域首次將強化學習應用於從示範庫中檢索最佳示範樣本這一問題,為解決傳感器掉線難題提供了一條全新思路。
一、機器人是怎麼學會做事的?先從"照著葫蘆畫瓢"說起
要理解這項研究解決的是什麼問題,得先搞清楚機器人通常是怎麼學會操作任務的。研究團隊採用的核心範式叫做"模仿學習",這是目前最主流的機器人技能習得方式之一。
模仿學習的邏輯非常直觀,就像小孩子學包餃子一樣——先看大人做幾遍,然後自己照著做。在機器人領域,研究人員會通過遙控操作讓機器人記錄下一批"專家示範":每一次示範都包含機器人在操作過程中看到的畫面(來自多個攝影機的影片幀)、接收到的自然語言指令(比如"把紅色杯子放到盤子左邊"),以及對應的動作序列(關節角度、移動軌跡等)。這些示範被儲存成一個"示範庫",類似於一本厚厚的操作手冊,每一頁都記錄著"在這種情況下,應該做這些動作"。
當機器人遇到新任務時,它會查閱這本手冊,找到最相似的歷史記錄,然後照著那條記錄里的動作序列執行。這套邏輯在理論上簡潔優雅,但現實中有個致命弱點:找到"最相似記錄"的前提,是機器人能夠完整地感知當前環境。如果攝影機壞了,機器人就好像在黑暗中翻閱手冊,根本無從判斷眼前的情況和哪一頁記錄最接近。
伯恩茅斯大學的研究團隊正是針對這個痛點,構建了一套完整的補救機制。他們的核心思路是:就算攝影機壞了,我們也能從其他還在正常工作的傳感器(比如另一個攝影機、語言指令)中推斷出缺失的視覺資訊,然後再去示範庫里檢索最相關的記錄。整個過程不需要重新訓練任何模型,完全是在推斷階段實時完成的。
二、"凍結的知識"與"活躍的檢索者"——系統架構的整體設計
RL4IL系統的整體設計遵循一個清晰的分工原則:負責感知世界的編碼器(把原始圖像和文字轉換成數字向量的神經網路)在訓練結束後就被徹底"凍結",不再調整任何參數。所有的學習能力都集中在負責檢索和決策的模組上。
具體來說,系統使用了一個叫做CLIP ViT-B/32的預訓練模型作為編碼器。這個模型原本是OpenAI用海量圖文數據訓練出來的,能夠把一張圖片或一段文字轉化成一個512維的數字向量——可以把這個向量理解成一個由512個數字組成的"坐標",在一個巨大的抽象空間裡定位這張圖片或這段文字的含義。機器人的三種輸入——來自主攝影機的圖像、來自手持攝影機的圖像、以及自然語言指令——各自被編碼成一個512維向量,然後按照特定規則拼接在一起,形成一個完整的"觀測指紋"。
每一條示範記錄在被存入示範庫之前,都會經歷同樣的編碼過程,生成自己的"觀測指紋"。於是,"找最相似記錄"這個問題,就轉化成了"在高維空間裡找最近鄰點"的數學問題。
不過,在這裡研究團隊遇到了一個微妙的陷阱:三種模態的向量維度相同(都是512維),但它們各自內部數值的分布、量級可能差異懸殊。如果直接把三個向量拼在一起計算距離,數值量級較大的那個模態會無形中主導整個距離計算,就好像在評分時某科滿分1000分而其他科滿分100分——高分科目的差異會完全淹沒低分科目的差異。為了解決這個問題,研究團隊為每種模態單獨做了標準化處理,確保三種感知通道在距離計算中的貢獻權重完全對等。這種"公平距離"設計看似是個細節,但從後面的消融實驗來看,它對最終性能有顯著影響。
三、從"最近鄰投票"到"強化學習裁判"——檢索策略的升級
找到最近鄰記錄之後,最簡單的做法是直接使用那條記錄里的動作序列。稍微複雜一點的做法是取最近的若干條記錄,根據距離遠近加權平均。這兩種做法都有問題:前者孤注一擲,後者把好的和差的記錄攪和在一起,稀釋了真正有用的信號。
研究團隊引入了強化學習(Reinforcement Learning,簡稱RL)來扮演"裁判"的角色,從候選記錄中智能地選出最合適的那一條。強化學習是一種讓智能體通過不斷試錯、獲取獎勵信號來學會做決策的方法——就像訓練小狗做動作:做對了給零食,做錯了沒零食,久而久之小狗就學會了什麼情況下應該做什麼動作。
在RL4IL里,這個"裁判"需要從一個候選池中挑選出最優示範。候選池的構建方式很有意思:系統首先用標準的K近鄰算法找到距離查詢點最近的若干條記錄作為"種子",然後從這些種子出發,在示範庫構成的圖結構上做廣度優先搜索(BFS),擴展出一個更大的候選集合。這個圖可以理解成一張"示範地圖",每條記錄是地圖上的一個城市,兩個城市之間的道路距離對應它們的觀測指紋相似度。從種子城市出發,沿路最多走D步(實驗中D=6),所有能到達的城市都進入候選池。
這樣做的好處是,候選池不再局限於字面意義上最近的幾條記錄,而是延伸到了整個局部鄰域,包含了更多樣化的標籤和情境,給裁判更大的選擇空間。
"裁判"本身是一個注意力機制評分頭(Attention Scoring Head)。它接收兩類輸入:一是當前查詢點的特徵(包括其觀測向量、候選集內標籤的方差、候選集大小等),二是每個候選記錄的特徵(包括其觀測向量、在圖上與查詢點的距離、跳數、距離排名、以及標籤與集合均值的偏差)。把這兩類特徵拼接、點乘、再經過一個小型神經網路,就能得到每個候選記錄的得分。所有候選記錄的得分經過Softmax歸一化,就形成了一個概率分布,裁判從中採樣或取最高分者作為最終選擇。
訓練這個裁判時,研究團隊為每個訓練樣本定義了一個"神諭"——即候選池中與真實標籤一致且圖距離最短的那條記錄。如果裁判選中了神諭,獎勵為0;如果選了錯誤標籤的記錄,獎勵為-1。裁判通過近端策略優化(PPO)這種強化學習算法不斷調整自己的評分邏輯,目標是儘可能多地選中神諭。為了防止裁判記住候選集裡位置規律,每次訓練時候選集的順序都會被隨機打亂。
四、"軟融合"——不押寶單一示範,而是綜合多條記錄的集體智慧
即便有了智能裁判,完全押寶在單一最優示範上仍然存在風險。畢竟,在傳感器故障等嘈雜條件下,就連最好的候選記錄也可能存在偏差。研究團隊為此引入了一個"軟融合頭"(Soft Fusion Head),作為裁判之後的第二道處理。
軟融合的思路是:取裁判評分最高的若干條記錄(實驗中默認取前32條),用交叉注意力機制(Cross-Attention)為它們分配權重,然後將各記錄的動作信號按權重加權合併,得到最終的預測動作。
交叉注意力機制可以理解成一種"民主投票加權"機制:每條候選記錄根據自己與當前查詢的相關程度獲得不同的發言權,越相關的記錄權重越高,越不相關的記錄貢獻越小。具體實現上,系統用獨立的線性變換把查詢向量和各候選向量都投影到一個128維的共享空間,然後用H=4個注意力頭並行計算每個候選的權重,最後將各候選的動作標籤按權重加權求和,得到一個"軟化"的預測。這個軟預測再經過一個兩層MLP(多層感知機,可以理解成一個小型神經網路)進一步精煉,輸出最終預測動作。
從實驗結果來看,軟融合在幾乎所有測試場景下都優於或持平於只選單一最優示範的硬選擇策略,尤其在傳感器故障這種嘈雜條件下,多條候選記錄的集體智慧能有效抵消單條記錄可能存在的偏差。
五、攝影機壞了怎麼辦?——"缺失模態修復"的兩步走方案
現在來到整個系統最核心、也最有實用價值的部分:當某個攝影機真的在任務執行中途失效,系統該怎麼辦?
研究團隊設計了一套兩階段修複流程。當檢測到某個模態缺失時,系統首先用一個專門為該模態訓練的"供體檢索策略",從示範庫中找出幾條"供體記錄"——這些記錄的缺失模態數據是完整的,可以作為"器官捐獻者"。然後,一個"軟修復頭"(Soft Imputation Head)用交叉注意力機制綜合這幾條供體記錄的缺失模態向量,生成一個重建的替代向量,填補回完整觀測中去。整個修復過程結束後,系統繼續按照正常流程檢索示範、執行動作,其他組件完全不需要改動。
供體檢索策略同樣是用強化學習訓練的,但目標函數不同:在這裡,"神諭"定義為供體庫中缺失模態向量與真實缺失模態向量的L2距離最小的那條記錄——也就是向量空間裡最接近真實缺失值的那條記錄。獎勵信號是基於排名的連續值:(神諭排名 - 實際選擇排名) / (候選數 - 1),範圍在-1到+1之間,獎勵更細膩,引導策略把最好的供體推到排名最前面。
軟修復頭的結構與軟融合頭高度類似:取排名最高的32條供體記錄,在一個64維的共享空間裡用2個注意力頭計算權重,加權合成一個軟化的替代向量,再經過兩層MLP精煉,最終輸出一個512維的重建向量,維度與原始模態向量完全一致,可以無縫替換掉缺失的那一塊。
這個修復頭用監督學習方式訓練:把訓練集裡的某個模態人為遮蓋掉,讓系統嘗試重建,用重建向量與真實向量之間的均方誤差作為損失函數。供體檢索策略在修復頭訓練期間保持凍結,避免兩者相互干擾。
值得特別強調的是,整個修複流程在推斷階段完全不需要訪問真實的缺失向量(那本來就不存在)——訓練階段用真實向量定義神諭和計算損失,推斷階段則完全依賴現有可用模態的信號推斷缺失內容。這正是系統能夠真正做到"零樣本處理傳感器故障"的關鍵所在。
六、實驗結果——數字說話,差距有多大?
研究團隊在LIBERO基準測試套件的三個子集上進行了系統性評估:LIBERO-Spatial(測試空間位置推理,比如"把杯子放到書的左邊")、LIBERO-Object(測試物體中心操作)、LIBERO-Goal(測試目標導向的長序列任務)。三個套件共享同樣的觀測空間:一個主視角攝影機、一個手持攝影機、以及自然語言指令,每個任務提供50條專家示範,通過遙控操作錄製。
評估條件是最嚴苛的完全攝影機故障場景:要麼主攝影機完全失效,要麼手持攝影機完全失效。性能指標是任務成功率——在260步時間限制內完成任務的比例,跨3個隨機種子取平均,每個任務每個種子執行25次。
對照基線包括:標準行為克隆(BC)、解耦行為克隆(DisBC)、基於擴散策略的BESO-ACT、加入了模態隨機丟棄訓練的BESO-ACT-Dropout,以及最新的解耦擴散策略(DisDP)。
結果觸目驚心。標準行為克隆(BC)在所有攝影機故障場景下的成功率全部為零,完全無法應對傳感器失效。DisBC略好一點,在LIBERO-Object的主攝影機故障場景下能達到11%,但其餘場景幾乎也是全軍覆沒。BESO-ACT稍強,在LIBERO-Goal的主攝影機故障場景下能達到8.4%,LIBERO-Object下能達到20.4%,但在手持攝影機故障場景下急劇下降到1.2%。即便是專門為魯棒性設計的BESO-ACT-Dropout,在加入了模態隨機丟棄的訓練策略後,也只能在LIBERO-Spatial的手持攝影機故障場景下勉強達到2.3%,其餘場景都接近於零。最強基線DisDP在LIBERO-Goal和LIBERO-Object上能達到20%-29.5%,在LIBERO-Spatial上能達到11.2%-14.4%,已經是現有方法裡的最優水平。
RL4IL在這份成績單上的表現則是另一個維度:LIBERO-Goal的兩個故障場景分別達到70.0%和70.5%,LIBERO-Object分別達到73.3%和67.7%,LIBERO-Spatial分別達到54.0%和44.1%。與最強基線DisDP相比,RL4IL在LIBERO-Object主攝影機故障場景下的成功率是它的2.5倍,在LIBERO-Goal手持攝影機故障場景下是它的3.5倍多。更重要的是,RL4IL完全不需要重新訓練任何策略網路,而DisDP仍然需要完整的策略訓練流程。
七、細節決定成敗——三項消融實驗揭示各組件的貢獻
除了整體性能對比,研究團隊還做了三組消融實驗,逐一驗證各個設計選擇的必要性。
關於軟融合與硬選擇的對比:在六個測試場景(三個基準套件,各兩種故障條件)中,軟融合的成功率在幾乎所有場景下都不低於硬選擇,在LIBERO-Spatial兩種故障條件下的優勢最為明顯。這說明在傳感器故障這種充滿不確定性的環境下,綜合多條候選記錄的集體智慧確實比押寶單一最優記錄更穩健。
關於模態公平歸一化的效果:不做歸一化的版本在某些單獨條件下偶爾能取得更高分數,但研究團隊指出這是偶然現象而非真實改進——在特定數據集上,恰好某個模態的原始向量量級較大,而那個模態的資訊對該任務又恰好足夠充分,於是非歸一化版本歪打正著地表現出色。然而,這種"單一模態主導"的現象是數據集依賴的,換一個場景就可能完全失效。歸一化通過確保所有模態平等貢獻,讓系統在各種條件下的表現更加一致和可預測——這對於需要部署在真實環境中的系統來說,一致性比偶爾的高峰更有價值。
關於訓練輪數的影響:研究團隊測試了1、5、10、15、20輪訓練對結果的影響。LIBERO-Spatial和LIBERO-Object的性能隨訓練輪數變化較為平穩,說明系統對這兩個任務套件的學習收斂較快。LIBERO-Goal則呈現出隨訓練輪數增加而持續提升的趨勢,說明目標導向的長序列任務更複雜,需要更多訓練才能充分挖掘策略的潛力。一個令人欣喜的發現是,即便只訓練1輪,RL4IL的成功率已經超過了表格中所有基線方法的最佳成績——這意味著即便計算資源極度有限,這套方法也能帶來顯著收益。
關於融合候選數量K的敏感性:在4、8、12、16、32這五個候選數值範圍內,系統性能總體上相當穩定,沒有出現對某個特定K值極度敏感的情況。這說明RL4IL在超參數選擇上具有較強的魯棒性,研究人員無需花費大量精力精調這個參數,在合理範圍內隨便選一個就能獲得穩健表現。
說到底,這項研究講了一個很實在的故事:機器人不應該因為一個攝影機壞掉就徹底癱瘓。伯恩茅斯大學的研究團隊通過把強化學習、圖搜索、跨注意力融合和模態修復這幾個模組拼在一起,構建了一套在現實條件下真正可用的容錯方案。歸根結底,他們的貢獻不僅僅是在數字上打敗了基線方法,更重要的是證明了一條新的技術路線:不依賴大規模策略網路重訓練,僅靠更智能的示範檢索和實時缺失修復,就能大幅提升機器人系統面對傳感器故障時的生存能力。
這對普通人意味著什麼?隨著機器人逐漸進入物流倉庫、餐廳廚房、家庭起居室,傳感器故障會從偶發事件變成日常挑戰。一個能在攝影機壞掉時依然繼續工作的機器人,比一個必須停機等待維修的機器人,顯然更有實用價值。當然,目前的測試還局限於模擬環境和相對受控的任務設置,邁向真實工業或家庭場景還有不少工程上的路要走。研究團隊也在論文末尾提出了未來的方向:如何把這套方法擴展到在線學習場景、如何在檢索時引入更豐富的時間序列上下文、如何把示範庫擴展到更大規模和更多樣化的任務分布。這些問題每一個都值得深入探索,而RL4IL為它們提供了一個紮實的出發點。有興趣進一步了解技術細節的讀者,可以通過arXiv編號2606.15514查閱完整論文。
Q&A
Q1:RL4IL在攝影機故障時為什麼不需要重新訓練模型?
A:RL4IL的設計把"感知編碼器"和"檢索決策模組"完全分開。編碼器在訓練完成後就被凍結,永遠不動。當攝影機故障時,系統激活一套預先訓練好的修複流程:用另一個強化學習策略從示範庫里找到有完整攝影機數據的"供體記錄",然後用跨注意力機制合成一個替代向量,填補缺失的部分。整個過程是推斷階段實時完成的,不涉及任何參數更新。
Q2:LIBERO基準測試具體是在測什麼?
A:LIBERO是一套機器人操作的標準評估套件,分三個子集。LIBERO-Spatial測試機器人根據空間位置關係擺放物體的能力,比如"把紅杯子放到書的左側"。LIBERO-Object測試在不同物體配置下的抓取操作。LIBERO-Goal測試需要多步驟推理才能完成的目標導向任務。三套測試共享相同的攝影機和語言指令輸入,評估指標是在260步時間限制內完成任務的比例。
Q3:軟融合和直接選最優示範有什麼區別?
A:直接選最優示範(硬選擇)是讓強化學習裁判挑出評分最高的一條記錄,然後原封不動地執行那條記錄里的動作。軟融合則是取評分最高的前32條記錄,用跨注意力機制根據每條記錄與當前查詢的相關程度分配權重,將所有記錄的動作信號按權重加權合併。在傳感器故障這種嘈雜環境下,單條記錄可能存在偏差,多條記錄的集體加權能有效抵消這種偏差,整體表現更穩健。






