香港中文大學聯合ACE Robotics揭秘：給機器人裝「大腦」之前，我們到底裝錯了什麼？

這項由香港中文大學、香港理工大學、北京大學與ACE Robotics聯合開展的研究，以預印本形式於2026年5月25日發布在arXiv平台，編號為arXiv:2605.25802。感興趣的讀者可通過該編號查閱完整論文。

贊助商廣告

**一個被忽視的根本問題**

教一個機器人完成任務，本質上像是在培養一個剛入職的新員工。你希望他能看懂環境、聽懂指令、然後做出正確的動作。現在的主流做法是：先讓他讀幾年大學，積累豐富的視覺和語言理解能力，再把他送到工廠車間接受操作訓練。這個"大學階段"對應的就是預訓練的視覺語言模型（Vision-Language Model，簡稱VLM），而"工廠訓練"就是後續的機器人動作學習。

近年來，這種方法催生了一大類叫做視覺-語言-動作模型（Vision-Language-Action Model，簡稱VLA）的系統。你可以把VLA理解為一個能看圖、聽指令、做動作的機器人大腦。研究人員普遍認為，讓機器人先"讀大學"再"進工廠"是一個好主意——但問題在於，大學裡學什麼、怎麼學，對最終在工廠里的表現究竟有多大影響，以及影響的方向是什麼，長期以來沒有人系統地研究過。

這支來自多所頂尖機構的研究團隊決定填補這個空白。他們把"給機器人裝大腦"這件事，拆解成一個精心設計的受控實驗，沿著三條主線展開探究：在大學裡應該重點學哪些科目、學習時應該動多大勁去改變原有知識結構、以及要不要在正式上崗前再去工廠實習一段時間。實驗的結論既有直覺上能理解的部分，也有幾個出乎意料的發現。

**一、大學裡那些課，真的都有用嗎？**

研究團隊首先關注的問題是：機器人在"大學階段"修習的不同課程，對它將來在工廠里的表現是否有幫助？他們把所謂的"課程"具體化為七類與具身場景（也就是機器人所處的真實物理環境）相關的視覺問答任務，每類任務訓練模型理解世界的一個特定側面。

第一類叫做空間理解，訓練模型判斷物體之間的相對位置、朝向和距離——比如"紅色杯子在藍色盤子的左邊還是右邊"。第二類是物體定位，讓模型在圖像中找到語言描述所指的目標——比如"找到我要拿起來的那個籃子的把手在哪裡"。第三類是規劃與推理，訓練模型將一個大目標拆解成步驟——比如"要整理客廳，第一步應該做什麼"。第四類是相機參數預測，讓模型從畫面中估算拍攝角度和鏡頭參數。第五類是第一人稱視角理解，專門訓練模型理解機器人自身的狀態——比如"我的手現在抓著什麼"、"哪些東西在我的可及範圍內"。第六類是時序理解，訓練模型理解影片中事件的先後順序和因果關係。第七類叫做動作下一步預測，直接把機器人的動作序列當作一種"語言"來學，訓練模型自回歸地預測下一步該怎麼動。

贊助商廣告

研究團隊用一個叫做Qwen3-VL-4B的視覺語言模型作為基礎，分別只讓它學其中一門課，然後送去"工廠"接受標準化的機器人操作訓練，再到三個不同的測試場地比較表現。這三個場地的側重點各有不同：Libero-10是單臂桌面操作，考驗的是長序列任務的執行能力；SimplerBridge是從真實機器人場景復刻到仿真環境的測試，挑戰的是視覺和控制的遷移能力；RoboCasa GR1是最複雜的雙臂人形機器人操作，涉及24種家務任務，場景多樣、動作維度高達29維。

結論第一條：不學大學、直接進工廠的代價是慘重的。與直接從零訓練相比，有VLM初始化的機器人在所有測試場地的成功率都高出20%以上。這說明，那段"大學積累"確實是有價值的，不是白費時間。

結論第二條：不同的課程對不同場地的作用截然不同。在Libero-10這個相對簡單的場地，幾乎所有七門課都能提升表現，最高提升了4個百分點。但在SimplerBridge，情況反了過來——大多數課程反而拖累了表現，只有物體定位課幾乎沒有造成損害。在RoboCasa，效果則不明顯，提升和下降都很有限。

在七門課中，物體定位是最穩定的"優等生"：它在三個場地、兩種動作頭架構下的表現都是最一致的正向結果。第一人稱視角理解和動作下一步預測也比較可靠，大多數情況下不會造成負面影響。而規劃推理和時序理解在Libero-10上表現亮眼，但在SimplerBridge上會導致成功率大幅下滑，最多掉了8個百分點。相機參數預測的幫助則十分有限。

這背後的邏輯在於：不同的測試場地有不同的"瓶頸"。Libero-10的主要挑戰是完成長序列任務，任何能幫助模型理解場景和規劃步驟的能力都會有所幫助。SimplerBridge的核心挑戰是視覺域的遷移，也就是在虛擬環境裡模仿真實機器人的操作，這時候那些脫離操作本身的高層推理能力反而成了干擾。

**二、修同一門課，能不能一起上？**

贊助商廣告

既然物體定位、第一人稱視角理解和動作下一步預測是三門相對靠譜的課，那麼讓機器人同時學這三門，成績會不會疊加？

研究團隊做了一個精心設計的實驗。為了排除數據總量的干擾，他們固定了總學習樣本量為80萬條，然後按照不同的課程組合均分這些樣本，比較"只學定位"、"定位加第一人稱"、"三課齊上"等不同搭配的結果。

結論有些出乎意料。兩門課的組合里，只有"物體定位加第一人稱視角理解"這個搭配表現明顯優於單科成績，在Libero-10和RoboCasa上都是所有組合中的最佳。另外兩個兩門課搭配——"定位加動作預測"和"第一人稱加動作預測"——並沒有比單科更好，成績幾乎停在單科水準上。

更反直覺的是，加課並不等於加分。把這三門課合在一起上，反而不如只學"定位加第一人稱"。繼續把空間理解也加進去，成績進一步下滑。把所有七門課平均地學一遍，成績甚至低於最佳兩科組合。這種現象用一個直覺類比來說：就像準備一道菜，鹽和糖搭配得當會提升味道，但你把鹽、糖、辣椒、花椒、醋、生抽全部一鍋倒進去，味道大概率會變得混亂難以入口。

為什麼物體定位和第一人稱視角理解這對搭配特別有效？研究團隊的推測是，這兩類能力之間存在某種相互支撐的關係：一個幫助機器人找到要操作的目標，另一個幫助機器人理解自己當前的狀態和位置，兩者恰好是完成操作任務時最直接需要的資訊。

**三、學習時該動多大勁？**

確定了"學什麼"之後，下一個問題是"怎麼學"——更準確地說，是在大學階段學習這些新知識時，應該允許大腦被改變多少？

研究團隊對比了兩種學習方式。一種叫做全參數微調，相當於允許大腦的每一個神經連接都可以被重新調整，新知識會深度重塑原有的認知結構。另一種叫做LoRA（低秩適配），這是一種更節制的方式——它只在原有大腦結構上附加一個小型的"補丁模組"，核心的神經連接保持不動，只讓補丁模組來處理新任務。學完之後，再把這個補丁的效果融合進大腦，但融合的程度相對溫和。

贊助商廣告

實驗結果清晰而有力：在所有課程組合、所有測試場地、兩種動作頭架構下，LoRA方式都持續優於全參數微調。更值得注意的是，全參數微調不只是"沒有幫助"，它在許多情況下會讓機器人表現低於完全沒有上過額外課的基準水平。也就是說，強行用專業課程重塑整個大腦，反而比什麼都不做還糟糕。

研究團隊做了一個輔助實驗來驗證這個現象的根源。他們用標準評測工具（MMBench和MMStar）檢測了不同學習方式之後模型的通用視覺語言能力保留情況。結果顯示，全參數微調後，模型的通用能力大約下降了18%，而LoRA方式幾乎沒有造成損失。與此同時，全參數微調後的模型在回答專業領域的視覺問答時得分反而更高——它確實"學會"了那些專業知識，但代價是忘掉了太多原有的通用知識，而這些通用知識對於後續的機器人操作訓練恰恰是有價值的。

這個現象背後有一個深刻的含義：預訓練VLM積累的視覺語言表示，本身就包含著對機器人操作學習有幫助的資訊，而這些資訊不是那麼直觀可見的，也不完全等同於"能做物體定位"或"能理解影片順序"。全參數微調在專注學習新知識的同時，把這些潛藏的有用資訊覆蓋掉了。LoRA則因為保留了大部分原有結構，得以在注入新能力的同時，讓那些隱性的有價值資訊保持完好。

研究團隊還用一個細化實驗進一步驗證了這個邏輯。他們測試了LoRA融合強度對結果的影響——把LoRA的融合比例從0（完全不融合，相當於只用原始大腦）逐步調到2.0（把補丁效果放大一倍）。結果呈現出一個倒U形曲線：在標準融合比例1.0時成績最好，融合比例過低（新知識太少）和過高（改變太劇烈）都會導致表現下降。這和全參數微調的問題本質上是一樣的——過度改變原有表示，就會削弱初始化的質量。

**四、VLM的底子越好，LoRA越有效**

研究團隊還探究了一個實際問題：這種"LoRA優於全參數微調"的規律，是否在所有VLM上都成立？

贊助商廣告

他們測試了三個不同強度的VLM：較強的Qwen3-VL-4B、同系列較弱的Qwen3-VL-2B，以及來自不同家族的PaliGemma2-3B。結果顯示，LoRA在所有三個模型上都優於全參數微調，這個規律是普遍成立的。但是，LoRA帶來的提升幅度隨著模型底子變弱而縮小，在最弱的PaliGemma2-3B上，LoRA甚至沒能顯著超過什麼都不做的基準水平。

這個規律的解讀很直接：LoRA的價值在於"保留有用的東西再加一點新東西"。如果原來的底子本身就強，那麼值得保留的有用資訊就多，LoRA的保留策略就越能發揮作用。如果底子本來就薄，那麼原有表示中可供遷移的資訊本就有限，LoRA帶來的好處自然也就有限。這個發現對於實踐中選擇VLA基礎模型提供了一個明確的建議：應該儘可能從高質量、能力強的VLM出發。

**五、讓機器人在上崗前先去工廠實習**

前面的研究都集中在"大學階段"，也就是純粹的感知和理解能力培訓。研究團隊還探索了另一條路：在正式的機器人操作訓練之前，先讓模型接觸真實的機器人軌跡數據，相當於在大學畢業後先安排一段"預實習"。

他們使用了一個名為AgiBot-World-Beta的大規模機器人操作數據集作為實習素材，設計了三種實習方案：只進行機器人軌跡實習、同時進行機器人實習和視覺問答課程、以及先上完大學課程再去實習（也就是序列化的兩階段方式）。每種方案都在LoRA和全參數微調兩種模式下分別測試，評估在RoboCasa這個雙臂人形機器人測試場地上的成功率。

從基準的49.5%出發，結果如下：只進行全參數機器人實習能提升到52%；同時加上視覺問答課程進行全參數聯合訓練，能達到53.2%——這說明在全參數更新的情況下，視覺問答課程能起到一定的"穩定劑"作用，幫助模型在學習操作動作時不要把感知能力全部遺忘。

切換到LoRA模式後，只進行機器人實習就能達到54%，超過全參數聯合訓練的53.2%——再次證明了LoRA在保留有用表示方面的優勢。然而，用LoRA同時學機器人實習和視覺問答，成績反而下降到52.4%。研究團隊進一步測試了不同的LoRA容量（秩從64降到16），發現容量越小，聯合訓練的成績越差（從52.4%降到51.5%）。這說明問題的根源在於：一個LoRA模組同時要處理感知側的視覺問答和動作側的軌跡學習，兩種信號會在有限容量內產生競爭，互相干擾。

贊助商廣告

最好的方案是序列化的兩階段路線：先用LoRA完成大學階段的"物體定位加第一人稱視角理解"課程，把學到的知識融合進模型，再用LoRA進行機器人軌跡實習。這個方案最終達到了55.2%的成功率，是所有方案中最高的。兩件事分開做，各自在自己的LoRA模組裡完成學習，避免了信號競爭，同時保留了最多的原始表示。

**六、整個研究告訴我們什麼**

說到底，這支研究團隊做的事情，是把一個長期被當作"默認設置"的問題——用哪個VLM來初始化機器人大腦——重新定義為一個可以被系統設計和優化的問題。

他們的發現歸結為幾個核心洞察。原始的預訓練VLM表示本身就是機器人操作能力的重要來源，不是可以隨意丟棄的起點。專業課程的加入是有條件的好事，不是無條件的提升；哪門課有用，取決於機器人最終面對的場景瓶頸是什麼，而不是"越多越好"。改變大腦結構的幅度應該保持克制，過度重塑會損壞那些對動作學習有隱性價值的表示。機器人軌跡實習可以進一步提升初始化質量，但最佳方式是先完成感知課程再進行實習，並且全程使用LoRA方式保持克制的更新。

這個研究的意義不止於機器人領域本身。它揭示了一個更普遍的道理：當我們把一個通用的、經過大規模預訓練的智能系統改造為專用工具時，專業化和原始能力保留之間存在真實的張力，盲目追求專業化可能適得其反。找到正確的改造方式，比簡單地堆砌更多數據或更複雜的方法更為關鍵。

當然，這項研究也坦誠地承認了自身的局限。所有實驗都在仿真環境中進行，真實機器人硬體上的驗證還有待完成。七類視覺問答領域的劃分也只是一種組織方式，更細粒度的數據質量篩選和領域定義可能帶來不同的結論。機器人軌跡實習部分目前只用了單一數據源，在更大規模、更多樣化的數據條件下是否依然成立，還需要進一步研究。此外，為什麼某些表示對動作學習有隱性價值、這些表示到底是什麼，目前仍然是經驗性的觀察，背後的機制還需要更深入的分析工具來揭示。

贊助商廣告

對於這一領域感興趣的讀者，可以通過arXiv編號2605.25802查閱完整論文，代碼也已在GitHub上開源，項目地址可通過論文首頁找到。

---

Q&A

Q1：給機器人做VLM預訓練時，學更多類型的任務是不是效果更好？

A：不是。研究發現，讓機器人學的知識種類越多，反而不一定帶來更好的操作能力。最好的結果來自"物體定位"和"第一人稱視角理解"這兩類任務的組合，把更多類別的任務加進去之後，成功率反而開始下降。這說明不同類型的訓練信號之間存在干擾，兼容性比覆蓋面更重要。

Q2：VLA模型初始化為什麼用LoRA比全參數微調效果更好？

A：因為預訓練VLM積累的原始表示里包含對機器人動作學習有用的隱性資訊。全參數微調在學習新能力的同時會大幅覆蓋這些資訊，導致通用能力下降約18%，最終讓機器人初始化質量反而不如沒做任何額外訓練的基準。LoRA只附加小型補丁模組，保留了原始表示的大部分，在注入新能力的同時不破壞那些有價值的基礎。

Q3：機器人軌跡預訓練和視覺問答課程能不能同時進行？

A：同時用一個LoRA模組進行兩種訓練效果反而更差，因為兩種信號會在有限容量內競爭干擾。最佳方案是先用LoRA完成視覺問答課程，融合後再用另一個LoRA進行機器人軌跡預訓練，序列化分開進行，最終成功率達到55.2%，是所有方案中最高的。