港大團隊用AI影片生成技術讓機器人擁有「透視眼」：首次實現超視野導航

這項由香港大學研究團隊主導的突破性研究於2026年2月發表在電腦視覺頂級期刊上，論文編號為arXiv:2602.05827v1。該研究首次將影片生成技術引入機器人導航領域，讓機器人能夠在看不見目標的情況下成功找到目的地，這在夜晚等複雜環境中表現尤為出色。

贊助商廣告

想像一下，當你在一個陌生的購物中心尋找洗手間時，即使看不到目標，你也能憑藉經驗和常識大概推斷出它可能在哪個方向。現在，香港大學的研究團隊成功讓機器人也具備了這種"透視"能力。他們開發的SparseVideoNav系統，能讓機器人僅憑簡單的指令，就能在完全陌生的環境中找到遠處看不見的目標。

傳統的機器人導航就像讓一個近視眼的人在沒有眼鏡的情況下找路，它們只能依靠當前看到的景象做決定，結果經常在死胡同里打轉，或者在看不清遠處目標時原地打圈。更麻煩的是，現有的機器人需要非常詳細的步驟指令，比如"向前走三步，然後左轉，再走兩步，然後右轉找到紅色的椅子"。這種方式在實際生活中顯然不現實，因為人類更習慣給出簡單的指令，比如"去找個椅子坐下"。

研究團隊發現，問題的根源在於現有的機器人"目光短淺"。它們在學習時只能看到未來4到8步的情況，就像只能看到眼前一兩米的近視眼一樣。當遇到需要長遠規劃的任務時，這些機器人就會表現出兩種典型的失敗模式：要麼因為看不清遠處的目標而不斷改變方向，像無頭蒼蠅一樣亂轉；要麼一走進死胡同就以為到了路的盡頭，直接放棄繼續尋找。

為了解決這個問題，研究團隊決定另闢蹊徑。他們注意到影片生成模型有一個獨特的優勢：這些模型天生就具備預測長時間未來畫面的能力。就像一個經驗豐富的導演能夠想像出一個場景接下來會如何發展一樣，影片生成模型經過大量影片訓練後，已經學會了如何根據當前畫面和語言描述來預測未來可能出現的場景。

贊助商廣告

不過，研究團隊並沒有直接照搬現有的影片生成技術。他們發現，為導航生成連續不斷的影片畫面其實是一種浪費，就像看電影時不需要關注每一幀的細微變化，只需要抓住關鍵劇情節點一樣。基於這個洞察，他們創新性地提出了"稀疏影片生成"的概念。

稀疏影片生成就像製作電影預告片一樣，不是展現每一秒的畫面，而是選擇最關鍵的幾個時刻來展示故事的發展軌跡。具體來說，系統會預測未來20秒內8個關鍵時間點的畫面，比如第1秒、第2秒、第5秒、第8秒等等。這些關鍵畫面就像導航路線上的幾個重要路標，能夠指引機器人朝著正確的方向前進。

研究團隊將整個訓練過程比作培養一個優秀嚮導的四個階段。第一階段是讓系統學會"看圖說話"，也就是根據當前看到的景象來預測接下來可能出現的畫面。第二階段是注入"記憶力"，讓系統能夠記住之前走過的路，避免重複犯錯。第三階段是提升"反應速度"，通過一種叫做擴散蒸餾的技術，讓系統能夠更快地生成預測畫面。第四階段是學會"行動規劃"，根據預測的未來畫面來決定具體應該如何移動。

為了訓練這個系統，研究團隊做了一件前所未有的事情：他們收集了140小時的真實世界導航影片數據。這個數據規模在該領域是史無前例的。為了確保影片質量，他們使用了專業的防抖相機，並且所有影片都經過了精心的人工標註和處理。

在實際測試中，SparseVideoNav的表現令人印象深刻。研究團隊在六個不同的真實環境中進行了測試，包括室內的房間和實驗室、戶外的庭院和公園，以及最具挑戰性的夜晚場景。在需要尋找看不見目標的任務中，SparseVideoNav的成功率達到了25%，這是傳統方法成功率的2.5倍。特別值得一提的是，在所有傳統方法都完全失效的夜晚環境中，SparseVideoNav仍然能夠保持17.5%的成功率。

更令人驚喜的是，SparseVideoNav在一些極具挑戰性的場景中表現出了出色的適應能力。比如在狹窄的坡道、傾斜度很高的山坡，甚至是死胡同等複雜地形中，它都能找到正確的路徑。這種能力很大程度上歸功於它能夠"預見"未來的特殊本領。

贊助商廣告

從技術角度來看，SparseVideoNav還解決了一個重要的實用性問題：速度。傳統的影片生成方法需要幾十秒甚至幾分鐘才能生成足夠長的影片序列，這在現實應用中是不可接受的。而SparseVideoNav通過稀疏生成策略，將推理時間壓縮到了不到1秒，比未優化的方法快了27倍。

研究團隊還發現了一些有趣的現象。比如，SparseVideoNav即使在訓練時沒有遇到過動態行人的場景，在實際部署時卻能自動學會避開迎面而來的行人。這說明它不僅學會了基本的導航技能，還具備了一定的舉一反三能力。

另外，傳統的機器人導航系統往往對相機高度非常敏感，換個高度就可能完全失效。但SparseVideoNav展現出了很強的魯棒性，即使相機高度從訓練時的1米降到50厘米，它依然能夠正常工作。

當然，這項技術也還存在一些限制。研究團隊坦誠地指出，目前的數據規模雖然在該領域是最大的，但相比於網際網路上的海量影片數據，仍然有不小的差距。未來如果能夠融合更多來源的數據，比如YouTube影片和仿真環境數據，系統的性能還有進一步提升的空間。

從實用性角度來看，雖然SparseVideoNav已經能夠實現實時運行，但其推理速度相比於傳統的語言模型方法還是稍慢一些。研究團隊表示，這個問題可以通過進一步的優化技術來解決，比如加速蒸餾和模型量化等方法。

這項研究的意義遠不止於機器人導航本身。它展示了一種全新的思路：將生成式AI的預測能力與具體的任務需求相結合。這種思路可能會啟發更多領域的創新，比如自動駕駛、智能家居、甚至是虛擬現實等。

說到底，SparseVideoNav最大的貢獻在於讓機器人第一次具備了類似人類的"想像力"。它能夠基於當前的情況和經驗，想像出接下來可能遇到的場景，並據此做出明智的決策。這種能力讓機器人從"按圖索驥"的被動執行者，變成了能夠"深謀遠慮"的主動探索者。

贊助商廣告

歸根結底，這項研究向我們展示了一個充滿可能性的未來：機器人不再需要詳細的操作手冊，而是能夠理解簡單的人類指令，並通過自己的"想像"來完成複雜的任務。當你對家裡的機器人助手說"去廚房給我拿個蘋果"時，它不會茫然地問"廚房在哪裡？蘋果在哪個位置？"，而是能夠主動找到廚房，搜索蘋果，並成功完成任務。這種智能化的交互方式，將讓人工智慧真正融入我們的日常生活。

Q&A

Q1：SparseVideoNav是什麼技術？

A：SparseVideoNav是香港大學開發的機器人導航技術，它首次將影片生成AI引入導航領域。這個系統能讓機器人預測未來20秒內8個關鍵時刻的畫面，就像給機器人裝上了"透視眼"，讓它能在看不見目標的情況下也能成功找到目的地。

Q2：稀疏影片生成跟普通影片生成有什麼不同？

A：稀疏影片生成就像製作電影預告片，不生成每一幀畫面，而是只生成關鍵時刻的畫面。比如預測未來20秒內的第1、2、5、8秒等8個關鍵節點，這樣既能提供足夠的導航指引，又能大大提升生成速度，比傳統方法快27倍。

Q3：這項技術在現實中表現如何？

A：在真實環境測試中，SparseVideoNav在超視野導航任務中的成功率達到25%，是傳統方法的2.5倍。更重要的是，它在所有傳統方法都失效的夜晚環境中仍能保持17.5%的成功率，並且能夠應對死胡同、狹窄坡道等複雜地形。