河海大學與東南大學聯合出品：不需要任何人工標註，AI也能看懂衛星圖像？

這項由河海大學與東南大學聯合開展的研究成果以預印本形式發布於2026年5月，論文編號為arXiv:2605.04451，研究團隊提出了一個名為RemoteZero的全新框架，試圖從根本上解決衛星圖像分析領域長期以來對人工標註數據的依賴問題。

贊助商廣告

**一、一張衛星圖，一個難題**

地震剛剛過去，廢墟遍地，救援指揮官盯著一張衛星圖，需要迅速找到一塊"足夠大、靠近道路、附近有水源"的區域來安置受災群眾。他打開智能分析系統，輸入這段描述，系統需要在幾分鐘內從整張圖像中框出那個最合適的位置。

這件事聽起來很自然，但對於人工智慧來說，這背後藏著一個極其棘手的問題——系統必須真正"理解"這段文字描述，然後在衛星圖上找到對應的區域，精確地畫出一個框。這個任務，研究者們稱之為"地理空間推理定位"，也就是讓AI讀懂人的模糊意圖，並在地球觀測圖像上找到準確的地理位置。

現有的AI系統要完成這件事，必須先經歷大量的"培訓"——工程師需要雇用專業的圖像標註員，一張一張地在衛星圖上手動畫框，告訴AI"這裡是操場""這裡是停機坪""這裡是空地"，然後再把這些人工標註的框和用戶的文字描述配對，打包成訓練數據餵給AI。這個過程極其耗時耗力，而且稍有偏差，AI就會學歪。更致命的是，地球上每天都在產生海量的衛星圖像，但絕大多數圖像根本沒有任何標註，完全無法被現有方法利用。這就好比一個學生只能從已經標好答案的試卷上學習，卻對浩如煙海的未批改練習冊束手無策。

河海大學與東南大學的研究團隊正是從這個痛點出發，提出了RemoteZero框架，它的核心目標只有一個：不依賴任何人工標註的坐標框，讓AI自己在衛星圖上學會找位置。

**二、 "眼睛"比"手"更聰明的秘密**

要理解RemoteZero是如何做到這一點的，先要理解一個關鍵的洞察，研究團隊稱之為"眼睛強於手"（Eye > Hand）的不對稱性。

贊助商廣告

把AI的兩種能力分開來看。第一種能力是"判斷"——給AI看一張從衛星圖上裁下來的小圖，然後問它"這塊區域符合'適合安置災民的空地'這個描述嗎？請回答是或否。"這種判斷題，AI的表現相當不錯，因為在AI的大規模預訓練階段，它已經看過數以萬億計的圖文配對數據，深刻理解了各種場景和描述之間的語義關係，判斷一張圖和一段描述是否匹配，對它來說相對輕鬆。

第二種能力是"定位"——給AI看一整張衛星圖，讓它直接輸出一個精確的坐標框，指出目標區域在哪裡。這件事要難得多，因為可能的答案空間極其龐大，圖上任何一個位置都可能是答案，而且用戶的描述往往是模糊的，沒有絕對的標準答案，AI在這方面的表現遠不如它的判斷能力。

用日常生活打個比方：一個人初到一座陌生城市，雖然他不知道如何從A點走到圖書館，但當有人問他"這裡是圖書館門口嗎？"，他憑藉對圖書館外觀的一般認知，往往能給出靠譜的判斷。"知道某個地方長什麼樣"和"能精確導航到那裡"，是兩種截然不同的能力，前者往往成熟得更早、更可靠。

RemoteZero的整個設計邏輯，就建立在利用這種不對稱性上。既然AI的"判斷眼睛"比"定位的手"更可靠，那就讓"眼睛"來指導"手"的學習，而不是依賴人類提供答案。

**三、 "猜測—裁剪—驗證"的閉環訓練遊戲**

RemoteZero的訓練過程可以用一個有趣的遊戲來理解，姑且稱它為"藏寶遊戲"。

遊戲開始，AI扮演"尋寶者"，被給予一張衛星圖和一段描述（比如"一個適合舉辦團隊活動的大型標準運動場"）。尋寶者先在腦海中推理一番，然後在圖上猜一個位置，畫出一個框，說"我認為就在這裡"。

接下來，系統自動把這個框對應的區域從衛星圖上裁剪出來。為了讓裁剪結果更有參考價值，裁剪時會額外向外擴展15%的邊緣，保留一圈周圍的環境資訊，比如旁邊的道路、圍欄、建築物等。這種帶邊緣的裁剪方式，研究團隊稱之為"上下文裁剪"，與"精確裁剪"相比，它能讓後續的判斷更加準確，因為很多時候判斷一個區域是否合適，恰恰需要看它周圍是什麼。

贊助商廣告

裁剪完成後，這張小圖被交給一個"裁判"——也就是AI的"判斷眼睛"。裁判面對小圖和原始描述，給出一個0到1之間的分數，代表這個區域與描述的匹配程度。分數高，說明尋寶者猜對了方向；分數低，說明猜的位置有問題，需要調整思路。

然而，光有這個分數還不夠。研究團隊發現了一個狡猾的"作弊策略"——如果尋寶者學會了畫超級大的框，大到幾乎覆蓋整張圖，那幾乎肯定能包含目標區域，裁判自然會給高分。但這顯然毫無意義，就像有人問"體育場在哪裡"，你回答"在這座城市裡"，雖然正確卻完全沒用。

為了防止這種情況，RemoteZero在分數之外增加了一個"面積懲罰"機制。當預測框的面積超過整張圖的一定比例時，系統會自動扣分。這個機制迫使AI不得不儘可能精準地定位，而不是用"畫大框"來矇混過關。最終的綜合評分，既考量語義匹配程度，又對框的大小進行約束，構成了整個訓練的"內在獎勵信號"。

這個獎勵信號會被輸入一個叫做GRPO（群體相對策略優化）的強化學習算法中，驅動AI不斷調整自己的定位策略。GRPO的工作方式是：對同一個問題，AI同時生成多個不同的猜測框，然後根據各自得分的相對高低來判斷哪些策略更優，從而引導整個模型朝著更好的方向進化。整個過程完全不需要人類提供"正確答案框"，AI通過自身的驗證能力來學習定位能力。

**四、從"老師帶"到"自己教自己"的進化之路**

RemoteZero支持兩種不同的訓練模式，它們就像一個學生從"有名師指導"到"完全自學"的成長過程。

在第一種模式中，研究團隊引入了一個更強大的外部AI大模型作為"裁判老師"——就像一個高年級同學幫低年級同學批改作業。這個外部老師能夠提供更準確的判斷分數，幫助學生AI在早期階段建立正確的認知方向。實驗中，研究團隊使用了Qwen3-VL這類強大模型作為外部裁判，這種模式下訓練出的AI，在測試集上的[email protected]（一種衡量定位準確率的標準指標，簡單理解為"框住目標的準確程度"）達到了65.05%。

贊助商廣告

在第二種模式中，RemoteZero實現了真正令人興奮的"自我進化"——AI用自己當裁判來訓練自己。這背後的邏輯同樣基於"眼睛強於手"的不對稱性：即便是一個還不太會精確定位的AI，它的判斷能力已經足夠成熟，可以評判另一個猜測結果是否合理。

具體的操作過程如下：系統將訓練分為若干輪次。在第零輪，使用外部大模型作為裁判，訓練出第一代AI（π?）。從第一輪開始，將上一代AI（π?）的參數凍結，作為新一輪訓練的裁判，同時訓練新一代AI（π?）。然後用π?作為裁判，再訓練π?，如此循環疊代。每一輪中，上一代的"判斷眼睛"指導下一代的"定位手"，而更好的定位能力又將培養出更敏銳的判斷眼睛，由此形成一個正向螺旋的自我提升循環。

這就好像一個學徒先從師傅那裡學到基本眼光，隨後用自己的眼光指導手的練習，手越練越精準，眼光也隨之越來越挑剔，最終實現從新手到高手的完整蛻變，整個過程無需外部干預。經過疊代自我進化，RemoteZero的準確率進一步提升到了71.29%，超過了有人工標註監督的強基線方法。

**五、數字背後的真實成績單**

研究團隊在EarthReason數據集上對RemoteZero進行了全面測試，這個數據集專門用於評估地理空間推理定位能力，包含各類隱式的、需要推理的用戶查詢指令。

對比結果相當直觀。沒有針對性訓練的通用大模型表現參差不齊：Qwen2.5-VL-7B在測試集上的[email protected]是45.82%，已經算是通用模型里表現不錯的了；而DeepSeek-VL2隻有12.67%，InternVL3.5更是僅有5.26%，說明這類任務對通用模型來說確實頗具挑戰。專門為遙感設計的GeoChat模型也僅有8.89%，說明單純的領域適配並不足以應對需要空間推理的複雜查詢。

RemoteReasoner作為最強的有監督基線方法，在測試集上達到了68.11%的[email protected]。這個方法需要使用人工標註的坐標框來計算IoU（交並比，即預測框與真實框的重疊程度）作為獎勵信號，屬於有完整人工監督的訓練方式。

贊助商廣告

RemoteZero的"外部老師"版本在不使用任何標註坐標的情況下，達到了65.05%，已經非常接近有監督方法。而經過自我進化的版本更是達到71.29%，在[email protected]這一指標上超過RemoteReasoner整整3.18個百分點。這是一個很有意義的結果，因為它意味著"沒有正確答案的自學"居然比"有標準答案的監督學習"做得更好。

不過，研究團隊也坦誠地指出了一個短板：在另一個叫做gIoU的指標上（這個指標更嚴格地衡量框的邊界精準程度），RemoteZero的自我進化版本得分是61.70，而RemoteReasoner是69.29，差距明顯。這說明RemoteZero的語義驗證機制能夠幫助AI找到正確的"大概位置"，但在精確劃定邊界方面仍有不足。就像一個人能指出"圖書館大概在那個方向"，但具體到"門口台階在哪裡"，還需要更精細的引導。

消融實驗（即逐一關閉某些功能來觀察影響的測試方式）進一步證實了各個設計選擇的必要性。去掉面積懲罰機制，準確率從69.96%降至65.20%；將"上下文裁剪"替換為"精確裁剪"，準確率從69.96%降至64.61%。每一個設計細節都在發揮著不可替代的作用。

**六、這項研究解決的更大問題**

RemoteZero所代表的思路，在更宏觀的視角下有著重要的價值。地球每天都在被衛星拍攝，產生的圖像數據以PB（拍字節）為單位計算，但其中絕大多數都是"裸圖"，沒有任何標註。現有的監督學習方法只能利用極小一部分已標註數據，就像一個擁有巨大圖書館卻只能讀被人划過重點的書一樣，浪費了絕大多數資源。

RemoteZero提供了一條路徑，讓AI能夠從這些海量未標註圖像中持續自我學習。這對於災害應急響應、城市規劃評估、農業監測、環境保護等眾多需要衛星圖像分析的領域，都有著直接的應用潛力。一個能夠持續自我進化、不需要人工不斷補充標註數據的系統，意味著分析能力可以隨著數據積累而自動增強，成本大幅降低，覆蓋場景也將更加廣泛。

贊助商廣告

當然，研究團隊也坦誠地列出了當前框架的局限性。驗證機制主要關注語義正確性，對於框的精確邊界約束還不夠強；疊代自我進化有可能在某些困難問題上積累系統性偏差；此外，裁剪驗證的方式對於需要全局空間關係才能判斷的問題，有時捕捉得不夠完整。這些都是團隊在後續版本中打算繼續改進的方向，包括探索全局與局部結合的驗證機制、更難負樣本的挖掘方法，以及更穩健的自我進化策略。

說到底，RemoteZero證明了一件事：在某些複雜任務中，用自己的判斷能力來指導自己的行動能力，不僅可行，有時甚至比依賴外部的標準答案更有效。這種"用眼睛教手"的學習方式，或許正在為未來大規模無監督地理空間智能分析打開一扇新的門。對這一領域感興趣的讀者，可以通過論文編號arXiv:2605.04451查閱完整研究內容，或訪問研究團隊在GitHub上開放的代碼倉庫（搜索"1e12Leon/RemoteZero"）深入了解技術細節。

---

Q&A

Q1：RemoteZero為什麼不需要人工標註就能訓練AI定位？

A：RemoteZero利用了AI的一個特點：判斷一塊區域是否符合描述，比直接預測精確坐標要容易得多。訓練過程中，AI先猜一個位置，系統把那塊區域裁下來，再讓AI自己判斷"這裡對不對"，用這個判斷結果作為反饋來改進定位能力，全程不需要人類提供標準答案框。

Q2：RemoteZero的自我進化是怎麼工作的？

A：RemoteZero把訓練分成多輪。第一輪用外部強大AI當裁判，訓練出第一代模型。從第二輪開始，把上一代模型凍結，讓它當下一代模型的裁判。每一輪中，上一代的判斷能力指導下一代的定位能力，新的定位能力又培育出更好的判斷眼光，循環疊代，不斷提升。

Q3：RemoteZero的定位準確率和有人工標註的方法相比怎麼樣？

A：在[email protected]這個指標上，RemoteZero的自我進化版本達到71.29%，超過了有人工標註監督的RemoteReasoner方法（68.11%）約3個百分點。但在衡量框邊界精準程度的gIoU指標上，RemoteZero（61.70）仍低於RemoteReasoner（69.29），說明它更擅長找到正確區域，但邊界劃定還有提升空間。

贊助商廣告