這項由法國巴黎東馬恩河谷大學LIGM實驗室、法國國家地理資訊研究院LASTIG實驗室、法國國家空間研究中心CNES以及法國遠東學院EFEO聯合開展的研究,以預印本形式於2026年6月發表,論文編號為arXiv:2606.23503。有興趣深入了解技術細節的讀者可通過該編號查閱完整論文。
假設你是一名攝影師,手上同時拿著十三台來自不同品牌、不同年代、不同規格的相機。有的相機拍出來的照片是8K超高清,有的只有普通手機水準;有的一秒能拍一百張連拍,有的一年才拍一次;有的能感知紅外線,有的只能記錄雷達回波,還有的能同時記錄幾百個光譜頻段的資訊。現在,有人要求你只用一台翻譯機器,把這十三台相機拍出的所有照片統統理解清楚,並從中提取出地球表面的完整資訊——這就是地球觀測領域長期以來面臨的核心難題。
而這支來自法國的研究團隊,給出了他們的答案:一個名為UniverSat的模型,用一套統一的"讀圖大腦",無需任何預處理或重新採樣,就能理解來自雷達、光學衛星、航空相機、高光譜傳感器、數字高程模型等各種天差地別的數據。這不是一件容易做到的事情,下面就來細細道來。
一、為什麼現有的"讀圖大腦"總是挑食
在人工智慧讀圖領域,有一種叫做"視覺變換器"(Vision Transformer,簡稱ViT)的架構,近年來幾乎統治了整個圖像識別領域。它的工作方式就像把一張大圖切成很多小方塊,然後逐塊分析,最後綜合所有小塊的資訊得出結論。這套方法非常強大,卻有一個致命的毛病:它天生只能處理固定格式的圖像,就像一台只能讀取特定格式光盤的播放機。
地球觀測偏偏是個極度多元的領域。歐洲的Sentinel-2衛星能拍10米解析度、10個波段的圖像,每隔幾天刷新一次;美國的NAIP航空影像能達到1.25米解析度;日本的ALOS-2雷達衛星拍的根本不是可見光,而是微波;還有一些高光譜設備能同時記錄多達400個光譜波段的資訊。把這些數據餵給一個標準的ViT,就像是拿著一本中文字典去翻譯日文、阿拉伯文和古埃及象形文字——基本宣告失敗。
現有的地球觀測模型大多採用了一個妥協方案:要麼只處理幾種固定的傳感器類型,要麼針對不同傳感器訓練不同的專用模型,要麼把所有圖像強行重採樣到統一解析度再處理。第一種方案缺乏靈活性,第二種方案參數數量爆炸,第三種方案則會在重採樣過程中損失大量細節資訊,而且數據量會膨脹到原來的好幾個數量級。
研究團隊把這個根源問題直指"固定的圖塊投影器"。在標準ViT里,將圖像小方塊變成數字向量的那個環節是固定死的,一旦輸入格式變化,整套系統就崩潰了。於是,他們決定從根本上替換掉這個零件。
二、用一個"萬能翻譯官"打通所有傳感器語言
UniverSat的核心創新叫做"通用圖塊編碼器"(Universal Patch Encoder,簡稱UPE)。為了解釋它是怎麼工作的,可以藉助一個翻譯的比喻來理解整個系統。
把來自不同傳感器的每一個圖像小塊,想像成用不同語言寫成的一封信。有的信用中文寫了一頁,有的用阿拉伯文寫了十頁,有的用音符寫成,有的用數學符號構成。傳統的ViT只能讀固定格式的信,而UPE的設計目標是把每一封信先拆解成最基本的"原子單位",再用統一的方式把這些原子翻譯成同一種語言。
具體來說,當一個圖像小塊傳入UPE時,它的形態是一個多維數組:包含若干個光譜通道(比如Sentinel-2就有10個波段)、若干個時間戳(時間序列數據)、以及寬和高兩個空間維度。UPE首先把這個圖塊在空間上進一步切成更小的"子圖塊",然後把每一個最基本的數值(比如某個像素在某個波段某個時間的亮度值)通過一種叫做"可學習傅里葉特徵"的技術,從一個單純的數字提升為一段96維的向量表示。這就好比把一個音符從單純的音高數字,擴展成包含音色、響度、時值等多維度的豐富描述。
有了這些豐富的原子表示之後,UPE面對的下一個挑戰是:如何把幾百個乃至幾千個這樣的原子"摺疊"成一個統一的、固定長度的向量,同時不因為傳感器差異而需要重新訓練?研究團隊的答案是"軸向交叉注意力機制"(Axial Cross-Attention,簡稱ACA)。
軸向交叉注意力的工作邏輯可以用摺疊地圖來理解。面對一張巨大的地圖,直接全部展開太占地方,但你可以先按照南北方向摺疊一次,再按照東西方向摺疊一次,每摺疊一次地圖變小一半但資訊被壓縮保留下來。UPE中的軸向交叉注意力也是如此:它依次沿著像素維度、光譜通道維度、時間維度、空間子圖塊維度,一次摺疊一個維度,每次摺疊的同時把特徵維度擴大,最終把任意形狀的原子張量壓縮成一個固定長度的向量。
摺疊的方式也很講究:對於每一次摺疊,模型先對要被摺疊的那個維度進行池化得到一個"摘要查詢",然後用這個查詢去和該維度上所有位置的資訊進行交叉注意力計算,提取出最關鍵的內容,再通過前饋網路輸出結果。整個過程只在當前摺疊維度上進行注意力計算,不涉及其他維度,因此計算複雜度是線性的,不會隨著圖像尺寸或波段數量爆炸式增長。
在摺疊之前,模型還會根據每個原子的物理含義注入專屬的位置編碼:光學波段會被注入它的中心波長資訊,雷達極化通道會注入極化比率資訊,時間序列會注入一年中的時間資訊,空間位置則會根據實際地面採樣距離(GSD)進行縮放的旋轉位置編碼。這些物理資訊讓模型在不知道傳感器具體型號的情況下,也能理解數據的物理意義。
UPE最終產出兩樣東西:一個代表整個圖塊的全局向量,以及一組更細粒度的子圖塊向量。後者將在後續步驟中發揮重要作用。
三、從"讀懂一塊"到"畫出整張地圖"
讀懂單個圖塊只是開始,UniverSat的最終目標是把整幅影像理解成一張完整的特徵地圖。這部分的設計思路就像組織一場多部門情報匯報會。
一幅地球觀測圖像通常由多種傳感器同時覆蓋,每種傳感器都能提供不同維度的資訊。UniverSat首先對每個空間位置、每種傳感器分別提取圖塊向量,然後把同一位置來自不同傳感器的所有向量堆疊在一起,再次用軸向交叉注意力沿著"傳感器模態"維度進行摺疊,融合成該位置的單一多模態向量。這就像各部門情報官先分頭收集資訊,再在統一的會議上交叉驗證、綜合匯報。
得到每個位置的多模態向量之後,UniverSat把整幅圖像上所有位置的向量組成一個序列,送入標準的變換器自注意力模組進行空間關係建模。這個步驟讓模型能感知到不同位置之間的上下文關係,比如一塊地附近是河流還是道路,會顯著影響對這塊地的解讀。
更精巧的設計在於輸出解析度的靈活控制。標準的ViT輸出的特徵圖解析度和輸入圖塊大小綁定,很難隨意調整。而UniverSat允許用戶在推理時自定義目標輸出解析度,通過雙線性插值把特徵圖重採樣到用戶指定的任意地面採樣距離。更重要的是,模型還保留了之前UPE產出的子圖塊向量,在最後一步通過交叉注意力機制,讓輸出特徵圖上的每個位置去"查詢"所有子圖塊的高解析度細節資訊,從而恢復出圖塊級別聚合過程中丟失的精細空間結構,比如田塊邊界、道路線條等。這就像在整體規劃完成後,再請專家補充每個細節的精修工作。
四、用"遮住大部分資訊"來訓練一個"全能理解者"
有了如此靈活的模型架構,接下來的問題是:如何訓練它?研究團隊設計了一套完全自監督的訓練策略,不需要任何人工標註的標籤。
訓練的核心思路可以用"殘缺拼圖遊戲"來理解。給模型看一幅被大量遮蓋的多模態圖像——遮蓋的方式包括隨機丟棄整個傳感器模態、隨機丟棄時間序列中的大部分時間步、隨機丟棄光譜通道、隨機遮擋空間圖塊——大約90%的原始資訊都被移除,然後要求模型根據殘留的10%資訊,預測被遮蓋部分應該長什麼樣。
具體的預測目標不是直接重建像素值,而是預測被遮蓋圖塊經過一組隨機初始化且永久凍結的線性投影之後的向量表示。這種設計借鑑了電腦視覺領域近年來的"潛空間遮蓋建模"思路,好處在於隨機投影作為目標不需要學習,天然避免了模型陷入"預測等於輸入"的平庸解,同時也不需要類似對比學習中那種動量教師網路的複雜機制。
為了在時間維度上平衡監督信號,模型不會對所有時間步同時進行預測,而是每次只選取少量(4個)時間戳作為預測目標,每個被遮蓋的圖塊被分配一個目標時間戳,模型需要在給定可見圖塊的條件下,預測被遮蓋圖塊在指定時間戳下的表示。這避免了模型依賴簡單的時間規律來取巧,強迫它真正理解空間內容。
訓練目標的另一個組成部分是跨模態對比損失。由於不同傳感器觀測的是同一場景,來自不同傳感器的圖塊向量應該在語義上彼此一致。研究團隊將同一空間位置、不同傳感器的UPE輸出向量作為正樣本對,用批次內的多正例對比損失來拉近同位置不同傳感器向量的距離,推遠不同位置向量之間的距離。消融實驗表明,去掉這個對比損失會導致多模態分割任務上的性能大幅下降,說明它對穩定UPE的訓練、促進跨模態表示對齊起到了關鍵作用。
五、在7個數據集、13種傳感器上的混合訓練
UniverSat的訓練數據集涵蓋了7個異質性極強的數據集,分別是法國的FLAIR-Hub、PASTIS-HD、TSAI-TS、Planted、S2NAIP-Urban、HyperGlobal以及EarthView的NEON子集。這些數據集合計包含13種傳感器,覆蓋的空間解析度從0.1米(無人機超高分影像)到300米(MODIS衛星),時間深度從單次獲取到每年140張,光譜寬度從1個波段(數字高程模型)到396個波段(NEON高光譜影像),單幅圖像覆蓋面積從0.4公頃到600公頃不等。
按原子數量(每個像素每個波段每個時間步算一個原子)統計,高解析度光學影像(VHR)貢獻了約43%的原子量,光學時間序列貢獻約32%,高光譜數據約16%,雷達時間序列約4%,高程數據約3%。訓練時,按數據集設定了不同的採樣權重,並對每種模態配置了各自的空間解析度、波段數量和子圖塊大小參數。
整個訓練過程在8張H100 GPU上運行約100k步,總計消耗約240 GPU小時。研究團隊還進行了激進的尺度增強:每次訓練時從數據集預設的多個輸入圖塊尺寸和目標輸出解析度中隨機抽取組合,進一步促使模型學習到尺度無關的表示。
六、跑贏同類競爭者的實驗成績單
研究團隊在GeoBench、PANGEABench和SpectralEarth三大標準評測平台上對UniverSat進行了全面測試,涵蓋分類和語義分割共16個數據集。
在標準探針實驗(不允許微調模型,只允許在凍結特徵上訓練極簡的分類器)中,UniverSat在BrickKiln磚窯檢測任務上達到94.5%的準確率,超越了包括Panopticon、OlmoEarth在內的所有競爭方法;在Sen1Flood11洪水檢測任務上達到80.1% mIoU,同樣位列第一;在m-ForestNet林地分類、m-Chesapeake土地覆蓋分割、m-NeonTree樹冠分割等多個任務上也位列前三。值得注意的是,這些評測中有幾項任務使用的是模型訓練時從未見過的傳感器配置,比如單時相Sentinel-1、波段數量減少的Sentinel-2以及合成傳感器HLS,UniverSat依然保持了強勁表現。
在PANGEABench評測中,其他競爭模型都使用了包含約4700萬參數的UpperNet重型解碼器頭來完成語義分割,而UniverSat僅用一個9000參數的簡單線性探針——參數量差了整整3700到5000倍——卻在PASTIS-R作物分割(47.9% mIoU)和AI4Farms農田邊界檢測(41.1%)兩項任務上達到了所有方法中最高的成績。這意味著UniverSat的緻密特徵圖本身就已經編碼了大量高質量的空間資訊,不依賴解碼器的大量參數。
在專門的高光譜評測平台SpectralEarth上,UniverSat的表現尤為亮眼。這個平台基於EnMAP高光譜衛星數據(最多500個波段),測試了6個不同的分割和分類任務。UniverSat在所有任務上都超越了DOFA這個專門針對EnMAP訓練的基礎模型,並且接近SpectralEarth-L的成績——後者是專門為EnMAP設計的模型,還在評測數據本身上做了自監督預訓練,相當於有"做題優勢"。UniverSat沒有接觸過任何EnMAP數據,僅憑訓練時接觸的其他高光譜數據就達到了如此表現。
七、拆零件驗證:哪些設計真的有用
研究團隊還做了一系列消融實驗,把模型的每個關鍵組件逐一拆除,觀察性能如何變化,從而驗證每個設計決策的必要性。
當把通用圖塊編碼器UPE替換為每種傳感器各自獨立的MLP投影器(即回退到標準ViT的做法)時,模型參數量反而增加了58%,但在PASTIS多模態作物分割上性能暴跌,從32.9% mIoU降到21.5%,同時喪失了處理未見傳感器的能力,訓練速度也只有原來的一半。這有力證明了UPE設計的價值不只是靈活性,在多模態融合質量上也有實質性提升。
去掉子圖塊的跳躍連接(即不再讓輸出特徵圖通過交叉注意力查詢高解析度細節)時,PASTIS任務略有提升——因為作物分割的標註本來就比較粗糙,精細空間細節用處不大——但其他需要精細結構的任務明顯下降。這說明跳躍連接對需要精細空間資訊的任務至關重要。
固定輸出解析度(不再允許在推理時自定義目標GSD)會在未見過的數據集上表現下滑,說明可控輸出解析度對於跨數據集泛化具有特別重要的意義。用簡單的晚期融合(各模態獨立處理後平均)替換基於軸向交叉注意力的模態融合,會帶來小幅但一致的性能下滑,同時還需要對每種模態單獨跑一遍推理,效率更低。去掉跨模態對比損失則導致多模態分割任務出現顯著下降,尤其是PASTIS降了近5個百分點。
八、局限性與潛在影響
研究團隊也坦誠地指出了這套方案的幾處局限。UniverSat以通用性換取了一定的專業性代價:在單一傳感器的標準任務上(比如只用高解析度RGB影像或只用單時相Sentinel-2),針對該傳感器專門優化的模型可能仍然更精確或更高效。通用設計引入的額外計算開銷,在處理同質、單模態數據時並不划算,只有在真正需要整合多種異質數據時才能體現最大價值。
對於未見過的非光學傳感器(比如訓練時沒有接觸過的新型雷達或高光譜設備),泛化並不像光學傳感器那樣無縫,需要在推理時學習一個小的模態編碼向量來描述新傳感器的特性。
此外,和所有地球觀測模型一樣,UniverSat具備的大規模地表監測能力是一把雙刃劍——它既可以服務於農業、環境、災害等正當用途,也存在被用於大規模人員監視或未經授權的情報收集的風險,這是值得社會各方共同關注的議題。
說到底,UniverSat做的事情其實可以用一句話概括:用一套統一的"讀圖大腦",打通了地球觀測領域裡長期互不兼容的十三種傳感器語言。它不是通過強行統一輸入格式來解決問題,而是從架構設計上就接受了數據的異質性,把靈活性做進了骨子裡。
這項研究對普通人的影響或許不是立竿見影的,但它所解決的問題——如何讓機器自動理解來自各種衛星和航空傳感器的地球觀測數據——直接關係到農業精準灌溉、自然災害預警、森林碳匯監測、城市擴張追蹤等一系列與每個人息息相關的實際應用。當一個AI模型能夠同時理解雷達衛星、光學衛星和無人機拍攝的數據,而不需要為每種數據單獨訓練一個模型時,地球觀測的效率和覆蓋範圍都會得到質的提升。
一個自然延伸的思考問題是:如果UniverSat能夠在不重新訓練的情況下處理它從未見過的新型傳感器,那麼是否有一天,我們能夠把從未部署過的未來傳感器設計藍圖直接輸入模型,讓它提前"模擬"一種尚不存在的觀測方式?這個方向值得期待。有興趣深入了解技術細節的讀者,可以通過arXiv編號2606.23503查閱完整論文及附錄,其中包含了更詳細的架構參數、訓練超參數和數據集描述。
Q&A
Q1:UniverSat和普通衛星圖像AI模型有什麼根本區別?
A:普通衛星圖像AI模型通常只能處理固定格式的輸入,比如固定波段數、固定解析度,換一種傳感器就需要重新訓練。UniverSat的核心區別在於它引入了通用圖塊編碼器UPE,能夠把來自任意傳感器的圖像小塊,不管是幾個波段、多少解析度、是雷達還是光學,都先拆解成最基本的數值原子,然後通過軸向交叉注意力逐步壓縮融合,最終轉換成統一的向量表示,整個過程完全不需要對輸入進行重採樣或格式轉換。
Q2:UniverSat訓練時用了哪些數據,覆蓋了哪些傳感器?
A:UniverSat在7個異質數據集上進行聯合訓練,涵蓋13種傳感器,包括法國FLAIR-Hub的0.2米航空影像和DSM高程數據、PASTIS-HD的SPOT6/7和Sentinel-1/2時間序列、TSAI-TS的樹種分類多模態數據、Planted的Sentinel加Landsat加ALOS-2加MODIS組合、S2NAIP的NAIP航空加Landsat8加Sentinel數據、HyperGlobal的EO-1和高分五號高光譜數據,以及EarthView的NEON超高分高光譜影像,空間解析度從0.1米到300米,光譜通道從1到396個。
Q3:UniverSat在高光譜數據上的表現為什麼值得關注?
A:UniverSat在SpectralEarth高光譜評測平台上的表現特別值得關注,因為它從未在EnMAP高光譜衛星數據上訓練過,卻在所有6個評測任務上都超過了專門針對EnMAP訓練的DOFA基礎模型,並且接近了SpectralEarth-L的成績——後者不僅專為高光譜設計,還在評測數據本身上做了自監督預訓練。這說明UniverSat通過處理其他高光譜傳感器數據學到的表示,能夠良好地遷移到從未見過的高光譜傳感器,具備真正的跨傳感器泛化能力。






