谷歌與康奈爾大學聯手：用AI帶你「走進」世界任意一條真實街道

這項研究由谷歌、康奈爾大學和斯坦福大學的研究團隊聯合完成，論文以預印本形式於2026年4月21日發布在arXiv平台，編號為arXiv:2604.19741，研究方向歸屬電腦視覺領域（cs.CV）。有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

**一、如果你能"踏進"任何一張街景照片……**

假設你手邊有一張拍攝於紐約42街與第五大道交叉口的普通照片。現在，你不只是在看這張照片，而是真的能"走進去"——虛擬相機開始向前移動，沿著街道一步步靠近帝國大廈。帝國大廈在原照片裡並不可見，但隨著鏡頭南行，整座城市的面貌逐漸展開：真實存在的道路、紅綠燈、商店、消防栓，乃至帝國大廈本身，都與現實地理位置完全吻合。更妙的是，影片裡保留了原照片拍攝時的天氣——下午兩點的濛濛細雨——還有一輛計程車正在轉彎，一位穿西裝外套的男士繼續沿街行走。

這不是科幻電影裡的橋段，而是這篇論文提出的系統"CityRAG"正在嘗試實現的事情。

這種能力的潛在用途相當廣泛。自動駕駛汽車的研發團隊可以把一張暴風雪場景的照片直接轉化成高保真仿真影片，用於訓練無人駕駛系統，而不必真的開著測試車在危險路況下行駛。工廠機器人可以通過類似系統提前熟悉特定環境的每個角落，學會繞開臨時堆放的貨箱和穿行的工人。虛擬旅遊、遊戲場景構建、城市規劃預演……這些都是這項技術可能落地的場景。

**二、現有技術為什麼做不到這件事**

要理解CityRAG的價值，先得明白現有方法卡在哪裡。

目前最流行的AI影片生成方式，大致分為"文字生成影片"和"圖片生成影片"兩大類。你給它一段文字描述，或者一張圖片，它就能生成一段看起來合理的影片。這類模型之所以能做到這點，是因為它們在海量數據上訓練，積累了大量關於"世界大概長什麼樣"的直覺。

但問題恰恰在於"大概"這兩個字。這類模型生成的城市街道，是AI想像中的某條街道，而不是真實存在的那條。建築物的樣式、道路的走向、路口的結構，都是模型憑空捏造出來的，跟現實毫無對應關係。用它來做自動駕駛仿真，就好比用一幅憑想像畫出來的地圖來訓練導航系統——看起來像模像樣，但一旦真車上路，就會發現地圖和現實完全對不上。

贊助商廣告

另一條路是用三維重建技術，比如NeRF（神經輻射場）這類方法。它的思路是：給系統大量從不同角度拍攝的同一地點的照片，讓它重建出這個地方的三維結構，然後就可以從任意角度渲染出新視角的圖像。這條路的好處是"忠於現實"，但壞處也很明顯——它要求輸入的照片必須是同一時刻、同一光照條件下密集拍攝的，而且生成的畫面是靜態的，無法自然呈現行人走路、汽車行駛這類動態元素。要在城市規模上應用，數據採集的成本和難度都極高。

CityRAG的出發點，正是要在這兩條路之間找到第三條：既能忠於真實地理，又能靈活處理光照變化、天氣差異和動態物體。

**三、核心思路：給AI一份"真實記憶"**

CityRAG這個名字里的"RAG"，是"檢索增強生成"（Retrieval-Augmented Generation）的縮寫。這個概念最初來自自然語言處理領域——當一個語言模型被問到某個具體問題時，與其讓它憑"記憶"回答，不如臨時去查詢一個外部知識庫，把相關資料取來作為參考，再生成回答。這樣做的好處是：模型不必把所有知識都硬塞進自己的參數裡，而是可以按需調用外部資訊，回答也更準確、更可靠。

CityRAG把這個思路搬到了影片生成領域。它背後維護著一個巨大的街景資料庫，裡面儲存了來自真實世界的地理標註街景影片幀。當用戶指定一個地點和一條路徑時，系統不是讓AI憑想像生成那條街道，而是先從資料庫里檢索出沿途的真實街景影像，把這些真實影像作為"地理空間條件"輸入給影片生成模型。模型在生成影片時，就有了一份關於這個地方"長什麼樣"的真實參考，從而保證生成的建築、道路、路口結構與現實吻合。

與此同時，用戶提供的第一張圖片（可以是自己拍的照片，也可以是從網上找的圖片，甚至可以是經過AI改造的圖片，比如把夏威夷的街景改成下雪的樣子）則承擔著另一個角色：它決定了影片的"氛圍"——是白天還是黑夜，是晴天還是雨天，路上有沒有車和行人，以及這些元素是什麼樣子的。

贊助商廣告

兩者結合起來，就形成了CityRAG最核心的能力分工：真實地理結構來自資料庫里的真實街景，而光照、天氣、動態元素則來自用戶提供的第一張圖片。模型的任務，是把這兩套資訊融合起來，生成一段既忠於現實地理又符合用戶指定氛圍的影片。

**四、訓練數據的巧妙設計：同一地點，不同時刻**

要讓模型真正學會"從真實街景里提取地理結構，同時從第一張圖片裡提取氛圍"，光靠系統設計是不夠的，還需要數據來教會它做這件事。

研究團隊收集了來自十座城市的550萬張街景全景圖，包括巴黎、雅典、安克雷奇、海德拉巴、費城、舊金山、聖胡安、火奴魯魯、倫敦和聖保羅，涵蓋了多大洲、多氣候帶的多樣場景。其中前八座城市用於訓練，後兩座（倫敦和聖保羅）作為測試集，用於評估模型在從未見過的城市上的表現。

數據構建的核心技巧，是尋找"同一地點、不同時刻"的配對序列。具體而言，研究團隊在資料庫里篩選這樣的組合：沿同一條路徑行進的兩段街景影片，兩段影片的行駛軌跡在空間上高度重合（平均距離不超過5米），但拍攝時間不同——可能是同一天的早晨和下午，也可能是相隔數月的兩次採集。經過篩選，最終得到130萬張用於訓練的全景圖。

這種配對設計的妙處在於：當模型看到兩段"幾乎在同一個地方拍的"影片時，它能觀察到哪些東西是穩定不變的（建築外牆、道路布局、路口結構），哪些東西是隨時間變化的（路上的車輛、行人、光照強度、天空顏色）。通過大量這樣的配對樣本反覆訓練，模型逐漸學會了區分"這個場景的骨架"和"這個場景的當下狀態"——前者來自地理，後者來自時間。

**五、模型架構：三條資訊流的協同**

在具體的技術實現上，CityRAG是在一個已經訓練好的頂尖圖片轉影片模型（Wan 2.1，參數量140億）基礎上做的微調。Wan 2.1本身由一個時空變分自編碼器（VAE）和一個基於擴散Transformer（DiT）的生成模型組成——前者負責把圖像壓縮成緊湊的"內部表示"，後者負責從噪聲中逐步生成清晰的影片幀。

贊助商廣告

CityRAG在這個基礎上引入了三條額外的資訊流。

第一條是"第一幀圖像條件"，沿用了Wan 2.1原有的機制：用戶提供的第一張圖片經過VAE處理後，與待生成影片的噪聲潛變量在通道維度上拼接，作為生成的起點和氛圍參考。

第二條是"軌跡條件"。用戶指定的運動路徑被表示為一系列4×4的相機外參矩陣（可以理解為記錄了每一幀相機在空間中的位置和朝向的數字表格）。這些矩陣經過壓縮、通過兩層神經網路處理後，以殘差疊加的方式注入到Transformer的每一層，為生成的每一幀提供精確的視角控制。坐標系採用地心固連坐標系（ECEF），單位為米，因此不同城市、不同路段的軌跡數據都在同一套尺度下表示，保證了跨城市的一致性。

第三條也是最關鍵的一條，是"地理空間條件"。檢索到的真實街景影片幀經過VAE壓縮後，通過交叉注意力機制（cross-attention）注入到生成模型中。具體做法是：把原有的自注意力模組複製一份，獨立訓練，把真實街景幀的壓縮表示作為鍵（Key）和值（Value），把待生成影片的噪聲潛變量作為查詢（Query）。這樣，待生成影片的每一幀都可以"參考"整段真實街景影片的完整內容，而不只是當前時刻對應的那一幀——這對於處理兩段影片在時間上不對齊的情況至關重要。

在訓練時，真實街景條件影片的長度會隨機變化（在61到81幀之間），這迫使模型學會從整段影片裡提取全局的場景結構資訊，而不是依賴逐幀的像素對齊。同時，由於街景數據的行進方向大多是筆直向前，研究團隊通過隨機裁切全景圖的水平朝向來增強旋轉方向的多樣性，使模型能夠泛化到各種轉彎角度。

在訓練細節上，分類器自由引導的無條件概率設為10%，軌跡條件和地理空間條件各自獨立隨機丟棄，使得兩者都能在單獨使用時仍然有效。優化器選用了Muon，學習率固定為1e-5，在32塊A100 GPU上訓練約一周、約兩萬次疊代。

贊助商廣告

**六、推理時的RAG流水線：從"想去哪"到"看見那裡"**

用戶使用CityRAG的完整流程分為四步，循環進行，可以無限延伸。

第一步，用戶選定一個地點，並提供一張用於初始化場景氛圍的圖片。這張圖片可以是從數據集裡隨機挑選的，也可以是用戶自己拍的，甚至可以是經過AI改圖處理的——比如把火奴魯魯的夏日街景改成積雪覆蓋的冬日場景。

第二步，用戶輸入一段行進軌跡（比如"沿著這條路往前走，然後在第三個路口右轉"）。系統根據這段軌跡的地理坐標，從街景資料庫里檢索出沿途最接近的真實街景影片，作為地理空間條件。

第三步，把第一張圖片、軌跡資訊和檢索到的真實街景影片一併輸入到訓練好的CityRAG模型，生成一段73幀、480p解析度的影片（約10秒）。

第四步，把剛生成的影片的最後一幀作為新的第一幀圖片，把當前位置更新為軌跡的終點，回到第二步繼續生成下一段影片。通過這種方式不斷銜接，理論上可以生成任意長度的漫遊影片。

在實際運行中，資料庫里儲存的真實街景路徑不一定能完全覆蓋用戶指定的任意軌跡。遇到需要轉彎但資料庫里只有直行路徑的情況，CityRAG會從兩段不同方向的真實街景影片裡各取一部分，拼接成一段代理條件影片。儘管這段拼接後的條件影片在銜接處會有畫面跳轉（相當於攝像機視角突然旋轉了90度），模型依然能夠生成連貫自然的影片輸出，說明它已經真正學會了從地理空間條件中提取場景結構，而不是機械地複製條件影片的像素。

**七、實驗結果：與同類方法的對比**

由於CityRAG所做的任務在此之前沒有完全對應的開源基線方法，研究團隊從三個相關方向各選了一個代表性方法來做對比。

第一個對比方向是"圖片轉影片加相機控制"，選用的是Gen3C——一個最先進的、能夠指定攝像機軌跡的影片生成模型，它以駕駛仿真為其應用場景之一。第二個方向是"影片轉影片加相機控制"，選用了Gen3C的另一種用法和TrajectoryCrafter——這類方法的思路是把一段已有影片重新渲染成另一個視角。在CityRAG的對比設置中，研究團隊把檢索到的真實街景影片輸入給這些方法，讓它們按照目標軌跡重新渲染。第三個方向是"影片轉影片加風格遷移"，選用了AnyV2V——它能夠把一段影片改造成另一張參考圖片的風格。在對比設置中，真實街景影片作為輸入影片，用戶的第一張圖片作為風格參考。

贊助商廣告

定量評估方面，研究團隊使用了來自三維場景重建領域的標準指標：PSNR（峰值信噪比，衡量像素級別的重建準確性）、SSIM（結構相似性，衡量圖像結構的保留程度）和LPIPS（學習感知圖像塊相似度，衡量人眼感知層面的相似性）。由於研究的重點是靜態建築和道路的還原，還額外計算了隱藏掉動態物體（車輛和行人）後的靜態版本指標（PSNR-S、SSIM-S、LPIPS-S）。此外還包括FID（Fréchet起始距離），用於評估生成影片的整體視覺質量。

在所有七項指標上，CityRAG均優於所有對比方法，且差距尤其體現在感知類指標上。以LPIPS為例，CityRAG得到0.504，而最接近的對比方法Gen3C（I2V）為0.654，差距相當顯著。FID方面，CityRAG為16.55，而所有對比方法均在47到61之間，說明生成影片的整體視覺自然度遠高於其他方法。

定性對比方面，研究團隊展示了三個典型測試場景，每個場景都對現有方法構成挑戰。第一個場景中，第一張圖片和真實街景影片呈現出不同的天氣與交通狀況——CityRAG生成的影片始終保持第一張圖片裡的天氣，前方的黑色轎車在轉彎時消失又重新出現，行為自然連貫，而其他方法或者停在原地不動，或者忽視了第一張圖片裡的天氣資訊。第二個場景中，真實街景影片因為等待讓行停了下來，但用戶指定的軌跡要求繼續前進——CityRAG按照軌跡繼續前行，並準確渲染出在地理條件影片的第10秒才出現的建築結構（而當時生成影片才到第7秒），說明模型確實從整段條件影片裡提取了超越當前時刻的全局場景資訊，而不是簡單地逐幀複製。第三個場景要求攝像機在原地旋轉180度，CityRAG準確完成了這一動作並渲染出合理的紋理細節。

用戶研究方面，共有20位用戶參與評測，分別就三個維度對各方法打分：視覺質量、是否是第一張圖片的自然延續，以及是否忠於真實物理地點。結果顯示，CityRAG是唯一一個同時在"自然延續第一幀"和"忠於真實地點"這兩個維度上得分較高的方法——其他方法要麼只能做到其中一條，要麼兩條都做不好。

贊助商廣告

**八、靈活性與局限性**

CityRAG展現出了幾個值得單獨提及的靈活性特徵。軌跡條件和地理空間條件不需要精確對齊：即使真實街景影片裡的車輛陷入擁堵、與用戶指定的軌跡完全不同步，模型也能按照軌跡指令生成正確的影片。在極端旋轉測試中，模型成功完成了360度旋轉（是訓練集中最大旋轉量的兩倍），說明軌跡條件的泛化能力超出了訓練分布。

當然，這篇論文也坦誠地列出了當前系統的幾個不足之處。自回歸生成時，兩段影片之間的銜接僅依靠上一段的最後一幀，沒有引入專門的長程一致性機制，長距離漫遊後可能出現累積漂移。數據偏差方面，由於街景採集的硬體和傳感器限制，資料庫里幾乎沒有雪天、雨天和夜晚的場景，導致模型在這些條件下的泛化能力受限（儘管用戶可以通過第一張圖片來"引導"出夜晚效果，但效果仍有上限）。文本控制方面，微調後的模型對新的文字提示不再響應，目前只能使用固定的場景描述提示詞，這一功能的恢復被列為未來工作方向。

**九、這件事對我們意味著什麼**

說到底，CityRAG做的事情可以用一句話概括：它給AI影片生成裝上了一雙"記得真實世界長什麼樣"的眼睛。

這項能力的意義，在於它把兩件此前只能二選一的事情同時做到了：生成的影片既忠於真實地理，又能靈活適應各種光照、天氣和動態場景。這個組合對於自動駕駛仿真、機器人訓練、虛擬旅遊、城市規劃可視化等一系列依賴"真實但可控"場景的應用，都有潛在的推動價值。

從技術路徑來看，CityRAG也提供了一個有趣的示範：當你有一個巨大的、地理標註的真實世界資料庫時，與其把它全部壓進模型參數，不如設計成一個可以在推理時動態檢索的外部記憶庫。這種設計讓模型可以隨著資料庫的擴展而自然升級，不需要重新訓練整個模型。

當然，還有很多路要走。如何在更長的漫遊過程中保持場景的連貫性，如何補充更多天氣和時間條件的數據，如何重新讓文本控制生效，都是這個研究方向下一步需要解決的問題。但作為一個起點，CityRAG已經相當清晰地勾勒出了"AI踏進真實世界"這件事的輪廓。

贊助商廣告

---

Q&A

Q1：CityRAG生成的影片是真實的街道影像嗎？

A：不完全是。CityRAG生成的是AI合成的影片，但建築、道路和路口結構來自真實存在的街景數據。可以理解為：影片的"骨架"（建築和道路）是真實的，而光照、天氣、車輛和行人則是根據用戶提供的第一張圖片重新生成的。最終影片是合成內容，不是直接播放的原始街景錄像。

Q2：CityRAG需要哪些輸入才能生成影片？

A：用戶需要提供兩樣東西：一是一張用來定義場景氛圍的圖片（可以是任何街景照片，甚至是AI改過的圖）；二是一條想要行進的路徑（通過地圖上的坐標指定）。系統會自動從內部的街景資料庫里檢索對應地點的真實街景，結合用戶輸入生成影片，用戶不需要自己準備街景資料。

Q3：CityRAG和普通的AI影片生成有什麼本質區別？

A：普通AI影片生成模型（如文字轉影片）生成的城市街道是模型憑想像構造的，建築和路口都不對應真實地點。CityRAG的關鍵不同在於它在生成時會檢索真實地理資料庫，把真實存在的建築和道路結構作為約束條件輸入給生成模型，從而保證生成結果與現實地理吻合，而不是AI的自由發揮。