這項由斯坦福大學領導的研究發表於2026年4月,論文編號為arXiv:2604.10333,有興趣深入了解的讀者可以通過該編號查詢完整論文。
一個兩歲的孩子第一次看到玻璃杯從桌邊滑落,他不需要有人反覆告訴他"玻璃杯會掉下去,然後碎掉"——他就是知道。他能追蹤滾動的球,判斷哪塊積木更近、哪塊更遠,甚至在媽媽把手放到玩具上時,就能預料到玩具即將被拿走。更驚人的是,這一切認知能力,他只靠著自己短短兩年、每天東張西望的"個人影片素材"就學會了。
反觀今天最強大的人工智慧系統,它們要學會識別一張貓的照片,需要看過數百萬張標註好的貓咪圖片;要學會分割影片中的物體,需要大量人工打標籤的訓練數據。孩子學得又快又靈活,AI卻又慢又笨拙——這個鮮明的落差,長期困擾著AI研究者。
斯坦福大學的研究團隊為這個問題提出了一套全新的解法,他們把它叫做"零樣本視覺世界模型
",英文縮寫是ZWM(Zero-shot Visual World Model)。所謂"零樣本",就是這個模型在完成各種視覺任務時,完全不需要看任何帶標註的例題——它能直接上手,就像一個聰明的孩子拿到新玩具不看說明書也知道怎麼玩。研究團隊還專門用一個真實兒童的第一視角生活錄像來訓練這個模型,只用了132小時的影片素材,就讓它在多項視覺理解任務上媲美甚至超越了那些用海量數據訓練的專門系統。
這不僅僅是一個AI技術的進步。它更像是一扇窗,讓我們得以窺見兒童大腦究竟是如何高效學習的——以及機器如何在同樣稀薄的資訊條件下,做出同樣聰明的判斷。
一、孩子是怎麼學會"看懂世界"的?AI為什麼學不了?
要理解這項研究究竟解決了什麼問題,先得摸清楚當前AI的軟肋在哪裡。
現有的主流AI視覺系統大概分兩類。第一類叫做"監督學習"模型——顧名思義,就是有人手把手教的。你給它看一百萬張貓的圖片,每張都貼上"這是貓"的標籤,它就學會了識別貓。問題是,這種方式極度依賴人工標註,成本高昂,而且學會了識別貓,不代表它學會了分割貓的輪廓,更不代表它能判斷貓到底在桌子的前面還是後面。每一項新任務,都得重新準備一批新的標註數據,重新訓練一遍。
第二類叫做"自監督學習"模型,這是近年來更流行的方向。這類模型不需要人工標註,而是從海量影片或圖片中自己找規律——比如把相鄰幀的畫面拉近、讓相似的圖片在特徵空間裡靠在一起。這類模型確實學到了很多有用的視覺特徵,但有個致命問題:學完之後,它只有一堆"內部印象",沒有辦法直接拿來做任務。你問它"這個物體在哪裡",它答不上來,除非你再給它準備帶標註的數據、重新訓練一個專門的"讀出頭"。這就好比一個人讀了幾千本書,腦子裡裝滿了知識,卻只能筆頭不離書本,不能直接開口回答你的問題。
更要命的是,當這些自監督模型被拿到真實兒童的生活錄像上訓練時,效果比在ImageNet(一個高質量人工整理的圖片資料庫)上差得多。原因也很直觀:孩子的視角是顛來倒去的、模糊的、重複的,家裡的場景遠沒有精心拍攝的數據集那麼"乾淨"。所以現有AI在兒童真實視角數據上學得很掙扎,這個現象被研究者稱為"生態數據學習鴻溝
"——機器和孩子處理真實世界資訊的能力之間,有一道難以跨越的溝。
語言領域也存在類似的困境。大型語言模型(比如ChatGPT)確實能做到"零樣本"回答問題,但那是建立在數以萬億計的文字訓練數據上的。對於視覺理解,這條路還遠遠沒有走通。
ZWM研究團隊正是衝著這兩道門檻而來的——既要數據高效(少量數據就能學會),又要任務靈活(不需要針對每項任務重新訓練)。
二、ZWM的三塊基石:像拆解一道物理題一樣學會看世界
ZWM的核心設計建立在三個原則上,可以用"一次練習、舉一反三、層層深入"來概括。
第一塊基石叫做"稀疏時間分解預測
"。具體說來,模型的訓練方式是這樣的:給它看兩幀影片畫面,相隔約150到450毫秒(大概是眨眼的速度)。第一幀畫面完整呈現,第二幀畫面則被大量遮擋,只隨機留下大約10%的像素小塊(稱為"補丁"),其餘90%都用黑塊蓋住。模型的任務是:根據第一幀的完整畫面和第二幀漏出的那一點點線索,把第二幀完整預測出來。
這個訓練方式看似簡單,卻產生了一個非常精妙的效果。因為第二幀幾乎全被遮住,模型要想準確還原它,就必須從第一幀里理解物體的外觀,再從第二幀那一丁點漏出的線索里推斷物體和相機的運動。換句話說,外觀和運動這兩件事,被這道"填空題"強制拆解開了。就像偵探在案發現場只找到幾枚腳印,他必須從這幾枚腳印里推斷出嫌疑人的行走方向,而不是依賴監控錄像把整件事看清楚。正是這種"線索稀少、推斷困難"的訓練條件,逼迫模型內部形成了清晰的、可被利用的結構化表示。
第二塊基石叫做"通過近似因果推斷
進行零樣本提取"。這是整個框架最有創意的部分。訓練完成後,模型掌握的那些"內部印象"怎麼變成具體的視覺能力呢?方法是做一個簡單的"反事實實驗"。
以估算光流(即像素的運動方向和速度)為例:給模型看一幀圖像,然後在原始圖像里某個特定位置悄悄加上一個白色小點作為"探針",再讓模型預測下一幀。同時,用沒有這個小點的原始圖像再預測一次下一幀。把兩次預測的結果相減,差異最大的地方就是那個小點"被帶到了哪裡"——這個位置的偏移,就是光流。這個操作不需要任何標註,不需要任何額外訓練,完全依靠模型自身已經學到的世界物理規律來運作。
這套邏輯本質上是因果推斷:改變一個輸入,觀察輸出的變化,就能推斷出某種因果關係。研究團隊把這個過程形式化成三步——"擾動"(perturb)、"比較"(compare)、"聚合"(aggregate)——構成了所有零樣本任務的通用接口。就像一個偵探通過改變現場的某件物品來觀察嫌疑人的反應,從而判斷這件物品對案件的重要性。
第三塊基石叫做"組合式提示
"。簡單的提示可以像積木一樣拼接成複雜的能力。光流估算是最基礎的一塊積木。把光流用在立體圖像對(左眼和右眼各拍一張)上,就變成了深度感知——近處的東西左右視差大,遠處的東西視差小。把一個假設性的運動擾動施加到某個物體上,再用光流分析哪些像素一起動了,就變成了物體分割。把物體分割和運動預測組合起來,用來推斷"如果這隻手推了這個杯子,杯子會不會倒",就變成了直覺物理推理。這個逐層堆疊的過程,像極了真實兒童的認知發展:先感知運動,再感知物體,再理解物體之間的因果關係。
三、用一個孩子的眼睛訓練出來的"嬰兒ZWM"
研究團隊把用BabyView數據集
訓練的模型叫做BabyZWM,而BabyView是一個真實的兒童第一視角影片數據集,包含34名年齡在5個月到5歲之間的兒童的868小時生活錄像,由他們戴著頭戴式攝像機在日常生活中錄製。這些影片裡有晃動的鏡頭、模糊的畫面、重複的家庭場景,以及大量"摔東西"、"抓玩具"、"看媽媽燒飯"之類的日常片段——遠遠談不上"高質量數據集"。
為了進一步驗證模型的數據效率,研究團隊還從BabyView中專門篩選出一個極端情形:只用其中一個孩子從9個月到30個月期間錄製的132小時影片來訓練,稱之為"單子女BabyZWM"。132小時是什麼概念?如果按照孩子每天清醒約10小時來算,這大概相當於13天的清醒時間。一個孩子睜眼看了13天的世界,然後AI就從這些影片裡學會了理解場景——這正是研究團隊想要驗證的極限。
與此同時,他們還訓練了按照孩子年齡順序排列影片的版本,模擬兒童的成長過程是按時間順序展開的、不能跳過或打亂的。在這個"年齡排序課程
"版本里,研究團隊還測試了不同的"整理程度":有的版本在5分鐘的時間窗口內隨機打亂順序(模擬短時記憶整合),有的在30分鐘內打亂,有的在1天內打亂(模擬睡眠期間的記憶重組)。結果令人稱奇:不管是哪種排列方式,模型的最終表現幾乎相同,說明ZWM框架對數據順序不敏感,具備很好的持續學習能力。
四、考試成績單:和專業系統掰手腕
研究團隊用四類視覺任務對模型進行了全面考核,每類任務都和頂尖專業系統進行了比較。
光流估算方面,BabyZWM在TAP-Vid-DAVIS基準(一個使用真實複雜影片、包含快速運動、遮擋和光照變化的高難度測試集)上表現出色,與專門用帶標註數據訓練的CoTracker3、DPFlow、SeaRAFT等系統不相上下,在判斷像素是否被遮擋方面更是達到了和監督學習系統同等水平。在另一個合成影片測試集TAP-Vid-Kubric上,BabyZWM的成績略低於用合成數據專門訓練的系統,但整體依然強勁。和DINOv3、V-JEPA2等表示學習模型相比,BabyZWM明顯更勝一籌——畢竟那些模型本來就沒有為光流任務設計。
相對深度估算方面,BabyZWM在UniQA-3D測試集上的準確率超過了90%。這個測試集的題目是給你兩個場景中的點,判斷哪個更遠。90%的準確率不僅超過了Gemini-1.5、GPT-4-Turbo、GPT-4o等大型視覺語言模型,還和專門訓練的單目深度模型MiDaS-CNN、自監督深度模型MonoDepth2在同一檔次。只有使用立體雙目相機專門訓練的FoundationStereo略勝一籌,但那是因為它有天然的硬體優勢。
物體分割方面,BabyZWM在SpelkeBench測試集上的表現可以媲美Mask2Former(在大規模COCO數據集上有監督訓練的專業分割系統),只有SAM2(使用了極大規模人工標註數據)的表現略高於BabyZWM。考慮到BabyZWM完全沒有用任何分割標註數據,這個成績已經相當驚人。
直覺物理推理方面,研究團隊自己設計了一套全新的測試,場景是桌面上的手和物體互動:一隻手推了某個物體,模型能否預測接下來會發生什麼?測試覆蓋了五種情況:物體的整體連貫性(推一個角,整個物體都動)、支撐關係(底部的東西被移走後上面的東西會倒)、力的傳遞(推A,A撞B,B也動)、力的分離(推A不影響距離較遠的B)。BabyZWM在所有五種情況下的準確率都接近100%,和用大量多樣化數據訓練的V-JEPA2不相上下。有趣的是,用BabyView數據訓練的V-JEPA2(即Baby V-JEPA2)在這些任務上表現明顯較差,說明V-JEPA2的架構對真實兒童影片數據的適應能力不如ZWM——同樣的數據,ZWM榨取出了更多的資訊。
此外,研究團隊還發現,當他們把非對稱遮擋設計(第一幀全看、第二幀只露10%)改成對稱遮擋(兩幀各遮45%或各遮90%)時,模型的表現在所有任務上都大幅下滑。這說明"讓模型被迫分離外觀與運動"這個設計是整個框架能否成功的關鍵,不是隨便什麼遮擋策略都有效。
五、成長曲線:AI的"發育歷程"和孩子驚人地相似
研究團隊不僅測試了訓練完畢的模型,還專門分析了模型在訓練過程中的"成長軌跡"——相當於觀察一個孩子在不同年齡段的認知能力發展。他們在訓練的多個節點(0步、5000步、10000步……直到200000步,總計約等於95天的兒童清醒時間)對模型進行了全面評估。
光流能力在訓練初期就迅速提升,然後趨於穩定,對應了真實兒童的運動追蹤能力——嬰兒在幾個月內就發展出了追蹤單個或多個運動物體的基本能力。深度感知能力在訓練初期急劇提升並維持在高位,對應了嬰兒在3到5個月時迅速發展的立體視覺,並在此後持續精細化。物體分割能力則在整個訓練過程中持續提升,沒有明顯的平台期,對應了嬰兒期漫長的物體感知學習過程。直覺物理推理在最後階段才有明顯提升,對應了兒童從模糊的整體物理預期逐漸發展出精細的因果判斷——先學會"東西不會憑空消失",再學會"圓的東西會滾",再學會"重的東西放在輕的上面會倒"。
研究團隊坦誠地指出,這些軌跡的相似性需要謹慎解讀,因為不同任務的測試難度和評價指標本來就不同,很難直接比較。但這個平行性本身依然提供了一個有意思的視角:一個從影片中自學的AI,在沒有人明確教它"先學運動再學物體再學物理"的情況下,自發地走出了和人類嬰兒相似的認知發展路徑。
六、AI的"大腦掃描":內部結構和人腦高度相似
研究團隊還做了一件特別有趣的事——把AI模型的內部表示拿去和真實人腦及猴腦的神經反應進行比較,看看它"想問題"的方式是否和生物視覺系統相似。
他們使用了兩套神經數據集:一是NSD(自然場景數據集),記錄了人類在看各種自然圖片時大腦不同視覺區域的fMRI(功能性磁共振成像)反應;二是TVSD(腹側視覺流脈衝放電數據集),記錄了獼猴單個神經元在看圖片時的電生理反應。前者捕捉的是大腦整體的"幾何形狀",後者則精細到了單個神經元的細節。
評估方式是:用線性回歸從模型的某一層特徵去預測神經反應,看預測準確度有多高。準確度越高,說明模型的那一層和對應的大腦區域"想的越像"。
BabyZWM展現出了兩個非常令人印象深刻的規律。第一,模型的淺層(前面的層)和人腦的初級視覺皮層(V1、V2等處理基本邊緣、顏色的區域)最匹配,而模型的深層則和高級視覺皮層(處理複雜物體識別的區域)最匹配——這和神經科學對視覺系統分級處理的經典理解完全一致。第二,在訓練過程中,初級視覺皮層的對應關係很快就建立起來了,而高級視覺皮層的對應關係則需要更長的訓練時間才能達到峰值——這個"早期區域先發育"的規律,和兒童大腦的發育順序如出一轍。
更值得一提的是,BabyZWM在這兩套神經數據上的對應程度,和用遠遠更多、更多樣化數據訓練的大型ZWM版本(如BVD版本)相差無幾。而Baby V-JEPA2的神經對應度則明顯低於其大數據版本——這再次印證了,ZWM的架構設計幫助它更好地從有限的兒童視角數據中提煉出了和生物視覺系統類似的表示結構。
七、這項研究告訴我們什麼,還有哪些沒解決的問題
歸根結底,ZWM做了一件很有意思的事:它不打算複製"現有AI的成功路徑"——即大數據加專門訓練——而是試圖找到一種更接近生物認知的學習方式,用最少的原材料做出最豐富的菜餚。
從哲學層面看,這項研究為一場曠日持久的爭論提供了新證據。科學界長期爭論兒童的認知能力有多少是"天生"的——有人認為嬰兒生來就攜帶著對物體、因果關係的先天知識;也有人認為這些全是後天學習的結果。ZWM給出的答案更像是一種折中:先天的可能只是學習機制本身(架構、訓練目標、提取程序),而具體的知識內容則完全從經驗中習得。這個"機制先天、內容後天"的假設,被模型的實際表現所支持——它確實從一個孩子十幾天的視角錄像里,自發地提煉出了對物體、運動、因果關係的理解。
研究團隊也坦率地列出了當前的幾個重要局限。首先,ZWM目前的能力集中在物理世界的理解上——運動、深度、物體、力——而語言、語義概念(比如"這是一隻貓"而不僅僅是"這裡有一團移動的東西")還完全沒有涉及。把視覺世界模型和兒童的語言輸入結合起來,是未來重要的研究方向。其次,ZWM是一個確定性的回歸模型,在不確定的情況下會產生模糊的預測(專業上叫"模式崩潰
"),這限制了它在長時程預測和控制任務上的表現。未來可能需要引入概率建模來解決這個問題。第三,目前神經科學和兒童認知發展領域缺少足夠精細的對比數據,使得模型和真實兒童的系統性比較還很困難,需要更多跨學科合作。
從AI工程的角度,ZWM展示的"一個模型、通用接口、零樣本多任務"的能力,讓人聯想到大型語言模型在語言領域的突破。區別在於,語言模型用了萬億級別的訓練數據,而BabyZWM只用了幾百小時的兒童錄像。如果這條路走得通,它對機器人、醫學影像、具身AI等領域的影響會是巨大的——因為這些場景里,大規模帶標註數據幾乎不可能獲得。
這項研究打開的大門,比它本身走過的路還要長。一個孩子的眼睛,看了不到兩周,就教會了一台機器理解物理世界的基本規律。這提醒我們:學習的效率,從來都不只取決於數據的多少,更取決於我們問對了什麼樣的問題。
Q&A
Q1:ZWM模型和普通AI視覺模型的根本區別是什麼?
A:普通AI視覺模型(無論是監督學習還是自監督學習)訓練完之後,要做每一項新任務都需要額外準備帶標註的數據重新訓練一個"讀出層"。ZWM則不同,它通過一種叫做"近似因果推斷"的機制,能直接用訓練好的模型做光流、深度、分割、物理推理等多種任務,完全不需要額外的標註數據和任務特定訓練,這就是"零樣本"能力的核心含義。
Q2:BabyZWM用的訓練數據真的只有一個孩子的影片嗎?
A:是的,研究中最嚴格的測試版本"單子女BabyZWM"只使用了一個兒童(編號S00320001,年齡9到30個月)的132小時第一視角生活錄像進行訓練。這些影片是在普通家庭日常生活中錄製的,畫質參差、場景重複,遠沒有經過專業整理。即便如此,這個版本在大多數視覺任務上的表現和用34個孩子共868小時數據訓練的完整版BabyZWM幾乎沒有差距。
Q3:ZWM的非對稱遮擋訓練策略為什麼那麼重要?
A:非對稱遮擋是指訓練時第一幀完全可見、第二幀只露出10%。這個設計強迫模型把"物體外觀"和"物體運動"這兩件事分開來學習:外觀從第一幀獲取,運動則從第二幀那一點點漏出的像素里推斷。正是這種強制分離,讓模型內部形成了可以被"零樣本提示"所利用的結構化表示。研究團隊測試了兩幀對稱遮擋的變體,結果在所有任務上表現都大幅下滑,證明了這個非對稱設計是整個框架成功的關鍵。






