宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

字節跳動提出"空間能力樹":AI看世界的能力原來要像孩子一樣一步步學習

2026年01月28日 首頁 » 熱門科技

你有沒有想過,當你看一張照片時,大腦在瞬間完成了多少神奇的工作?你能立刻知道哪個物體離你更近,能判斷出桌子比椅子大,還能想像如果從另一個角度看這個房間會是什麼樣子。這些對我們來說輕而易舉的事情,對於人工智慧來說卻像是攀登珠穆朗瑪峰一樣困難。

字節跳動提出空間能力樹AI看世界的能力原來要像孩子一樣一步步學習

2026年1月,字節跳動Seed團隊完成的一項研究,為我們揭開了AI理解空間的秘密。核心發現是:AI學習"看懂"三維世界的方式,竟然和人類嬰兒的成長過程驚人地相似,都需要從最基礎的感知能力開始,一步步建立起複雜的空間智能。

一個剛出生的嬰兒認識世界的過程是什麼?最開始,嬰兒只能感知到光線的明暗變化,分不清媽媽的臉和背後的牆壁有什麼區別。慢慢地,他開始能分辨出不同物體的輪廓,知道奶瓶比積木大,玩具熊在床的左邊。再大一些,他學會了在腦海中想像:如果我繞到桌子另一邊,那個藏起來的糖果就能被看到了。最後,他能夠規劃自己的行動:先爬過地毯,再繞過椅子,就能拿到那個心心念念的玩具了。

正是受到這種人類認知發展規律的啟發,研究團隊提出了一個名為SpatialTree的框架。這個名字很形象,空間能力就像一棵大樹,從根部的基礎感知能力開始生長,逐漸分出枝幹,最終長出能夠在真實世界中行動的"果實"。這棵能力樹有四個層次,每個層次都建立在前一個層次的基礎之上,就像蓋房子必須先打地基一樣。

感知層:AI睜開眼睛看世界的第一步

讓我們先從這棵能力樹的根基說起。感知層是整個空間智能的起點,就好比一個剛學會睜眼的嬰兒開始觀察這個世界。在這個階段,AI需要學會五種最基本的能力:幾何感知、運動感知、方向感知、關係感知和定位感知。

幾何感知是其中最核心的部分,它讓AI能夠理解物體的物理屬性。這包括三個維度的能力:判斷距離、估計大小和識別形狀。判斷距離就像你走在路上能立刻知道前面那輛車離你有多遠,是應該加速還是減速。估計大小則是能夠判斷一個蘋果能不能一手握住,一個門洞夠不夠寬讓你通過。識別形狀是最基礎的,讓AI能夠分辨出圓形的杯子和方形的書本。

運動感知分為兩種類型,研究者們用了兩個專業術語來區分它們:自我中心的運動感知和他物中心的運動感知。自我中心的運動感知就是感知自己在移動,當你坐在行駛的汽車裡,你能感覺到車子在前進,在轉彎。他物中心的運動感知則是觀察外界物體的運動,你站在路邊,能看到一輛自行車從左邊騎到右邊,能判斷它大概有多快。

方向感知可能是最有趣的一種能力。它包括兩個方面:一是感知重力方向,也就是知道哪邊是上哪邊是下。這聽起來很簡單,但想像一下,如果你看一張歪著拍的照片,你仍然能判斷出真正的地平線在哪裡,這就是重力感知在起作用。二是感知物體的朝向,比如看到一個杯子,你能判斷它是正放著還是歪倒了。

字節跳動提出空間能力樹AI看世界的能力原來要像孩子一樣一步步學習

關係感知讓AI能夠理解物體之間的空間關係。最基本的關係包括"在裡面"、"在外面"、"在上面"、"被遮擋"等等。更進一步的是對應關係識別,當你從不同角度拍兩張同一個房間的照片時,AI需要能認出兩張照片裡的那把椅子其實是同一把椅子。這就像你在機場接人,即使朋友換了髮型換了衣服,你仍然能在人群中認出他來。

定位感知則是回答"在哪裡"這個問題的能力。它包括檢測和定位兩個方面:檢測是發現物體的存在和大致範圍,定位則是精確地確定物體在三維空間中的坐標位置。

研究團隊在測試中發現了一個非常有趣的現象:這些基礎感知能力之間幾乎是相互獨立的。也就是說,一個AI可能在判斷距離方面表現出色,但在識別運動方面卻一塌糊塗。這就像有些人天生方向感極好,但對顏色卻不敏感一樣。這種獨立性意味著,訓練AI的一種感知能力,並不會自動提升其他感知能力。

心智映射層:給空間穿上語言的外衣

當AI掌握了基礎的感知能力之後,下一步就是要把這些感知到的資訊用語言表達出來,並且能夠記住它們。這就是心智映射層要解決的問題,它包括理解和記憶兩大能力。

理解能力是把看到的空間資訊翻譯成語言的過程。這聽起來簡單,但其實非常複雜。比如,當AI看到一個人騎在馬上,它不僅要識別出有一個人和一匹馬,還要理解"騎"這個動作所代表的空間關係,人在馬的上方,人的腿在馬的兩側,人的手握著韁繩。這種理解比簡單的"人在馬上面"要豐富得多。

理解能力還包括一個特別重要的方面:視角轉換。想像你站在一個房間的門口,你能看到沙發在你的左邊,電視在你的正前方。現在,如果有人問你"從窗戶那個位置看,沙發在哪邊?"你需要在腦海中切換到窗戶的位置,重新計算沙發相對於那個新位置的方向。這種心理上的"換位思考"對AI來說是一個巨大的挑戰。

另一個理解能力的組成部分是可供性理解,這個詞聽起來有點拗口,但概念其實很簡單。可供性指的是物體能夠被用來做什麼。當你看到一把椅子時,你立刻知道它可以用來坐;看到一個杯子的把手,你知道那是用來握的地方;看到一扇門,你知道它可以被打開。AI需要學會這種理解能力,才能真正與物理世界互動。

記憶能力則是心智映射層的另一半。它讓AI能夠建立認知地圖,也就是在腦海中構建一個環境的整體表徵。當你在一個陌生的城市逛了一圈之後,你的大腦會自動建立一張這個城市的心理地圖,記住博物館在酒店的東邊,餐廳在河的南岸。AI也需要這種能力,它要能夠從一系列影片幀或者多角度圖片中,拼湊出一個完整的空間表徵。

記憶能力還包括檢索功能。當有人問"你剛才在影片裡看到的那本紅色的書放在哪裡?"AI需要能夠回溯自己的"記憶",找到那本書最後出現的位置。這就像你在家裡找眼鏡,需要回想自己最後是在哪裡摘下來的。

研究結果顯示,心智映射層的能力與感知層有著密切的聯繫。那些在基礎感知任務上表現更好的AI模型,在理解和記憶任務上也往往表現更好。這證實了研究者的假設:高層能力確實是建立在低層能力基礎之上的。

心智模擬層:在腦海中預演未來

如果說感知層是AI的眼睛,心智映射層是AI的語言中樞,那麼心智模擬層就是AI的想像力。這個層次讓AI能夠在腦海中進行推理和規劃,而不需要真正去執行動作。

心智模擬層包含兩大能力:因果推理和順序規劃。因果推理是理解"為什麼"和"如果...會怎樣"的能力。想像你看到一個玻璃杯放在桌子邊緣,你的大腦會自動進行一系列推理:如果有人碰到桌子,杯子可能會掉下來;如果掉下來,它可能會摔碎;如果摔碎,可能會傷到旁邊的人。這種因果鏈條的推理對於安全行動至關重要。

研究團隊設計了多種任務來測試AI的因果推理能力。其中一個有趣的測試是關於幾何形狀的推理:給AI看一張紙被摺疊然後打孔的過程,讓它預測紙展開後孔會在什麼位置。這需要AI在腦海中"模擬"摺紙和展開的過程。另一個測試是關於物體運動的預測:給AI看一個球滾動的起始狀態,讓它預測球最終會停在哪裡。

還有一類因果推理任務是關於空間關係的。比如,給AI看兩張從不同角度拍攝的建築物照片,問它這兩張照片是從同一側拍的還是從相對的兩側拍的。AI需要在腦海中構建建築物的三維模型,然後推理兩個拍攝位置之間的關係。

順序規劃是心智模擬層的另一個核心能力。它讓AI能夠設計出一系列有邏輯順序的步驟來達成目標。最簡單的例子就是路徑規劃:從A點到B點,應該先向左走到路口,然後右轉,再直走到目的地。但順序規劃的應用遠不止於此。

研究中有一個特別有挑戰性的規劃任務:給AI看一堆彩色積木的初始狀態和目標狀態,讓它規劃出一系列移動步驟,把積木從初始狀態變成目標狀態。這就像解魔方一樣,需要考慮每一步移動會如何影響整體布局,需要避免走入死胡同。

測試結果顯示,心智模擬層的表現與低層能力高度相關。那些在感知和心智映射方面表現優秀的模型,在推理和規劃任務上也明顯更強。更有趣的是,心智模擬層內部的不同能力之間也存在很強的相關性——擅長因果推理的模型往往也擅長順序規劃。這說明這些高層認知能力之間存在某種共享的"智能基礎"。

智能體能力層:從思考到行動

智能體能力層是整棵能力樹的最頂端,也是所有能力的最終匯聚點。在這個層次,AI不再只是被動地觀察和分析,而是要真正採取行動,與物理世界進行互動。這就像一個人光是懂得游泳的理論知識還不夠,必須真正跳進水裡才能學會游泳。

智能體能力層主要考察兩種類型的任務:目標導向執行和開放世界探索。目標導向執行是指AI被給定一個明確的目標,需要生成一系列動作來完成這個目標。比如,給AI看一個機械臂的當前位置和目標位置的圖片,讓它規劃出機械臂應該如何移動。或者在一個遊戲場景中,讓AI控制角色從當前位置移動到目標位置。

為了讓AI能夠執行這些任務,研究團隊設計了一套統一的動作空間。這套動作系統借鑑了電影攝影中的鏡頭運動術語。平移動作包括前進後退、左右移動和上下移動。旋轉動作包括水平轉向、抬頭低頭和傾斜。此外還有特殊動作如抓取和釋放。通過這套標準化的動作語言,AI可以在不同的場景中執行任務,無論是控制遊戲角色、機械臂還是人類手勢。

開放世界探索則是更高級的能力。在這種任務中,AI沒有被給定明確的目標,而是需要自己去探索環境、獲取資訊、設定目標。這更接近人類在現實世界中的行為方式——我們並不總是被告知要做什麼,而是需要自己觀察環境、發現問題、尋找解決方案。

字節跳動提出空間能力樹AI看世界的能力原來要像孩子一樣一步步學習

研究團隊從多個來源收集了智能體任務的數據,包括影片遊戲錄像、機器人操作影片和人類手部操作影片。對於遊戲影片,他們提取了相機的運動軌跡,並將連續的運動轉換為離散的動作序列。對於機器人影片,他們記錄了機械臂的位置和抓手的開合狀態。對於人手影片,他們標註了推、拉、抓等基本手勢。

測試結果揭示了一個重要發現:智能體能力層與其他三個層次都有很強的相關性,尤其是與心智模擬層的相關性最高。這證實了研究者的核心假設,要讓AI在物理世界中有效行動,它必須首先具備良好的感知、理解、記憶和推理能力。這些能力是層層遞進的,跳過任何一層都會導致最終行動能力的缺陷。

能力如何傳遞:AI學習的有趣規律

研究團隊不僅建立了評估框架,還進行了大量的訓練實驗,探索不同能力之間是如何相互影響的。他們使用了一種叫做監督微調的訓練方法,專門針對某些特定能力進行強化訓練,然後觀察這種訓練會如何影響其他能力。

字節跳動提出空間能力樹AI看世界的能力原來要像孩子一樣一步步學習

第一個重要發現是關於同層能力之間的關係。當研究者專門訓練AI的距離判斷能力時,AI在距離判斷任務上的表現確實提升了,但與此同時,它在運動感知、關係感知等其他感知任務上的表現卻下降了。這就像一個學生如果只專注練習數學,可能會導致語文成績下滑一樣。研究者稱這種現象為"負遷移"——專注訓練一種能力可能會干擾其他相關能力。

然而,第二個發現更加有趣:雖然同層能力之間存在負遷移,但低層能力向高層能力的傳遞卻是正向的。當AI被訓練提升距離判斷能力後,雖然它的其他感知能力下降了,但它在理解任務和目標執行任務上的表現卻提升了。這就像學會了精確測量長度的木匠,雖然不一定更擅長辨別木材顏色,但在製作家具時會更加得心應手。

第三個發現解釋了為什麼會出現這種跨層傳遞。研究者提供了一個生動的例子:當AI經過距離判斷訓練後,它不僅能夠回答簡單的"哪個物體更近"的問題,還能夠處理更複雜的場景。比如,給它一張照片和一堆坐標點,讓它按照深度順序排列這些點,訓練後的AI能夠做得更好。更令人驚訝的是,這種能力還能夠遷移到完全不同的任務上——比如控制機械臂。因為操作機械臂需要精確判斷目標物體的距離,而距離判斷能力的提升直接幫助了這個任務。

第四個發現是關於多能力聯合訓練的。雖然單獨訓練某一種能力可能會干擾其他能力,但如果同時訓練多種基礎能力,效果會大不相同。研究者將距離判斷、大小估計和對應關係識別三種能力的訓練數據混合在一起進行訓練,結果發現AI的整體性能提升超過了單獨訓練每種能力的效果之和。這種現象被稱為"多能力協同"——不同能力的聯合訓練能夠產生一加一大於二的效果。

這些發現對於AI訓練有重要的實踐指導意義。它們告訴我們,要提升AI的高層能力,不能只是直接訓練高層任務,而應該首先打好基礎。同時,訓練基礎能力時不能只盯著一種能力,而應該多種能力協同訓練,這樣才能避免負遷移,實現能力的整體提升。

思考與直覺的博弈:AI也需要"快思考"和"慢思考"

研究的最後一部分探索了一個哲學性很強的問題:AI在處理空間任務時,應該更多地依賴直覺還是深思熟慮?這個問題與心理學家丹尼爾·卡尼曼提出的"快思考"和"慢思考"理論不謀而合。

研究團隊使用了一種叫做強化學習的訓練方法來探索這個問題。在強化學習中,AI通過不斷嘗試並根據結果獲得獎勵或懲罰來學習。他們發現了一個令人意外的現象:鼓勵AI進行更多"思考"的訓練方法,在不同類型的任務上產生了截然不同的效果。

對於高層任務,如因果推理和目標執行,更多的思考確實帶來了更好的表現。這很容易理解,這些任務本身就需要邏輯推導和步驟規劃,多想一想總是好的。但是,對於基礎感知任務,如距離判斷和數量估計,過多的思考反而導致了性能下降。

這個發現可以用日常生活中的例子來理解。想像你在打網球,當球飛過來時,你需要立刻判斷球的速度和方向,然後揮拍擊打。如果你在這個時候開始認真思考"球的初速度是多少,考慮到空氣阻力和重力加速度,它的軌跡應該是...",那你肯定會錯過擊球的最佳時機。這種情況下,直覺和本能反應比深思熟慮更有效。

但是,如果你是在規劃一場比賽的戰術,思考對手的弱點、自己的優勢、如何分配體力,這時候深思熟慮就比直覺更可靠了。空間智能中的不同任務也是如此:有些需要快速直覺反應,有些需要慢速深入思考。

基於這個發現,研究團隊提出了一種叫做"自動思考"的策略。這種策略的核心思想是:根據任務的性質自動決定是否啟用深度思考模式。對於基礎感知任務,抑制不必要的推理過程,讓AI直接給出答案;對於複雜推理任務,則鼓勵AI展開詳細的思考步驟。

實驗結果證明了這種策略的有效性。採用自動思考策略的AI模型在整個能力樹的所有層次上都實現了性能提升,而不是像之前那樣在某些層次提升、在另一些層次下降。這個發現對於未來AI系統的設計有重要的啟示意義:我們不應該追求一個"總是深思熟慮"或"總是快速反應"的AI,而應該建造一個能夠根據情境靈活切換認知模式的智能系統。

主流AI模型的空間智能水平

研究團隊對市面上主流的多模態大語言模型進行了全面測試,結果為我們描繪出了當前AI空間智能的全景圖。測試涵蓋了三類模型:具有思考能力的模型、不具有思考能力的模型,以及開源模型。、

字節跳動提出空間能力樹AI看世界的能力原來要像孩子一樣一步步學習

在所有測試的模型中,谷歌的Gemini 3 Flash取得了最高分57.8分,緊隨其後的是Gemini 3 Pro的56.5分。字節跳動自己的Seed1.8模型也表現不俗,獲得了50.3分的成績。在開源模型中,Qwen3VL-235B以40.0分領先。

一個有趣的發現是,同一系列的模型在開啟思考模式和關閉思考模式時,表現差異明顯。以Gemini 2.5 Pro為例,開啟思考模式時得分50.1分,關閉思考模式時得分41.4分。這印證了前面關于思考與直覺的討論——總體來說,思考能力對複雜空間任務確實有幫助。

從各個能力層次來看,所有模型在智能體能力層的表現都相對較弱,尤其是在目標執行任務上。即使是表現最好的Gemini 3 Flash,在目標執行任務上也只獲得了31.6分。這說明讓AI真正在物理世界中有效行動,仍然是一個巨大的挑戰。

相比之下,模型們在因果推理和順序規劃任務上的表現要好得多,頂尖模型能夠達到六七十分的水平。這可能是因為這些任務仍然主要依賴語言推理能力,而這正是當前大語言模型的強項。

至頂AI實驗室

這項研究為我們提供了一個全新的視角來理解和評估AI的空間智能。過去,研究者們各自為戰,有人專注於距離估計,有人研究物體檢測,有人攻克路徑規劃,但很少有人思考這些能力之間的關係。SpatialTree框架第一次把這些碎片化的能力整合成一個有機的整體,揭示了它們之間的層級關係和依賴結構。

研究告訴我們,要建造一個真正能夠在物理世界中行動的AI,我們不能走捷徑。不能指望通過直接訓練高層任務就能獲得高層能力,必須從基礎感知能力開始,一步一步往上建造。這就像你不能指望一個不會走路的嬰兒突然學會跳舞一樣。

這項研究對於自動駕駛、機器人、虛擬現實等領域都有直接的應用價值。比如,如果我們發現某個自動駕駛系統在緊急制動時表現不佳,傳統的做法可能是收集更多緊急制動的數據來訓練。但根據SpatialTree的框架,也許問題的根源在於系統的距離感知能力不足,應該先提升這個基礎能力。

對於普通人來說,這項研究幫助我們理解為什麼當前的AI助手在某些看似簡單的空間任務上會犯傻。當你讓AI描述一張照片裡各個物體的位置關係時,它可能會給出自相矛盾的答案,說A在B的左邊,又說B在A的左邊。這不是因為AI太笨,而是因為它的空間感知能力還沒有發展到人類嬰兒幾個月大時的水平。

研究團隊在論文的最後指出,SpatialTree框架為未來的研究開闢了多個方向。我們可以探索哪些能力最適合在預訓練階段學習,哪些能力可以通過少量數據的強化學習快速獲得,哪些能力必須通過與真實世界的交互才能習得。這就像研究人類兒童的發展一樣,有些能力是與生俱來的,有些需要後天學習,有些只有通過親身體驗才能掌握。

當我們展望AI的未來時,也許可以這樣想像:未來的AI系統會像人類一樣,從嬰兒期開始成長,逐步發展出越來越複雜的空間智能。它們會先學會看,再學會理解,然後學會想像,最終學會行動。SpatialTree為這個成長過程提供了一張路線圖,而我們才剛剛開始踏上這段旅程。

END
本文來自至頂AI實驗室,一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。

Q&A

Q1:SpatialTree是什麼?它和普通的AI評測有什麼不同?

A:SpatialTree是一個評估AI空間智能的層級框架,它把空間能力分成四個由低到高的層次:感知、心智映射、心智模擬和智能體能力。與普通評測不同,它不是孤立地測試單個任務,而是揭示了不同空間能力之間的依賴關係,幫助我們理解AI應該按什麼順序學習這些能力。

Q2:為什麼AI在執行具體動作方面表現最差?

A:因為執行動作是空間智能金字塔的頂端,它依賴於所有底層能力的支撐。一個AI要能夠正確操控機械臂,它必須先能準確感知距離、理解物體關係、記住環境布局、規划動作序列。任何一個環節的缺陷都會導致最終執行的失敗,所以這是最難攻克的能力層次。

Q3:這項研究對普通人有什麼實際意義?

A:這項研究幫助我們理解為什麼現在的AI助手在某些空間任務上會出錯,也預示了未來AI的發展方向。對於使用AI產品的人來說,可以對AI的空間理解能力有更合理的預期;對於從事相關行業的人來說,這個框架提供了系統提升AI空間智能的方法論。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新