京東AI讓機器同時「看懂世界」又能「畫出世界」，還能理解空間關係，這個統一模型究竟做到了什麼？

這項研究來自京東旗下的Joy Future Academy，論文於2026年5月5日發布在預印本平台arXiv，論文編號為arXiv:2605.04128v1，分類為電腦圖形學（cs.GR）領域。感興趣的讀者可以通過該編號在arXiv平台上找到完整論文，相關代碼也已在GitHub上公開發布。

贊助商廣告

一、先聊聊這件事為什麼值得關注

如果你用過那些能"看圖說話"的AI工具，也用過那些能"按文字畫圖"的AI工具，你可能會發現這些能力通常分散在不同的產品和模型里——理解圖片的是一個，生成圖片的又是另一個，編輯圖片的還是第三個。就像一家餐廳把點餐、烹飪和上菜三道程序分給三個完全不相干的團隊來做，雖然各自都能完成自己的那部分，但三者之間缺乏協調，往往出現"理解"和"生成"脫節的問題。

更麻煩的是，現有的這些模型即便整合在一起，也普遍缺乏對"空間"的深刻理解。什麼是空間理解？簡單說，就是能判斷兩個物體誰在誰前面、誰更高、相對距離是多少，或者當攝影師繞著一個東西轉一圈時，從不同角度拍到的畫面之間是什麼關係。這種能力對於人類來說再自然不過，但對於AI來說，卻是一道高難度的關卡。

京東AI團隊推出的JoyAI-Image，就是試圖在一個統一的系統里，同時解決"理解圖片""生成圖片"和"編輯圖片"這三件事，並且在整個過程中把空間智能作為核心能力來強化，而不是事後補丁式地加進去。

二、系統的核心架構：一個大腦指揮兩隻手

要理解JoyAI-Image的工作原理，可以把它想像成一位既懂藝術鑑賞又擅長繪畫的藝術家。這位藝術家有一個聰明的大腦（負責理解和分析），一雙靈巧的手（負責創作和修改），以及一套把腦中想法轉化為具體畫布內容的神經系統。

在技術層面，這個系統由三個核心部分組成。第一部分是"多模態大語言模型"，也就是那個"聰明的大腦"，具體採用的是Qwen3-VL-8B-Instruct這個模型作為基礎，經過專門訓練後能同時處理圖像和文字。它承擔兩種角色：一是直接回答關於圖片的問題（比如"這張圖裡的包包大概多高？"），二是把用戶的指令解析成能指導後續圖片生成的信號。

贊助商廣告

第二部分是"變分自編碼器"（可以理解為一個壓縮和解壓機器），它把像素級別的圖片轉化成一種緊湊的數學表示，方便後續處理，同時在還原時能保留文字、紋理等細節。

第三部分是"多模態擴散變換器"，這是那雙"靈巧的手"，負責實際的圖片生成和修改工作。這個部分擁有160億個參數（參數數量是衡量AI模型複雜程度的一個指標，數量越多通常意味著處理能力越強），通過一個叫做"雙流架構"的設計，能同時融合大腦傳來的語義理解信號和圖片本身的視覺資訊。

整個系統的訓練分三個階段推進：先訓練大腦讓它能深刻理解視覺和空間資訊，然後從頭訓練那雙手讓它學會高質量的圖片生成，最後把兩者結合起來，專門優化圖片編輯的精細控制能力。

三、"空間智能"究竟難在哪裡，研究團隊怎麼解決它

這裡需要停下來好好解釋一下"空間智能"這個概念，因為它貫穿了整個JoyAI-Image的設計思路。

以一張咖啡廳的照片為例。人類看到這張圖，腦子裡會自動構建一個三維的場景模型——椅子在桌子旁邊，咖啡杯在桌面上，窗外的樹在建築物後面，吊燈距離地面大約兩三米。但對於普通的AI視覺系統來說，它看到的只是一堆像素，要推斷出這些"前後左右高低遠近"的關係需要特別的訓練和設計。

更難的情況是"多視角一致性"——同一個場景從不同角度拍攝，得到的照片看起來差異很大，但AI必須明白這些照片描述的是同一個三維世界。這就像你用眼睛看一個蘋果，閉上左眼和閉上右眼時看到的位置略有不同，但你的大腦知道這是同一個蘋果。

為了系統性地解決這個問題，研究團隊開發了一個叫做"OpenSpatial"的數據引擎，專門用來自動生成空間理解訓練數據。這個引擎的核心思路是用"三維邊界框"（可以理解為給每個物體套上一個看不見的三維盒子）來標註場景中每個物體的位置、大小和朝向。

贊助商廣告

數據來源包括專業的室內三維掃描數據集（如ScanNet、Matterport3D、ARKitScenes等），以及大量的網路影片。對於那些沒有三維標註的影片，研究團隊設計了一種"三維提升"技術：通過分析深度資訊，將平面圖像中的二維物體輪廓"提升"到三維空間，並通過跨視角一致性檢驗來確保標註的準確性——如果一個物體的三維框從不同視角投影回二維圖像後，都能和實際看到的輪廓吻合，才算通過驗證。

基於這個引擎，研究團隊創建了包含300萬條訓練樣本的OpenSpatial-3M數據集，覆蓋五大類空間能力：空間測量（判斷物體的尺寸和距離）、空間關係（判斷物體之間的相對位置如"在前面""在左邊"）、相機感知（理解拍攝角度和相機運動）、多視角一致性（跨不同視角識別同一物體）以及場景感知推理（綜合理解整個場景的三維布局）。這五類能力展開又形成了19個具體的子任務，覆蓋範圍相當全面。

訓練策略上，研究團隊採用了一個巧妙的設計：對於空間理解任務，不給AI施加"別偏離原來模型"的約束，因為原始模型在空間理解上本就很弱，如果施加這種約束反而會阻礙學習新的空間知識；而對於通用理解任務，則保留這種約束，防止AI在學習新內容時把之前掌握的通用能力忘掉。這種差別對待的策略，很好地平衡了"學新東西"和"不忘舊知識"之間的矛盾。

空間理解能力的提升效果相當顯著。在包含9個空間理解基準和4個通用理解基準的綜合測試中，JoyAI-Image的空間理解平均分達到64.4分，比它的基礎模型提升了5.3分，甚至與Google的商業大模型Gemini-2.5-Pro的表現持平。在AllAnglesBench這個專門測試多視角空間推理的基準上，提升幅度高達11.5個百分點，這是相當大的進步。

四、圖片生成：從海量數據中煉出高質量圖像

理解了空間智能的部分，接著來看圖片生成。JoyAI-Image的生成能力建立在一套非常精細的數據處理流程上，這套流程包含五個相互協作的模組，就像一條精密的流水線。

贊助商廣告

數據篩選是第一道關。研究團隊從來自專業攝影平台、網路爬取和內部收集的數十億張圖片出發，設計了一個分階段逐步提高門檻的篩選系統。在最初階段，主要過濾掉明顯有問題的圖片，比如解析度太低、有違規內容或重複圖片。隨著訓練推進到更高解析度階段，篩選標準也越來越嚴格。

其中有兩個特別值得一提的篩選工具。一個是內部開發的圖片質量評估系統，它同時檢測亮度、飽和度、清晰度等統計指標，以及藉助多個學習型模型評估圖片的感知質量，最後通過一套級聯決策邏輯給出是否保留的判斷。這套系統與人工判斷的一致性達到了90%。另一個是基於文字描述的內容過濾器：AI先對圖片生成描述文字，然後通過在這些描述中匹配關鍵詞來識別不適合訓練的圖片（如拼圖、水印明顯的圖片、截圖等）——這種方式比逐張用圖像識別器判斷快了幾個數量級，而且還能發現圖像識別器容易漏掉的一些細微問題。

圖片描述生成是第二道工序。高質量的文字描述對於文字生成圖片的模型至關重要，因為模型就是通過學習文字和圖片之間的對應關係來掌握生成能力的。研究團隊為每張圖片生成四種不同詳細程度的文字描述：最簡潔的一兩句話版本（模擬用戶在實際使用時的輸入習慣）、段落級別的詳細描述、更細粒度的超詳細描述，以及結構化的JSON格式描述（按照主體、背景、風格、構圖等維度分類標註）。所有描述都同時生成中文和英文版本，以支持雙語生成。

在這個過程中，處理圖片中的文字是一個特殊挑戰。研究團隊設計了專門的"OCR感知描述流程"：先用專業的文字識別工具提取圖片中的所有文字，然後把這些文字作為額外資訊輸入給描述生成模型，確保生成的描述能準確覆蓋圖片中出現的每一個文字內容。描述生成後還要經過嚴格的後處理檢驗，確保識別出的文字一個不漏、原始文字未被翻譯或改寫、也沒有憑空捏造不存在的文字。

贊助商廣告

數據重新平衡是第三道工序，用來解決網路數據中的"長尾分布"問題——少數常見類別的圖片數量過多，大多數不常見類別的圖片卻很少，導致模型在常見內容上表現好，在罕見內容上表現差。研究團隊建立了一個約28.5萬個葉節點類別的層次化標籤體系，通過計算圖片描述與各類別標籤在語義空間中的相似度來為每張圖片打標籤，然後對高頻類別做降採樣、對低頻類別做全量保留，讓各類別的訓練數據更加均衡。

人工標註是第四道工序，用於為最終階段的精細調整提供高質量的種子數據。人工標註員從美學質感（權重50%）、資訊密度（權重30%）和風格純粹性（權重20%）三個維度對圖片進行評分，每個維度分為5、4、3、0四個檔次。為了保證標註質量，系統會定期用已知答案的"哨兵樣本"來檢驗標註員，標註員的準確率如果低於90%就會被要求重新培訓；每天還會隨機抽查5%的前一天通過樣本，如果問題率超過5%則整批返工。

多視角生成數據準備是第五道工序。為了支持"給定一個視角的圖片，生成其他視角看起來的樣子"這種能力，研究團隊使用Blender（一款三維建模軟體）渲染了大約100萬張多視角圖片。這些圖片專注於以單一物體或單一主體為中心的場景，攝像機圍繞目標物體從不同角度拍攝，並通過射線檢測排除了攝像機被遮擋的不合理拍攝位置。每組多視角圖片都配有結構化的標註，包含視角變化的邏輯描述、每個子圖的角度說明等資訊。

整個訓練過程分為三個階段推進。第一階段在低解析度（208像素）下建立基礎生成能力，第二階段在中等解析度（512像素）下提升質量，第三階段在高解析度（1024像素）下精修，並在這個階段引入多視角數據，讓模型學會視角控制。之後是繼續訓練階段，用更嚴格篩選的高質量子集來縮小數據分布的"熵"，讓模型的生成行為更穩定。再之後是監督微調階段，專門強化複雜文字渲染和多視角生成兩個方向。最後還有強化學習階段，用"美學獎勵"和"文圖對齊獎勵"兩套評估信號來進一步提升生成質量。

贊助商廣告

在多項基準測試上，JoyAI-Image的圖片生成表現相當突出。在專門評估長文本渲染能力的LongText-Bench上，英文和中文的準確率都達到0.963，是所有參與比較模型中最高的，甚至超越了OpenAI的GPT Image 1（英文0.956，中文僅0.619）。在評估文字準確度的CVTG-2K基準上，JoyAI-Image的詞級準確率達到0.8739，同樣排名第一。在評估文字與圖像綜合遵循能力的DPG基準上，綜合得分為88.05，也處於領先位置。

五、圖片編輯：精準改動，其餘一切保持原樣

圖片編輯是比生成更難的任務——生成是從零開始創造，而編輯要求你只改應該改的地方，其他地方一點不動。這就像外科手術和藝術創作的結合：要有手術刀的精準，又要有畫家的創意。

JoyAI-Image-Edit的訓練數據由三大來源構成，比例上形成了有意設計的組合。接近一半的數據來自開放域編輯，也就是從影片中提取的圖片對，這些圖片來自真實世界中自然發生的變化（人的動作、物體移動、光線變化等），訓練的是模型對廣泛現實世界變化的基本理解。這類數據的獲取方式很有意思：先把影片切分成語義連貫的片段，然後從同一片段中選取相鄰幀或短間隔幀作為"前"和"後"圖片，再用語言模型分析兩張圖片之間的差異並將其轉寫成自然語言的編輯指令。

約28%的數據來自空間編輯，這部分是用專門開發的三維驅動數據引擎生成的。引擎分為兩個分支。一個是"靜態相機·物體變換"分支：保持相機位置不動，對場景中的某個物體執行平移、縮放或旋轉操作，然後通過圖像修補技術填補物體移走後留下的空洞，生成一對"原圖·編輯後"的訓練樣本。另一個是"動態相機·視角變換"分支：保持三維場景不變，讓相機繞著目標物體改變角度（偏航角、俯仰角和距離三個自由度），從而生成不同視角的場景畫面。

在生成訓練數據之前，有一個精心設計的"資產預處理"環節：每個三維物體都要先用語言模型驗證其可識別性，再通過分割模型確認在各視角下物體能被清晰定位，不合格的資產直接淘汰。這道預處理保證了後續生成的訓練樣本質量。

贊助商廣告

剩餘約25%的數據來自各類專項編輯，包括文字替換和插入（既要改對字，又不能破壞原來的排版和字體風格）、IP保留編輯（給人物換衣服但臉要保持一致）、風格遷移、多圖合成等。

所有這些來自不同渠道的數據都被統一轉換成同一種格式：源圖片、可選的參考圖片、自然語言編輯指令、目標圖片，以及必要時的結構化元數據（如空間變換的具體參數）。

訓練同樣分四個階段。預訓練階段建立基本的"理解圖片差異、執行編輯操作"能力，大量使用影片衍生的編輯對，讓模型先掌握"什麼叫做根據指令修改圖片"。繼續訓練階段引入高質量的綜合編輯數據，全面提升指令遵循精度、內容保留能力和視覺美觀程度。監督微調階段對最敏感的編輯維度做針對性強化，包括文字精確性、空間精準度、參考圖一致性等。最後的後訓練（強化學習）階段，使用Gemini-3-Flash模型和HPSv3美學模型作為獎勵信號，進一步提升編輯的自然度和指令遵循質量。

後訓練階段的獎勵設計有一個亮點：指令遵循分數和內容一致性分數採用了優先級排序而非簡單加權——當指令遵循分數太低時，無論內容保留得多好，整體獎勵都會被壓低。這防止了模型通過"什麼都不改"來獲得高保留分而逃避真正的編輯任務。

在性能測試上，JoyAI-Image-Edit在GEdit-Bench（評估通用編輯質量）和ImgEdit-Bench（評估多類型編輯能力）兩個通用編輯基準上均達到當前最優水平。在SpatialEdit-Bench（專門評估空間編輯精準度）上的提升尤為顯著：與排名第二的LongCatImage-Edit相比，物體移動得分從0.373提升到0.652，物體旋轉得分從0.505提升到0.646，相機控制誤差從0.743降低到0.429。這個基準還把JoyAI-Image-Edit與多個影片生成模型（如Veo3.1、Kling-V2.5等）做了對比，JoyAI-Image-Edit在相機控制精準度上仍然超過了這些專門的影片模型。

強化學習對於編輯質量的提升也有實質效果：與僅做監督微調的版本相比，加了強化學習後，在GEdit-Bench英文版的綜合得分提升了0.186，中文版提升了0.372，ImgEdit-Bench綜合得分提升了0.06。

贊助商廣告

在人工評測方面，與Qwen-Image-Edit-2511的對比中，JoyAI-Image-Edit在"指令遵循"和"整體偏好"兩個維度上占有明顯優勢；與Flux.2（一個知名的開源模型）的對比中，JoyAI-Image-Edit在"指令遵循"、"內容一致性"和"整體偏好"上都有大幅領先。與Nano-Banana-2（當時表現最強的對比基準）相比，JoyAI-Image-Edit的整體偏好略低，主要差距體現在"自然度"維度，說明生成圖片的感知真實感還有進步空間。

六、"用生成幫助理解"——空間推理的一個意想不到的用法

JoyAI-Image帶來了一個頗具啟發性的應用思路：用高質量的空間編輯能力來輔助空間推理，而不只是把編輯當作一個終端產品功能。

這個應用被稱為"藉助新視角思考"（Thinking with Novel Views，TwNV）。其基本邏輯是：當AI面對一個需要理解空間關係的問題時（比如"圖裡的鍾比房子高還是低？"），可以先預測出最有利於回答這個問題的觀察角度，然後生成從那個角度看到的畫面，最後再結合原圖和生成圖來回答問題。

這個流程分三步：由"規劃者"（大語言模型）根據問題制定出最有價值的視角變換指令（用六個自由度描述相機運動），由"合成者"（JoyAI-Image-Edit的空間編輯能力）按照指令生成新視角圖片，最後由"推理者"（另一個視覺語言模型）綜合原圖和新生成的圖來給出最終答案。

研究團隊專門構建了一個包含695個樣本的評測集（其中575個來自3DSRBench基準，120個來自RealWorldQA基準），涵蓋方向判斷、位置關係和多物體關係三個空間推理維度。

測試結果顯示，使用JoyAI-Image-Edit作為視角合成器時，能將GPT-5在這個評測集上的綜合準確率從68.8%提升到71.7%，在多物體關係判斷這個最難的維度上提升了5.7個百分點。相比之下，使用其他編輯模型（如Qwen-Image-Edit）作為合成器時，提升效果微乎其微甚至有輕微下降，說明視角合成的幾何精準度對於這個流程至關重要，不是任何一個能生成圖片的模型都能有效勝任。

贊助商廣告

此外，研究團隊還觀察到一個有趣的現象：這個方法對能力較弱的模型帶來的相對提升更大。Qwen3-VL-32B（一個相對較小的模型）的相對提升幅度達到7.8%，而Gemini-3-Flash（能力更強的模型）只有2.3%。這意味著，藉助外部生成的"視角鏈條"，能力有限的小模型可以在空間推理上獲得遠超其本身能力的表現。

七、生成多視角圖片還能改善三維重建

另一個有趣的應用是用空間編輯能力來輔助三維重建。研究團隊用JoyAI-Image-Edit對同一張輸入圖片生成多個不同視角的版本，然後把這些生成的多視角圖片送進VGGT（一個三維重建模型）進行三維場景重建，並與只用單張輸入圖片進行重建的結果做對比。

結果相當直觀：單張圖片的重建結果點雲稀疏、幾何形狀殘缺；而加入生成的多視角圖片後，重建得到的點雲密度大幅提升，場景布局、主要表面和物體位置都清晰了很多。這間接驗證了JoyAI-Image-Edit的視角生成質量確實達到了幾何層面的一致性——如果生成的圖片只是"看起來像"而幾何上不一致，反而會干擾三維重建，降低質量。

這個結果的意義不只是技術層面的。它說明，經過充分訓練的二維圖片編輯模型，確實能夠在內部建立起某種程度上的三維場景理解，而不僅僅是做像素層面的"美化"。這對於未來將這類模型用於具身機器人、虛擬場景探索、可控視覺仿真等更複雜的應用場景，提供了一個可行性的早期證據。

說到底，JoyAI-Image做的事情，可以概括成三個字：不分家。它不把圖片理解、圖片生成和圖片編輯當作三件獨立的事來做，而是讓這三者互相滋養——更好的理解幫助生成更準確、更貼合指令的圖片，更精準的空間編輯反過來給理解提供額外的視角和線索，整個系統在這個雙向循環中一起變強。

這種設計思路本身就很值得思考。過去我們習慣於把AI的不同能力切開來分別優化，就像把一個人的左手和右手分開訓練。JoyAI-Image的實踐表明，讓這些能力在一個統一框架里共同成長，可能是一條更有效的路徑，尤其是在需要"理解-行動"緊密配合的場景下（比如機器人執行操作任務，或者世界模型模擬物理變化）。

贊助商廣告

當然，任何研究都有其局限。JoyAI-Image在感知圖片自然度方面與頂級閉源商業模型相比還有差距，這在人工評測中表現得相當明顯。空間編輯的幾何精準度在複雜場景下也還有提升空間。此外，這類統一系統的訓練複雜度極高，如何以更經濟的方式實現同等性能，也是未來需要探索的方向。

有興趣深入了解技術細節的讀者，可以通過arXiv編號2605.04128查閱完整論文，相關代碼和模型也在GitHub上公開，地址可通過論文中找到。

Q&A

Q1：JoyAI-Image和普通的文字生成圖片AI有什麼區別？

A：普通的文字生成圖片AI只做一件事——根據文字描述創建新圖片。JoyAI-Image同時整合了三種能力：理解圖片內容並回答問題、根據文字生成圖片、以及按照指令精確修改現有圖片。更關鍵的區別在於，JoyAI-Image專門強化了對三維空間的理解，能判斷物體之間的距離、位置關係，還能從不同角度"看"同一個場景，這是普通圖片生成模型通常做不到的。

Q2：OpenSpatial數據引擎是什麼，為什麼它對空間理解很重要？

A：OpenSpatial是京東AI團隊開發的一個自動生成空間訓練數據的系統。它的核心是用三維邊界框（給每個物體套一個無形的三維盒子）來標註場景中物體的位置和尺寸，既可以直接用專業三維掃描數據，也能從普通影片中通過"三維提升"技術自動生成。這個系統生成了300萬條訓練樣本，覆蓋距離判斷、位置關係、多視角一致性等多種空間能力，讓AI通過大量實例學會像人類一樣理解三維世界。沒有這種規模的專項數據，AI很難從平面圖片中推斷出空間關係。

Q3：JoyAI-Image的空間編輯能力在實際應用中有什麼用處？

A：實際應用場景比較廣泛。在電商領域，可以給產品圖自動生成多個不同角度的視圖，幫助消費者全面了解商品，論文中也展示了多視角試穿衣服的演示案例。在輔助推理方面，當AI被問到需要從特定角度才能看清楚的空間問題時，可以先生成該角度的圖片再回答，提升判斷準確率。在三維重建輔助方面，可以從單張照片出發生成多視角圖片，改善三維重建的完整性。未來在機器人導航、場景模擬等方向也有潛在價值。

贊助商廣告