這項由字節跳動Seed團隊完成的研究以預印本形式發布於2026年4月,論文編號為arXiv:2604.19902,感興趣的讀者可通過該編號查閱完整原文。
手機里的AI畫圖工具,你可能用過不少。有的擅長根據文字描述憑空生成圖片,有的擅長把你提供的照片按要求改改。但你有沒有想過,為什麼這兩件事往往需要兩套不同的系統?就好比廚房裡,切菜要用菜刀,打蛋要用打蛋器,明明都是做飯的工序,卻要換來換去。字節跳動的研究團隊提出了一個叫做MMCORE的新框架,試圖把這把"多功能廚刀"打磨得更鋒利——讓同一套系統既能憑文字描述從零畫出圖片,又能理解你拿來的多張參考圖並按照複雜指令進行編輯,而且還比目前市面上的頂尖系統做得更好。
這件事聽起來平常,但背後的技術挑戰相當棘手。目前AI世界裡有兩大"烹飪門派":一派叫做自回歸模型(可以理解為"逐字逐句思考派"),ChatGPT、各種大語言模型都是這個路子,它們擅長理解複雜語義和邏輯推理;另一派叫做擴散模型(可以理解為"從噪音里雕刻清晰圖像派"),Stable Diffusion、Midjourney等圖像生成工具用的是這個原理,它們在生成高質量圖像方面技高一籌。問題在於,把兩派硬湊在一起訓練非常麻煩——就像讓一個廚師同時用兩種完全不同的烹飪哲學做同一道菜,協調起來極其困難,計算成本也極其高昂。MMCORE的核心貢獻,正是找到了一種"聰明的協作方式",讓兩派各司其職、優勢互補,同時把聯合訓練的成本壓縮到傳統方案的約30%。
一、為什麼"兩個高手合作"反而這麼難
要理解MMCORE解決了什麼問題,先得明白那個讓工程師頭疼的根本矛盾。
理解語言的模型(自回歸模型)在處理文字時非常高效:給它一個句子,它一次性就能理解意思並輸出結果。但換成圖像生成任務,擴散模型需要做的事情完全不同——它必須從一張充滿隨機噪點的圖開始,一步一步"去噪",最終雕刻出清晰的畫面。這個過程中,模型需要反覆在"乾淨圖像"和"加了噪聲的圖像"之間切換視角,就像一個人既要盯著最終成品想像效果,又要低頭處理眼前這堆亂麻,兩件事同時做會嚴重干擾彼此。
正因如此,之前的一些嘗試雖然把兩套系統硬塞進同一個框架(比如Transfusion和BAGEL),訓練成本和工程複雜度都極高,還需要海量私有數據。還有一些人索性放棄擴散模型,全部用自回歸模型來生成圖像,但這種做法生成質量明顯差一截——畢竟圖像天然是一個二維的、非線性的資訊結構,強行用"逐字生成"的方式處理,效果就像用筷子吃義大利麵,總覺得彆扭。
MMCORE選擇的路是"分工合作而非強行合併":讓理解語言和多模態資訊的大模型(MLLM,即多模態大語言模型)專門負責"理解"這道工序,然後把它的理解結果以一種精煉的方式傳遞給擴散模型,讓擴散模型專門負責"畫圖"這道工序。兩套系統各做各擅長的事,中間用一條設計精妙的"傳送帶"連接起來。
二、這條"傳送帶"是怎麼工作的
MMCORE架構的核心創新在於這條傳送帶的設計,整個系統可以用"廚房助理與主廚配合"來理解。
多模態大語言模型(MLLM)扮演的是"廚房助理"的角色。當你給它一段文字描述(比如"畫一個騎在飛馬上的女武神,背景是極光"),或者給它幾張參考圖片,它的任務不是直接畫出來,而是把所有這些資訊消化理解之後,輸出一份簡潔的"烹飪備忘錄"。這份備忘錄里裝的是高度濃縮的視覺語義資訊,告訴接下來要畫畫的主廚:這張圖需要什麼樣的氛圍、什麼樣的構圖、什麼樣的視覺特徵。
擴散模型則是那位"主廚",它接收備忘錄之後,運用自己精湛的"去噪雕刻"技藝,從隨機噪點出發,最終生成那張高質量的圖像。
關鍵的問題是:這份"備忘錄"怎麼寫,才能讓主廚完全看懂?語言模型的內部表示和擴散模型所需要的條件信號,本質上是兩種不同的"語言",直接傳遞會造成大量資訊損失。MMCORE在這裡引入了三個關鍵設計,分別解決了三個不同層面的問題。
第一個設計叫做"可學習查詢令牌"。研究團隊在語言模型的輸入序列末尾,額外添加了一組可以自動學習的特殊占位符(論文中稱為Query Tokens,查詢令牌),數量固定為64個。這些占位符一開始沒有任何內容,但經過訓練之後,它們能夠像"海綿"一樣,從整段多模態輸入中吸收最關鍵的視覺語義資訊,最終輸出64個精煉的"視覺摘要向量",作為傳遞給擴散模型的核心信號。
第二個設計叫做"語義蒸餾對齊"。只靠擴散模型的畫圖損失來訓練這64個查詢令牌,效果很差——信號太稀疏,收斂太慢,就像只靠顧客的最終反饋("好吃"或"難吃")來培訓一個廚師,完全不知道哪個步驟出了問題。研究團隊的解決方案是引入一個"輔導老師":使用預訓練好的視覺編碼器(SigLIP或ViT,這類模型已經被證明能很好地理解圖像的高層語義)產生的特徵向量,作為查詢令牌要對齊的學習目標。具體來說,他們把目標圖像餵給這個視覺編碼器,得到一組語義豐富的視覺特徵,然後用餘弦相似度損失(一種衡量兩個向量方向是否一致的數學工具,值越接近1說明越相似)來引導查詢令牌向這些特徵靠攏。這個輔導過程大幅加快了收斂速度,也確保了查詢令牌攜帶的是真正有用的高層視覺語義,而不是噪聲。
第三個設計叫做"雙通道條件"。僅有64個視覺摘要向量還不夠——當你的文字描述非常長、非常複雜時,64個向量會形成資訊瓶頸,很多細節被擠掉了。於是研究團隊決定同時保留語言模型原本的完整文字嵌入序列,與64個視覺查詢令牌一起傳給擴散模型。這樣一來,視覺查詢令牌負責傳遞全局的視覺語義和跨模態的理解,而完整的文字序列則負責保留所有精細的指令細節。兩條通道各有分工,互為補充,就像一道菜既有主廚的創意指導,又有詳細的操作食譜。
三、如何讓"主廚"真正學會使用這份備忘錄
訓練MMCORE分為兩大階段,順序清晰,邏輯遞進。
第一階段專門訓練那個"廚房助理"——多模態大語言模型。這一階段的訓練目標有兩個:一是保持原有的文本理解和推理能力(通過標準的語言建模損失來維持),二是讓新增的查詢令牌學會生成高質量的視覺語義摘要(通過與SigLIP特徵對齊的餘弦損失來引導)。研究團隊特別強調,這一階段完全不需要擴散模型參與——兩個損失函數加權求和就是全部訓練信號。這種"解耦"設計的好處在於,可以獨立優化每個模組,不會相互干擾,訓練成本也大幅降低。
值得一提的是,研究團隊在這一階段選擇了全量微調整個多模態大語言模型的權重,而非只訓練輕量的適配器(LoRA)。從消融實驗結果來看,全量微調帶來的性能提升遠超LoRA——在GPT-4o評分上提升了約25.9%,充分說明讓整個模型深度適應視覺語義預測任務是值得付出這個代價的。當然,代價也是存在的:全量微調會讓模型在純語言理解任務(比如視覺問答)上有輕微退化,研究團隊坦承了這一點,並認為這可以通過在預訓練更早階段引入生成目標來解決,留作未來方向。
第二階段專門訓練"主廚"——擴散模型。此時語言模型已經訓練好並被凍結,只負責在推理時產生視覺查詢令牌和文字嵌入。擴散模型的骨幹是一個預訓練好的文字轉圖像Diffusion Transformer(MMDiT),研究團隊在此基礎上通過持續預訓練,讓它學會同時利用文字和視覺兩路條件信號來生成圖像。
這裡有一個微妙的訓練技巧叫做"獨立嵌入丟棄"。由於預訓練的擴散模型已經非常習慣用文字條件來生成圖像,突然多了一路視覺信號,它可能會直接忽略這個新來的"輔助",仍然只看文字。為了強制它學會使用視覺信號,研究團隊在訓練初期給文字嵌入施加更高的隨機丟棄率(即有較高概率把文字信號置零),逼著擴散模型去倚賴視覺查詢令牌;訓練後期再逐步降低這個丟棄率,讓模型學會平衡使用兩路信號。這種課程式的訓練安排,效果相當於先讓學徒習慣"沒有食譜只有口頭指導",再慢慢恢復到"兩者兼用",最終形成更穩健的能力。
四、讓系統處理"多張圖片組合編輯"的關鍵設計
MMCORE一個特別吸引眼球的能力,是處理多圖輸入——比如同時給它10張參考圖,讓它把裡面各自的元素組合成一張新圖,或者把一個角色換上另一張圖裡的服裝。
要實現這個能力,擴散模型的注意力機制需要做專門的改造。研究團隊引入了一種叫做"塊狀因果注意力掩碼"的結構,可以用"接力賽"來理解:生成第N張圖時,模型可以完整"看到"前面所有圖片經過VAE編碼器壓縮後的密集特徵(保留了豐富的紋理細節),同時接收當前這張圖的文字和視覺查詢令牌作為語義指引,但前面圖片的查詢令牌則被刻意隱藏。
為什麼要隱藏前面圖片的查詢令牌?研究團隊發現,如果允許擴散模型同時看到歷史圖片的VAE特徵和查詢令牌,訓練會變得極不穩定,生成質量明顯下滑。原因在於,VAE特徵攜帶的是密集的低層像素資訊,查詢令牌攜帶的是稀疏的高層語義摘要,兩者性質截然不同,同時作為歷史條件反而會讓模型感到混亂——就像同一道指令用兩種矛盾的方式重複表達,反而讓執行者不知所措。只保留VAE歷史特徵,再加上當前幀的查詢令牌,分工才是清晰的:歷史提供像素級的視覺延續性,當前語義指引提供接下來要做什麼。
與此同時,訓練的最後階段還加入了監督微調(SFT)和基於人類反饋的強化學習(RLHF),專門用高質量的精選數據集對模型進行精調,讓它的輸出更符合人類審美偏好。從消融實驗來看,僅僅2000步的SFT就能把GPT-4o評分從0.82拉升到0.8585,效果可謂"四兩撥千斤"——這說明高質量數據對於最終對齊的價值,遠超單純堆砌更多預訓練步數。
五、測試結果說話:MMCORE到底強在哪裡
研究團隊在一個叫做DreamBench的內部評測套件上對MMCORE進行了系統性評測,對手陣容相當豪華:GPT-Image-1(OpenAI)、Seedream 4.0(字節跳動自家的前代產品)、Gemini 2.5(谷歌)、Qwen Image(阿里)、Flux Kontext(Black Forest Labs)。
在文字轉圖像的對齊度方面,MMCORE以84.42%的平均準確率排名第一,而排名第二的GPT-Image-1為80.69%,第三名Seedream 4.0為78.2%,差距相當明顯。在圖像編輯的指令對齊度方面,MMCORE同樣以81.2%居首,領先第二名GPT-Image-1的79.88%。更關鍵的是圖像編輯的一致性指標(即編輯後圖像中非目標區域是否被正確保留),MMCORE以70.62%遠超其他所有對手——排名第二的Seedream 4.0為68.89%,而Gemini 2.5僅有42.39%,差距懸殊。
人工評估的結果同樣支持這個結論。研究團隊圍繞七個維度進行了人工打分,包括英文提示詞對齊、中文提示詞對齊、圖像結構質量、單圖編輯一致性、多圖編輯一致性、單圖編輯對齊、多圖編輯對齊。MMCORE在七個維度上均優於Seedream 4.0,且優勢在編輯一致性方面尤為突出。
從具體案例來看,MMCORE的優勢體現在幾類對現有模型普遍困難的任務上。第一類是需要精確空間推理的複雜描述,比如"一個男人站在女人旁邊,男人的眼睛與女人的嘴齊平"——大多數模型會因為先入為主的身高假設畫出錯誤的相對位置,MMCORE則能正確處理這種反直覺的空間關係。第二類是需要精確計數和細節遵從的描述,比如"一張披薩切成五片,其中兩片被咬過,另外三片完整"——這類對視覺細節有嚴格約束的描述,往往難倒多數模型。第三類是多圖組合編輯,比如把四張圖裡的角色的衣物、鞋子、帽子分別提取出來穿在另一張圖的角色身上,或者把四張圖裡的動物身體部件組合成一個新的神話生物,MMCORE在超過10張參考圖的長上下文場景下依然能保持精準的細粒度控制。
六、那些沒成功的嘗試同樣值得關注
科學研究里,失敗的實驗往往和成功的一樣有價值。研究團隊在消融實驗中記錄了幾個重要的"踩坑經歷"。
其一是連接器深度的影響。他們發現,如果用一個僅有2層的輕量連接器把語言模型的查詢令牌投影到擴散模型的條件空間,GPT-4o評分只有0.6791;把連接器加深到6層,評分躍升至0.7843,提升幅度超過10%。這說明彌合兩個模型的特徵空間之間的鴻溝,需要相當的模型容量,用一個過於簡單的"翻譯器"是行不通的。
其二是在條件VAE編碼器的特徵上疊加視覺查詢令牌的實驗。研究團隊嘗試在擴散模型處理歷史圖片的DiT編碼器階段,額外加入視覺查詢令牌作為補充信號,結果卻造成了災難性的崩潰:Doubao評分從55.2急劇跌落至30.62,生成的圖像出現大量偽影,而且模型開始傾向於直接複製參考圖片而不是按指令編輯。這個實驗揭示了一個重要原理:密集的VAE特徵(像素級的精細資訊)和稀疏的ViT查詢特徵(高層的語義摘要),在優化層面根本無法兼容地同時作為條件信號,強行混合只會讓模型陷入混亂。
其三是關於查詢令牌數量的權衡。研究團隊嘗試了從1到128個不同數量的查詢令牌,最終發現64個是最優的平衡點。令牌太少,對長複雜描述的表達能力不足;令牌太多,收益遞減但計算開銷持續增加。
七、坦誠的局限與未來方向
MMCORE的論文結尾部分相當坦誠地指出了兩個尚未解決的核心問題,這種務實態度在技術論文中並不多見。
第一個問題是"理解能力與生成能力的此消彼長"。全量微調語言模型來適應視覺生成任務,不可避免地會在某種程度上損傷它原本的純語言理解能力(如視覺問答、OCR識別等)。研究團隊認為,與其說這是架構的根本缺陷,不如說是訓練課程安排問題——如果在語言模型預訓練的更早期就引入圖像生成目標,而不是等到後期才開始微調,這種干擾應該可以大幅緩解。但這個想法目前還停留在假設層面,有待未來驗證。
第二個問題是"視覺查詢令牌的功能定位局限"。目前這64個視覺查詢令牌的作用更像是"文字條件的補充說明",而非完全獨立的驅動力。換句話說,如果單獨拿掉文字條件只留查詢令牌,生成質量會明顯下滑。更理想的狀態是有一個"全能視覺令牌化器"——它既能像VAE那樣精確重建像素級圖像,又能像ViT那樣進行高層語義推理,兩種能力集於一身。目前這個理想的"Omni-Tokenizer"(全能令牌化器)尚不存在,開發它被研究團隊列為未來工作的首要目標。
此外,論文坦承MMCORE與Nano-Banana-pro(谷歌DeepMind)和GPT Image 1.5(OpenAI)之間仍存在性能差距,研究團隊推測這主要源於底層語言模型能力的差異——當他們用更強的SoTA視覺語言模型對提示詞進行重寫後,MMCORE的表現有明顯提升。這意味著隨著基礎模型能力的持續提升,MMCORE的上限還有相當大的空間。
歸根結底,MMCORE做的這件事,用一句話來概括就是:不必從零蓋一棟大樓,只需要在已有的兩棟優秀建築之間架一座設計精良的橋,就能讓兩邊的居民順暢往來。兩個預訓練好的大模型,一個負責理解、一個負責生成,中間靠64個經過精心訓練的"摘要向量"溝通,再加上一套分階段、有節奏的訓練策略,最終實現了以約30%的計算預算達到與從頭訓練的統一架構相媲美甚至更優的效果。
這種"高效嫁接"的思路對AI領域的啟示不小。當前許多研究都在追求"越來越大、越來越統一"的單一模型,而MMCORE的路徑提供了另一種可能性:專業分工、有效協作,有時候比強行合併更有性價比。至於那個懸而未決的"全能令牌化器",大概會是接下來這個方向最值得期待的突破——它一旦出現,現有架構里的VAE和ViT之間的區隔或許真的可以消融,屆時圖像的理解與生成才算真正合二為一。有興趣深入了解技術細節的讀者,可以通過論文編號arXiv:2604.19902查閱完整原文。
Q&A
Q1:MMCORE的視覺查詢令牌和普通文字描述有什麼區別,為什麼要同時用兩個?
A:文字描述擅長表達精細的指令細節(比如"左邊放一個大的珍珠"),但對複雜視覺語義的表達能力有限;視覺查詢令牌則是從多模態大語言模型中提煉出來的64個壓縮語義向量,攜帶了跨圖片的全局視覺理解資訊。MMCORE同時用兩者,是因為它們各自彌補對方的短板:視覺令牌提供整體語義理解,文字序列保留細粒度指令,合在一起才能完整驅動高質量圖像生成。
Q2:MMCORE處理多張參考圖時為什麼要隱藏歷史圖片的視覺查詢令牌?
A:研究團隊發現,歷史圖片已經通過VAE編碼器提供了豐富的像素級特徵,如果同時再加入視覺查詢令牌,兩種性質截然不同的信號會讓擴散模型產生混亂,導致訓練不穩定、圖像出現偽影。隱藏歷史幀的查詢令牌後,VAE特徵專門負責提供視覺延續性,當前幀的查詢令牌專門提供生成方向,分工清晰,訓練才能穩定有效。
Q3:MMCORE的訓練成本為什麼只有傳統統一架構的30%?
A:核心原因是"解耦訓練"策略。MMCORE將多模態語言模型和擴散模型的訓練完全分開進行,兩者不需要同時參與同一個損失函數的反向傳播,避免了兩套模型在每次訓練步驟中相互耦合帶來的巨大計算開銷。此外,語言模型階段完全不需要運行擴散過程,擴散模型階段則直接使用凍結的語言模型輸出作為條件信號,各自只優化各自的目標,自然省去了大量重複計算。






