南開大學與阿里巴巴聯手破解AI畫圖「慢」的難題：讓文字變圖片快到只需一步

這項由南開大學電腦科學學院與阿里巴巴AMAP團隊聯合開展的研究，發表於2026年4月，論文編號為arXiv:2604.18168，有興趣深入了解的讀者可通過該編號查詢完整論文。研究代碼已開源，項目名稱為EMF（Extending MeanFlow to T2I）。

贊助商廣告

你有沒有注意到，當你用AI生成一張圖片時，往往需要等上好幾秒鐘？這是因為目前主流的AI畫圖技術，本質上是一個"反覆修改草稿"的過程——從一堆噪點出發，一點一點地"擦出"清晰的圖像，少則十步，多則幾十步。每一步都要計算，每一步都要等待。

研究團隊的目標，就是把這個"反覆修改"的過程壓縮到極致——最好是一步就能畫出高質量的圖片。這個方向並非天方夜譚，近年來已有一個名叫MeanFlow的框架在學術界嶄露頭角，證明了"一步生圖"在某些條件下確實可行。然而，這個框架此前只能根據簡單的"類別標籤"來生圖，比如告訴它"貓"或"汽車"，它能畫出來，但你沒法告訴它"一隻橘色的貓蜷縮在月光下的木窗台上，遠處有若隱若現的山脈"這樣複雜的文字描述。

這篇研究的核心貢獻，就是第一次讓MeanFlow這個框架能夠真正理解並響應豐富的文字描述，把"一步生圖"從簡單的類別標籤擴展到了自然語言文本。這聽起來只是一個小小的延伸，但研究過程中卻遇到了意想不到的障礙，而正是這些障礙的背後，隱藏著一個關於AI理解語言能力的深刻規律。

---

一、從"一步速寫"到"一步精描"：理解MeanFlow的工作原理

要理解這項研究的意義，先得搞懂AI畫圖"慢"的根本原因，以及MeanFlow是怎麼嘗試解決這個問題的。

傳統的擴散模型（目前最主流的AI畫圖技術）工作起來，類似於一位畫家從一張全是隨機塗鴉的紙開始，反覆疊加修改，每一次修改都讓畫面更接近目標。這個過程天然需要很多步驟——每一步只修正一點點，累積起來才能得到精確的結果。

MeanFlow的思路截然不同。它不是去學"每一步應該怎麼修改"，而是直接學習"從任意一個混亂狀態，到最終目標圖像，整段路徑的平均方向"。用一個更生活化的比喻來說：傳統方法像是每隔幾步就重新查地圖導航，每次只看下一步該往哪走；而MeanFlow更像是在出發前就把整段旅途的大方向牢記於心，一步到位直接走到終點，不需要中途反覆校正。

贊助商廣告

這個"平均方向"在數學上被稱為平均速度（average velocity），是MeanFlow框架的核心概念。它通過一個精巧的自洽方程來計算：模型不僅要知道當前位置的瞬時速度，還要知道這個速度隨時間變化的趨勢，把兩者結合起來，就能預測出整段旅程的平均速度，從而實現一步到位的生成。

之前的研究已經證明，在ImageNet這個圖像數據集上，用固定的類別標籤（比如"狗"、"汽車"）來指導生成時，MeanFlow能夠做到一步生成出質量可觀的圖片。然而，類別標籤實在太簡單了——全世界的圖片也就那麼幾千個類別，每個類別對應的特徵相對固定。當研究團隊試圖把條件從"類別標籤"升級為"自由文本"時，麻煩就來了。

---

二、一個出乎意料的失敗：直接塞入文字描述為什麼不管用

研究團隊最初的想法非常直接：既然現代頂尖的文字轉圖片模型（比如SANA-1.5）已經有了強大的文本理解能力，那就把它們的文字編碼器接到MeanFlow框架上，按照慣常的訓練方式訓練一遍，應該就能搞定了吧？

結果出乎所有人意料——這種直接嫁接的方式徹底失敗了。訓練出來的模型在少步生成時表現極差，遠達不到實用水準。

面對這個失敗，研究團隊沒有簡單地換個超參數再試，而是深挖背後的原因。他們做了一個關鍵實驗：拿兩個構造相似、但文本編碼器不同的模型來比較——SANA-1.5和BLIP3o-NEXT。這兩個模型用的是完全相同的圖像生成骨幹網路，唯一的區別就是處理文字的模組不同。

實驗的方式很簡單：把步數從正常的20步逐漸壓縮到1步，看兩個模型的表現如何變化。結果讓人大開眼界。以"幾只鴨子懶洋洋地漂浮在清澈的藍色水面上"這句話為例：用BLIP3o-NEXT的文字編碼器生成時，即便只給一步，畫面里仍然能看到鴨子的輪廓；而用SANA-1.5的文字編碼器生成時，壓縮到一步之後，鴨子完全消失了，畫面只剩下藍色水面。

贊助商廣告

在對應的定量評測（GenEval評分）上，隨著步數從20步減少到1步，SANA-1.5的得分從0.81急劇跌落，而BLIP3o-NEXT則下滑得更為平緩，在極少步數下依然保持了相當高的語義準確率。

這個實驗揭示了一個此前被忽視的規律：不同的文字編碼器，讓AI的畫圖"導航系統"具有截然不同的質量。有些文字編碼器指出的方向很模糊，需要模型在路上反覆校正才能找到目標；另一些文字編碼器給出的方向則足夠清晰，模型基本不用校正就能直接抵達。對於MeanFlow這種"一步直達"的框架而言，顯然需要的是後者。

---

三、一把尺子量出差距：什麼樣的文字理解能力才算"足夠好"

既然文字編碼器的質量至關重要，研究團隊就設計了兩把專門的"尺子"來量化不同編碼器的能力差距。這兩把尺子，分別對應兩個核心屬性：區分度（discriminability）和解耦性（disentanglement）。

區分度，簡單說就是：當你把一段文字"翻譯"成數字向量之後，這個向量和對應圖片的數字向量有多接近？更直白地說，就是這個文字編碼器對語義的理解有多精準，能不能清楚地把"紅色的茶壺"和"藍色的茶壺"區分開來，而不是把兩者都模糊地歸到"茶壺"這個大類里。

為了測量區分度，研究團隊用了一個頗具創意的"圖文檢索"實驗。他們在COCO 2017數據集的11.8萬張圖文對里，用某個文字編碼器對一段查詢文字進行編碼，然後看這個編碼和哪些文字的編碼最相似，再把那些相似文字對應的圖片拿出來，看看這些圖片在視覺上是否真的和查詢文字描述的內容接近。

實驗結果非常直觀。當用BLIP3o-NEXT的編碼器去搜索"一個木鞦韆掛在鬱鬱蔥蔥的草地上方"時，檢索出來的兩張圖片，一張是樹林裡的鞦韆，另一張是草地上的木質長椅——雖然不完全一樣，但主題相關。而SANA-1.5的編碼器檢索出來的圖片，則是完全不搭邊的風景照。CLIP編碼器同樣表現不佳，檢索到了"綠色領結的熊麻吉坐在鞦韆上"——有"鞦韆"元素，但主體搞錯了。T5編碼器則更離譜，檢索到了帆船和蔬菜園。

贊助商廣告

為了把這個直覺轉化為數字，研究團隊用另一個強大的視覺模型（DINOv3）重新評估檢索到的圖片與查詢圖片的視覺相似度。BLIP3o-NEXT的檢索得分是0.734，CLIP是0.730，而T5隻有0.634——差距相當顯著。

解耦性衡量的則是另一個維度：當你把一段複雜的長句拆短、去掉一些描述詞之後，拆短後的文字和原來長句的編碼向量距離有多小？這個屬性本質上在問：這個編碼器是否能清楚地"感知"一段文字里每一個獨立的語義成分，而不是把所有成分混在一起，變成一個分不清主次的大雜燴。

在解耦性測試中，研究團隊從DPG-Bench的評測集裡取出所有提示詞，隨機去掉一部分描述，然後計算簡化版和完整版編碼向量之間的餘弦距離。距離越小，說明解耦性越好，即便去掉了部分描述，編碼器仍然能保持整體語義結構的完整性。BLIP3o-NEXT的得分是0.999，幾乎接近完美，Gemma是0.987，CLIP是0.967，T5隻有0.893。

這兩個實驗共同指向了同一個結論：BLIP3o-NEXT的文字編碼器，在區分度和解耦性這兩個維度上，都顯著優於其他選項。而這兩個屬性，正是讓AI在極少步數下仍能準確理解文字含義的關鍵所在。

從更深層的視角來理解：類別標籤之所以在MeanFlow中效果好，恰恰是因為類別之間的邊界清晰、特徵分離——"貓"和"狗"在編碼空間裡離得很遠，速度場的方向不容易混亂。而普通的文字編碼器（尤其是只在純文本語料上訓練的T5、Gemma等），產生的向量在空間中擠成一團，"紅色的茶壺"和"藍色的茶壺"的編碼向量可能非常接近，速度場就很容易"走錯路"，需要多步校正才能找回來。

---

四、把想法變成現實：如何把文字理解能力真正嫁接到MeanFlow框架上

明確了"用BLIP3o-NEXT的編碼器"這個方向之後，研究團隊著手設計具體的技術方案，將文字條件真正融入MeanFlow框架。

在架構層面，MeanFlow和普通的流匹配模型有一個關鍵區別：普通模型只需要知道"當前處於時間軸的哪個位置"，而MeanFlow需要同時知道"當前位置"和"目標位置"，因為它要預測的是兩者之間整段路程的平均速度。為了實現這一點，研究團隊對原有的時間編碼模組進行了改造：把原來的單一時間嵌入層拆分成兩個獨立的嵌入層，一個用於編碼"時間段的長度"，另一個用於編碼"時間段的終點"，把兩者相加得到聯合的時間條件，再和文字特徵一起輸入到速度預測網路中。

贊助商廣告

在訓練策略上，研究團隊設計了一個自適應的時間步採樣方案。訓練初期，時間步從均勻分布中採樣；隨著訓練推進，逐漸轉向對數正態分布，更多地採樣中間時間段，確保模型對不同長度的"路程"都有充分的學習。同時，"起點不等於終點"的時間對（即真正需要預測平均速度的情況）的比例也隨著訓練進展逐步提升，讓模型循序漸進地接觸到越來越多的MeanFlow訓練信號，保持訓練穩定性。

整個訓練過程基於BLIP3o-NEXT這個預訓練模型繼續精調，數據集包含約17萬條樣本，覆蓋多種來源的高質量圖文對。學習率設為1e-5，批次大小128，共訓練150個輪次。

---

五、用數字說話：EMF的實際表現有多強

研究團隊給自己的方法起名為EMF（Extending MeanFlow to T2I，即把MeanFlow擴展到文字轉圖片任務）。在兩個主流評測基準上，EMF展現出了相當強勁的性能。

GenEval是一個專門評估文字到圖片"語義忠實度"的基準，它會測試模型能不能準確生成文字里描述的各種屬性、對象和位置關係。在僅用4步的情況下，EMF取得了0.90的總分，幾乎和BLIP3o-NEXT用30步得到的0.91持平。更值得關注的是，EMF在4步的表現超過了幾乎所有需要蒸餾訓練的加速模型——而那些模型通常需要一個或多個額外的"教師模型"才能訓練，EMF則只需從BLIP3o-NEXT這一套預訓練權重出發繼續訓練，不需要額外的教師模型。

具體來看各個子項：在單一對象識別上，EMF以1步就達到0.98；在兩個對象的識別上，4步時達到0.94；顏色歸屬方面，4步時達到0.92；位置關係方面，4步時達到0.91；顏色屬性綁定方面，4步時達到0.76。相比之下，BLIP3o-NEXT用同樣4步只能達到0.86的總分，而EMF的1步就已經達到了0.74，比BLIP3o-NEXT的1步（0.46）高出了將近28個百分點。

DPG-Bench是一個更有挑戰性的評測，它用長篇複雜的提示詞測試模型的指令跟隨能力和構圖準確性。EMF在4步時的總分是81.20，在8步時進一步提升到81.94，而BLIP3o-NEXT用30步才能達到82.05。換句話說，EMF只需要30步的零頭，就能達到接近滿足的效果。

贊助商廣告

在HPS-v2.1（人類偏好評分）這個衡量圖片"是否符合人類審美"的基準上，EMF同樣表現突出：4步時的綜合得分是29.25，幾乎追平BLIP3o-NEXT 30步的29.42，而BLIP3o-NEXT自己的4步僅有26.96。

研究團隊還做了一項用戶研究，招募20名用戶對5個模型（EMF、SANA-Sprint、FLUX.1-schnell、SDXL-DMD2、SD3.5-L-Turbo）的4步生成結果進行盲測，回答"哪個結果和提示詞描述最匹配"。結果EMF以0.49的勝率遙遙領先，排名第二的SANA-Sprint僅有0.16，其他模型更低。

---

六、訓練過程的"成長曲線"與跨步數的擴展性

除了最終性能，研究團隊還詳細記錄了EMF在訓練過程中的動態表現，以及步數變化對性能的影響。

從訓練曲線來看，EMF的收斂速度相當快：在4步採樣設置下，僅訓練約1萬步之後，GenEval得分就已經大幅超越了BLIP3o-NEXT的4步基線，最終在6萬步時穩定在0.90。2步採樣在7萬步時達到0.85，1步採樣在9萬步時達到0.74。這意味著少步數的設置雖然更難，但只需要更多訓練時間就能解決，不存在根本性的障礙。

一個值得關注的特性是，EMF的性能隨步數增加而持續提升，而且是"真正的提升"而非虛假的飽和。傳統的蒸餾加速模型（如LCM、Turbo等）通常在1到4步時效果較好，但繼續增加步數往往收益邊際遞減，甚至有時候反而變差。EMF則不同：從1步到4步有大幅提升，從4步到8步仍有明顯的繼續提升（DPG-Bench從81.20漲到81.94）。這背後的原因在於MeanFlow本質上是對底層連續流場的穩定數值近似——每增加一步，就是更精確地沿著平均速度場前進，減少了近似誤差，因此性能是單調改善的，沒有那種"多走反而出錯"的現象。

---

七、為什麼SANA-1.5換了編碼器還是不行？

研究團隊做了一個關鍵的對照實驗，專門回應一個可能的質疑：也許EMF成功不是因為BLIP3o-NEXT的編碼器質量更好，而只是因為訓練數據的領域不同？

為了排除這個干擾，團隊用BLIP3o-NEXT的精調數據和相同的超參數，把SANA-1.5的編碼器（Gemma）重新在這套數據上訓練了一遍，然後再嘗試MeanFlow精調。結果非常明確：經過這次額外訓練，SANA-1.5的GenEval得分從0.81提升到了0.85，說明領域對齊確實有幫助；但當進一步加入MeanFlow訓練時，4步的得分驟降到0.50，完全失去了少步生成能力——和沒有加MeanFlow的標準流匹配訓練（0.85）相比，MeanFlow反而起了反效果。

贊助商廣告

相比之下，BLIP3o-NEXT在相同的MeanFlow訓練框架下收斂穩定，4步得分從訓練初期就快速上升，最終達到0.90。

這個實驗有力地證明：域對齊固然重要，但文字編碼器本身的區分度和解耦性才是決定性因素。在MeanFlow框架下，對比了Gemma編碼器訓練後的區分度得分（0.694）和OpenUni編碼器的區分度得分（0.724）——兩者都遠低於BLIP3o-NEXT的0.734，而解耦性方面兩者雖然較高（0.997和0.996），但在區分度這塊的短板依然無法彌補。

研究團隊還在OpenUni（一個使用InternVL3文字編碼器的模型）上做了MeanFlow實驗，OpenUni比SANA-1.5的成績要好一些（4步MeanFlow得0.70，SANA-1.5隻有0.50），但和EMF的0.90仍有相當差距。這說明文字編碼器的區分度是一個連續的屬性，越好越能支撐少步生成，而不是一個非黑即白的開關。

---

八、速度到底有多快？

從實際推理時間來看，在H200顯卡上，BLIP3o-NEXT用30步生成一張圖片的擴散採樣時間是1.24秒，而EMF用4步只需0.22秒，2步只需0.12秒，1步只需0.08秒——相當於快了5到15倍。

考慮到整個端到端的生成流程（包括文字編碼等前處理），BLIP3o-NEXT的全流程時間是11.3秒，EMF的4步版本是9.87秒。這裡的時間差距縮小了，主要是因為BLIP3o-NEXT採用的是自回歸式文字編碼器，編碼本身就需要相當的時間，這部分時間是固定的，不隨擴散步數減少而減少。儘管如此，EMF在實際使用體驗上依然明顯更快，而且隨著硬體性能提升和工程優化，擴散步數帶來的時間節省會更加突出。

---

說到底，這項研究解決的是一個看似技術性很強、實則與每個AI用戶息息相關的問題：如何在不犧牲質量的前提下，讓AI畫圖真的快起來。

以往的"快速生圖"方案大多走的是"蒸餾"路線，本質上是拿大模型慢慢畫出來的結果來訓練小模型，讓小模型學會抄捷徑。這種方式雖然有效，但存在天花板——小模型"抄的捷徑"是有固定套路的，步數再多也不會變好。EMF走的則是截然不同的路徑：它讓模型直接學習速度場的"全局平均方向"，每一步都是真正意義上的朝目標前進，步數增加就是質量提升，沒有上限。

贊助商廣告

更深層的發現，是關於AI理解語言這件事的一個規律：不是所有的"大語言模型"都適合用來做圖像生成的文字理解模組。那些只在純文本上訓練的語言模型，雖然能寫出流暢的文章，但它們對語言的理解方式和視覺世界之間存在一道隱形的鴻溝——它們產生的向量在數學空間裡彼此太過接近，像一大堆相似的鑰匙，AI難以一眼分辨出哪把對應哪扇門。而經過圖文對齊訓練的編碼器，則能把不同的語義清晰地投射到相互分離的位置，讓AI的"導航系統"有更清晰的方向感，哪怕只走一步也不容易迷路。

這個發現對未來的研究具有相當的指導意義：當你想要訓練任何少步或單步生成模型時，選擇合適的文字編碼器，可能比在模型結構或訓練策略上花大力氣更加關鍵。這是一個此前沒有被系統研究過的盲點，而EMF這項工作把它清晰地揭示出來了。

對於普通用戶而言，這意味著在未來某一天，你打開AI畫圖工具，輸入一段天馬行空的描述，可能只需要眨幾下眼睛的功夫，一張貼合你想像的高質量圖片就已經出現在螢幕上——不是粗糙的草稿，而是細節豐富、語義準確的精細作品。這一天，可能比你想像的更近。

對於對這個方向感興趣的讀者，可以通過arXiv編號2604.18168查閱完整論文，代碼已在GitHub上以AMAP-ML/EMF為項目名開源，可以直接下載和復現實驗。

---

Q&A

Q1：MeanFlow框架和普通AI畫圖模型的區別是什麼？

A：普通的AI畫圖模型（比如擴散模型）工作時需要從噪點出發，經過幾十次反覆修改才能畫出清晰的圖片，每次修改只糾正一點點偏差。MeanFlow則不同，它直接學習從起點到終點整段路徑的平均方向，相當於一開始就看清了終點在哪，可以用極少的步驟甚至一步就完成生成，而且步數越多質量越好，不會出現傳統加速方法"多走反而變差"的問題。

Q2：為什麼BLIP3o-NEXT的文字編碼器比T5或Gemma更適合做少步生圖？

贊助商廣告

A：T5和Gemma這類模型只在純文字數據上訓練，產生的文字向量在數學空間裡彼此太過接近，AI很難一次性分清"紅色茶壺"和"藍色茶壺"的區別，需要多步校正才能找對方向。而BLIP3o-NEXT的編碼器經過圖文對齊訓練，不同語義對應的向量分布得更加分散清晰，AI哪怕只走一步也能準確找到目標，特別適合MeanFlow這種少步生成的需求。

Q3：EMF模型實際使用時有多快，和普通模型相比差距大嗎？

A：在同款顯卡上，EMF用4步生成一張圖片的擴散採樣時間約為0.22秒，用1步只需0.08秒，而原始的BLIP3o-NEXT需要30步、耗時1.24秒，速度差距在5到15倍之間。考慮文字編碼等完整流程，EMF 4步約需9.87秒，BLIP3o-NEXT 30步需11.3秒，整體體驗明顯更快，且EMF的4步質量已接近BLIP3o-NEXT的30步水準。