宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

南開大學與阿里巴巴聯手破解AI畫圖「慢」的難題:讓文字變圖片快到只需一步

2026年04月29日 首頁 » 熱門科技

這項由南開大學電腦科學學院與阿里巴巴AMAP團隊聯合開展的研究,發表於2026年4月,論文編號為arXiv:2604.18168,有興趣深入了解的讀者可通過該編號查詢完整論文。研究代碼已開源,項目名稱為EMF(Extending MeanFlow to T2I)。

你有沒有注意到,當你用AI生成一張圖片時,往往需要等上好幾秒鐘?這是因為目前主流的AI畫圖技術,本質上是一個"反覆修改草稿"的過程——從一堆噪點出發,一點一點地"擦出"清晰的圖像,少則十步,多則幾十步。每一步都要計算,每一步都要等待。

研究團隊的目標,就是把這個"反覆修改"的過程壓縮到極致——最好是一步就能畫出高質量的圖片。這個方向並非天方夜譚,近年來已有一個名叫MeanFlow的框架在學術界嶄露頭角,證明了"一步生圖"在某些條件下確實可行。然而,這個框架此前只能根據簡單的"類別標籤"來生圖,比如告訴它"貓"或"汽車",它能畫出來,但你沒法告訴它"一隻橘色的貓蜷縮在月光下的木窗台上,遠處有若隱若現的山脈"這樣複雜的文字描述。

這篇研究的核心貢獻,就是第一次讓MeanFlow這個框架能夠真正理解並響應豐富的文字描述,把"一步生圖"從簡單的類別標籤擴展到了自然語言文本。這聽起來只是一個小小的延伸,但研究過程中卻遇到了意想不到的障礙,而正是這些障礙的背後,隱藏著一個關於AI理解語言能力的深刻規律。

---

一、從"一步速寫"到"一步精描":理解MeanFlow的工作原理

要理解這項研究的意義,先得搞懂AI畫圖"慢"的根本原因,以及MeanFlow是怎麼嘗試解決這個問題的。

傳統的擴散模型(目前最主流的AI畫圖技術)工作起來,類似於一位畫家從一張全是隨機塗鴉的紙開始,反覆疊加修改,每一次修改都讓畫面更接近目標。這個過程天然需要很多步驟——每一步只修正一點點,累積起來才能得到精確的結果。

MeanFlow的思路截然不同。它不是去學"每一步應該怎麼修改",而是直接學習"從任意一個混亂狀態,到最終目標圖像,整段路徑的平均方向"。用一個更生活化的比喻來說:傳統方法像是每隔幾步就重新查地圖導航,每次只看下一步該往哪走;而MeanFlow更像是在出發前就把整段旅途的大方向牢記於心,一步到位直接走到終點,不需要中途反覆校正。

這個"平均方向"在數學上被稱為平均速度(average velocity),是MeanFlow框架的核心概念。它通過一個精巧的自洽方程來計算:模型不僅要知道當前位置的瞬時速度,還要知道這個速度隨時間變化的趨勢,把兩者結合起來,就能預測出整段旅程的平均速度,從而實現一步到位的生成。

之前的研究已經證明,在ImageNet這個圖像數據集上,用固定的類別標籤(比如"狗"、"汽車")來指導生成時,MeanFlow能夠做到一步生成出質量可觀的圖片。然而,類別標籤實在太簡單了——全世界的圖片也就那麼幾千個類別,每個類別對應的特徵相對固定。當研究團隊試圖把條件從"類別標籤"升級為"自由文本"時,麻煩就來了。

---

二、一個出乎意料的失敗:直接塞入文字描述為什麼不管用

研究團隊最初的想法非常直接:既然現代頂尖的文字轉圖片模型(比如SANA-1.5)已經有了強大的文本理解能力,那就把它們的文字編碼器接到MeanFlow框架上,按照慣常的訓練方式訓練一遍,應該就能搞定了吧?

結果出乎所有人意料——這種直接嫁接的方式徹底失敗了。訓練出來的模型在少步生成時表現極差,遠達不到實用水準。

面對這個失敗,研究團隊沒有簡單地換個超參數再試,而是深挖背後的原因。他們做了一個關鍵實驗:拿兩個構造相似、但文本編碼器不同的模型來比較——SANA-1.5和BLIP3o-NEXT。這兩個模型用的是完全相同的圖像生成骨幹網路,唯一的區別就是處理文字的模組不同。

實驗的方式很簡單:把步數從正常的20步逐漸壓縮到1步,看兩個模型的表現如何變化。結果讓人大開眼界。以"幾只鴨子懶洋洋地漂浮在清澈的藍色水面上"這句話為例:用BLIP3o-NEXT的文字編碼器生成時,即便只給一步,畫面里仍然能看到鴨子的輪廓;而用SANA-1.5的文字編碼器生成時,壓縮到一步之後,鴨子完全消失了,畫面只剩下藍色水面。

在對應的定量評測(GenEval評分)上,隨著步數從20步減少到1步,SANA-1.5的得分從0.81急劇跌落,而BLIP3o-NEXT則下滑得更為平緩,在極少步數下依然保持了相當高的語義準確率。

這個實驗揭示了一個此前被忽視的規律:不同的文字編碼器,讓AI的畫圖"導航系統"具有截然不同的質量。有些文字編碼器指出的方向很模糊,需要模型在路上反覆校正才能找到目標;另一些文字編碼器給出的方向則足夠清晰,模型基本不用校正就能直接抵達。對於MeanFlow這種"一步直達"的框架而言,顯然需要的是後者。

---

三、一把尺子量出差距:什麼樣的文字理解能力才算"足夠好"

既然文字編碼器的質量至關重要,研究團隊就設計了兩把專門的"尺子"來量化不同編碼器的能力差距。這兩把尺子,分別對應兩個核心屬性:區分度(discriminability)和解耦性(disentanglement)。

區分度,簡單說就是:當你把一段文字"翻譯"成數字向量之後,這個向量和對應圖片的數字向量有多接近?更直白地說,就是這個文字編碼器對語義的理解有多精準,能不能清楚地把"紅色的茶壺"和"藍色的茶壺"區分開來,而不是把兩者都模糊地歸到"茶壺"這個大類里。

為了測量區分度,研究團隊用了一個頗具創意的"圖文檢索"實驗。他們在COCO 2017數據集的11.8萬張圖文對里,用某個文字編碼器對一段查詢文字進行編碼,然後看這個編碼和哪些文字的編碼最相似,再把那些相似文字對應的圖片拿出來,看看這些圖片在視覺上是否真的和查詢文字描述的內容接近。

實驗結果非常直觀。當用BLIP3o-NEXT的編碼器去搜索"一個木鞦韆掛在鬱鬱蔥蔥的草地上方"時,檢索出來的兩張圖片,一張是樹林裡的鞦韆,另一張是草地上的木質長椅——雖然不完全一樣,但主題相關。而SANA-1.5的編碼器檢索出來的圖片,則是完全不搭邊的風景照。CLIP編碼器同樣表現不佳,檢索到了"綠色領結的熊麻吉坐在鞦韆上"——有"鞦韆"元素,但主體搞錯了。T5編碼器則更離譜,檢索到了帆船和蔬菜園。

為了把這個直覺轉化為數字,研究團隊用另一個強大的視覺模型(DINOv3)重新評估檢索到的圖片與查詢圖片的視覺相似度。BLIP3o-NEXT的檢索得分是0.734,CLIP是0.730,而T5隻有0.634——差距相當顯著。

解耦性衡量的則是另一個維度:當你把一段複雜的長句拆短、去掉一些描述詞之後,拆短後的文字和原來長句的編碼向量距離有多小?這個屬性本質上在問:這個編碼器是否能清楚地"感知"一段文字里每一個獨立的語義成分,而不是把所有成分混在一起,變成一個分不清主次的大雜燴。

在解耦性測試中,研究團隊從DPG-Bench的評測集裡取出所有提示詞,隨機去掉一部分描述,然後計算簡化版和完整版編碼向量之間的餘弦距離。距離越小,說明解耦性越好,即便去掉了部分描述,編碼器仍然能保持整體語義結構的完整性。BLIP3o-NEXT的得分是0.999,幾乎接近完美,Gemma是0.987,CLIP是0.967,T5隻有0.893。

這兩個實驗共同指向了同一個結論:BLIP3o-NEXT的文字編碼器,在區分度和解耦性這兩個維度上,都顯著優於其他選項。而這兩個屬性,正是讓AI在極少步數下仍能準確理解文字含義的關鍵所在。

從更深層的視角來理解:類別標籤之所以在MeanFlow中效果好,恰恰是因為類別之間的邊界清晰、特徵分離——"貓"和"狗"在編碼空間裡離得很遠,速度場的方向不容易混亂。而普通的文字編碼器(尤其是只在純文本語料上訓練的T5、Gemma等),產生的向量在空間中擠成一團,"紅色的茶壺"和"藍色的茶壺"的編碼向量可能非常接近,速度場就很容易"走錯路",需要多步校正才能找回來。

---

四、把想法變成現實:如何把文字理解能力真正嫁接到MeanFlow框架上

明確了"用BLIP3o-NEXT的編碼器"這個方向之後,研究團隊著手設計具體的技術方案,將文字條件真正融入MeanFlow框架。

在架構層面,MeanFlow和普通的流匹配模型有一個關鍵區別:普通模型只需要知道"當前處於時間軸的哪個位置",而MeanFlow需要同時知道"當前位置"和"目標位置",因為它要預測的是兩者之間整段路程的平均速度。為了實現這一點,研究團隊對原有的時間編碼模組進行了改造:把原來的單一時間嵌入層拆分成兩個獨立的嵌入層,一個用於編碼"時間段的長度",另一個用於編碼"時間段的終點",把兩者相加得到聯合的時間條件,再和文字特徵一起輸入到速度預測網路中。

在訓練策略上,研究團隊設計了一個自適應的時間步採樣方案。訓練初期,時間步從均勻分布中採樣;隨著訓練推進,逐漸轉向對數正態分布,更多地採樣中間時間段,確保模型對不同長度的"路程"都有充分的學習。同時,"起點不等於終點"的時間對(即真正需要預測平均速度的情況)的比例也隨著訓練進展逐步提升,讓模型循序漸進地接觸到越來越多的MeanFlow訓練信號,保持訓練穩定性。

整個訓練過程基於BLIP3o-NEXT這個預訓練模型繼續精調,數據集包含約17萬條樣本,覆蓋多種來源的高質量圖文對。學習率設為1e-5,批次大小128,共訓練150個輪次。

---

五、用數字說話:EMF的實際表現有多強

研究團隊給自己的方法起名為EMF(Extending MeanFlow to T2I,即把MeanFlow擴展到文字轉圖片任務)。在兩個主流評測基準上,EMF展現出了相當強勁的性能。

GenEval是一個專門評估文字到圖片"語義忠實度"的基準,它會測試模型能不能準確生成文字里描述的各種屬性、對象和位置關係。在僅用4步的情況下,EMF取得了0.90的總分,幾乎和BLIP3o-NEXT用30步得到的0.91持平。更值得關注的是,EMF在4步的表現超過了幾乎所有需要蒸餾訓練的加速模型——而那些模型通常需要一個或多個額外的"教師模型"才能訓練,EMF則只需從BLIP3o-NEXT這一套預訓練權重出發繼續訓練,不需要額外的教師模型。

具體來看各個子項:在單一對象識別上,EMF以1步就達到0.98;在兩個對象的識別上,4步時達到0.94;顏色歸屬方面,4步時達到0.92;位置關係方面,4步時達到0.91;顏色屬性綁定方面,4步時達到0.76。相比之下,BLIP3o-NEXT用同樣4步只能達到0.86的總分,而EMF的1步就已經達到了0.74,比BLIP3o-NEXT的1步(0.46)高出了將近28個百分點。

DPG-Bench是一個更有挑戰性的評測,它用長篇複雜的提示詞測試模型的指令跟隨能力和構圖準確性。EMF在4步時的總分是81.20,在8步時進一步提升到81.94,而BLIP3o-NEXT用30步才能達到82.05。換句話說,EMF只需要30步的零頭,就能達到接近滿足的效果。

在HPS-v2.1(人類偏好評分)這個衡量圖片"是否符合人類審美"的基準上,EMF同樣表現突出:4步時的綜合得分是29.25,幾乎追平BLIP3o-NEXT 30步的29.42,而BLIP3o-NEXT自己的4步僅有26.96。

研究團隊還做了一項用戶研究,招募20名用戶對5個模型(EMF、SANA-Sprint、FLUX.1-schnell、SDXL-DMD2、SD3.5-L-Turbo)的4步生成結果進行盲測,回答"哪個結果和提示詞描述最匹配"。結果EMF以0.49的勝率遙遙領先,排名第二的SANA-Sprint僅有0.16,其他模型更低。

---

六、訓練過程的"成長曲線"與跨步數的擴展性

除了最終性能,研究團隊還詳細記錄了EMF在訓練過程中的動態表現,以及步數變化對性能的影響。

從訓練曲線來看,EMF的收斂速度相當快:在4步採樣設置下,僅訓練約1萬步之後,GenEval得分就已經大幅超越了BLIP3o-NEXT的4步基線,最終在6萬步時穩定在0.90。2步採樣在7萬步時達到0.85,1步採樣在9萬步時達到0.74。這意味著少步數的設置雖然更難,但只需要更多訓練時間就能解決,不存在根本性的障礙。

一個值得關注的特性是,EMF的性能隨步數增加而持續提升,而且是"真正的提升"而非虛假的飽和。傳統的蒸餾加速模型(如LCM、Turbo等)通常在1到4步時效果較好,但繼續增加步數往往收益邊際遞減,甚至有時候反而變差。EMF則不同:從1步到4步有大幅提升,從4步到8步仍有明顯的繼續提升(DPG-Bench從81.20漲到81.94)。這背後的原因在於MeanFlow本質上是對底層連續流場的穩定數值近似——每增加一步,就是更精確地沿著平均速度場前進,減少了近似誤差,因此性能是單調改善的,沒有那種"多走反而出錯"的現象。

---

七、為什麼SANA-1.5換了編碼器還是不行?

研究團隊做了一個關鍵的對照實驗,專門回應一個可能的質疑:也許EMF成功不是因為BLIP3o-NEXT的編碼器質量更好,而只是因為訓練數據的領域不同?

為了排除這個干擾,團隊用BLIP3o-NEXT的精調數據和相同的超參數,把SANA-1.5的編碼器(Gemma)重新在這套數據上訓練了一遍,然後再嘗試MeanFlow精調。結果非常明確:經過這次額外訓練,SANA-1.5的GenEval得分從0.81提升到了0.85,說明領域對齊確實有幫助;但當進一步加入MeanFlow訓練時,4步的得分驟降到0.50,完全失去了少步生成能力——和沒有加MeanFlow的標準流匹配訓練(0.85)相比,MeanFlow反而起了反效果。

相比之下,BLIP3o-NEXT在相同的MeanFlow訓練框架下收斂穩定,4步得分從訓練初期就快速上升,最終達到0.90。

這個實驗有力地證明:域對齊固然重要,但文字編碼器本身的區分度和解耦性才是決定性因素。在MeanFlow框架下,對比了Gemma編碼器訓練後的區分度得分(0.694)和OpenUni編碼器的區分度得分(0.724)——兩者都遠低於BLIP3o-NEXT的0.734,而解耦性方面兩者雖然較高(0.997和0.996),但在區分度這塊的短板依然無法彌補。

研究團隊還在OpenUni(一個使用InternVL3文字編碼器的模型)上做了MeanFlow實驗,OpenUni比SANA-1.5的成績要好一些(4步MeanFlow得0.70,SANA-1.5隻有0.50),但和EMF的0.90仍有相當差距。這說明文字編碼器的區分度是一個連續的屬性,越好越能支撐少步生成,而不是一個非黑即白的開關。

---

八、速度到底有多快?

從實際推理時間來看,在H200顯卡上,BLIP3o-NEXT用30步生成一張圖片的擴散採樣時間是1.24秒,而EMF用4步只需0.22秒,2步只需0.12秒,1步只需0.08秒——相當於快了5到15倍。

考慮到整個端到端的生成流程(包括文字編碼等前處理),BLIP3o-NEXT的全流程時間是11.3秒,EMF的4步版本是9.87秒。這裡的時間差距縮小了,主要是因為BLIP3o-NEXT採用的是自回歸式文字編碼器,編碼本身就需要相當的時間,這部分時間是固定的,不隨擴散步數減少而減少。儘管如此,EMF在實際使用體驗上依然明顯更快,而且隨著硬體性能提升和工程優化,擴散步數帶來的時間節省會更加突出。

---

說到底,這項研究解決的是一個看似技術性很強、實則與每個AI用戶息息相關的問題:如何在不犧牲質量的前提下,讓AI畫圖真的快起來。

以往的"快速生圖"方案大多走的是"蒸餾"路線,本質上是拿大模型慢慢畫出來的結果來訓練小模型,讓小模型學會抄捷徑。這種方式雖然有效,但存在天花板——小模型"抄的捷徑"是有固定套路的,步數再多也不會變好。EMF走的則是截然不同的路徑:它讓模型直接學習速度場的"全局平均方向",每一步都是真正意義上的朝目標前進,步數增加就是質量提升,沒有上限。

更深層的發現,是關於AI理解語言這件事的一個規律:不是所有的"大語言模型"都適合用來做圖像生成的文字理解模組。那些只在純文本上訓練的語言模型,雖然能寫出流暢的文章,但它們對語言的理解方式和視覺世界之間存在一道隱形的鴻溝——它們產生的向量在數學空間裡彼此太過接近,像一大堆相似的鑰匙,AI難以一眼分辨出哪把對應哪扇門。而經過圖文對齊訓練的編碼器,則能把不同的語義清晰地投射到相互分離的位置,讓AI的"導航系統"有更清晰的方向感,哪怕只走一步也不容易迷路。

這個發現對未來的研究具有相當的指導意義:當你想要訓練任何少步或單步生成模型時,選擇合適的文字編碼器,可能比在模型結構或訓練策略上花大力氣更加關鍵。這是一個此前沒有被系統研究過的盲點,而EMF這項工作把它清晰地揭示出來了。

對於普通用戶而言,這意味著在未來某一天,你打開AI畫圖工具,輸入一段天馬行空的描述,可能只需要眨幾下眼睛的功夫,一張貼合你想像的高質量圖片就已經出現在螢幕上——不是粗糙的草稿,而是細節豐富、語義準確的精細作品。這一天,可能比你想像的更近。

對於對這個方向感興趣的讀者,可以通過arXiv編號2604.18168查閱完整論文,代碼已在GitHub上以AMAP-ML/EMF為項目名開源,可以直接下載和復現實驗。

---

Q&A

Q1:MeanFlow框架和普通AI畫圖模型的區別是什麼?

A:普通的AI畫圖模型(比如擴散模型)工作時需要從噪點出發,經過幾十次反覆修改才能畫出清晰的圖片,每次修改只糾正一點點偏差。MeanFlow則不同,它直接學習從起點到終點整段路徑的平均方向,相當於一開始就看清了終點在哪,可以用極少的步驟甚至一步就完成生成,而且步數越多質量越好,不會出現傳統加速方法"多走反而變差"的問題。

Q2:為什麼BLIP3o-NEXT的文字編碼器比T5或Gemma更適合做少步生圖?

A:T5和Gemma這類模型只在純文字數據上訓練,產生的文字向量在數學空間裡彼此太過接近,AI很難一次性分清"紅色茶壺"和"藍色茶壺"的區別,需要多步校正才能找對方向。而BLIP3o-NEXT的編碼器經過圖文對齊訓練,不同語義對應的向量分布得更加分散清晰,AI哪怕只走一步也能準確找到目標,特別適合MeanFlow這種少步生成的需求。

Q3:EMF模型實際使用時有多快,和普通模型相比差距大嗎?

A:在同款顯卡上,EMF用4步生成一張圖片的擴散採樣時間約為0.22秒,用1步只需0.08秒,而原始的BLIP3o-NEXT需要30步、耗時1.24秒,速度差距在5到15倍之間。考慮文字編碼等完整流程,EMF 4步約需9.87秒,BLIP3o-NEXT 30步需11.3秒,整體體驗明顯更快,且EMF的4步質量已接近BLIP3o-NEXT的30步水準。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新