華科大與阿里通義聯手：讓AI圖像生成更「聰明」地分配算力，關鍵細節不再被噪聲埋沒

這項由華中科技大學人工智慧與自動化學院和阿里巴巴通義實驗室聯合完成的研究，於2026年6月25日以預印本形式發布，論文編號為arXiv:2606.26938。有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。

贊助商廣告

一張照片，從一片噪聲中慢慢"浮現"出來——這是當前最先進的AI圖像生成系統的工作原理。然而，如何讓這個"浮現"的過程更加精準、高效，是研究者們持續攻關的核心難題。這篇論文正是針對這個難題，提出了一套名為SharpMoE的解決方案，讓AI在生成圖像時能夠把"算力"更準確地花在刀刃上。

一、AI生成圖像背後的"隱形工廠"

要理解這項研究，先從AI是怎麼生成圖像說起。當你讓AI畫一隻鸚鵡，它並不是憑空直接畫出來的，而是從一片隨機的噪點出發，一步一步"去噪"，就像是從一張布滿雪花的電視螢幕上，逐漸還原出清晰的畫面。這個過程叫做"擴散模型"，是當前最主流的AI圖像生成技術。

驅動擴散模型的神經網路規模越來越大，參數量動輒達到數十億。更大的模型通常意味著更好的生成質量，但同時也帶來了巨大的計算開銷——每次生成圖像，都要把所有參數全部激活，消耗大量算力。於是，研究者們引入了一種叫做"專家混合"（Mixture-of-Experts，簡稱MoE）的機制。

可以用一家大型設計公司來打比方。這家公司有很多不同專長的設計師（即"專家"），每當接到一個設計任務時，公司並不會讓所有設計師都上陣，而是由一個"項目經理"（即"路由器"）來判斷：這個任務的哪個部分需要哪幾位專家來處理。這樣既保住了公司的整體實力，又避免了人力浪費。

在AI圖像生成中，MoE機制的工作方式與此類似。圖像被切分成許多小塊（"token"），路由器負責判斷每個小塊應該交給哪幾位"專家"處理。一般來說，圖像中細節豐富、結構複雜的區域（比如鸚鵡的羽毛紋理）需要更多專家參與，而背景天空這類單調區域則不需要。這種"按需分配"的機制，既擴展了模型能力，又控制住了計算成本。

贊助商廣告

二、項目經理的眼睛被蒙上了——噪聲路由問題

然而，研究團隊發現了一個嚴重的問題：現有的MoE擴散模型中，那個"項目經理"（路由器）其實是在蒙眼睛工作的。

這是因為，擴散模型在生成圖像時，越早期的階段噪聲越重，圖像越模糊。而路由器做出"哪個小塊應該交給哪些專家"的決策時，依據的正是當前這些充滿噪聲的模糊資訊。這就好比項目經理要在完全看不清任務內容的情況下，就決定派誰去幹活——結果自然是亂派一通，細節複雜的區域沒有得到足夠的算力關注，而背景區域卻可能被過度處理。

研究團隊用一種叫做"拉普拉斯算子"的數學工具來衡量圖像每個小塊的"顯著程度"——直觀來說，就是這個小塊的紋理有多複雜、細節有多豐富。然後他們統計了現有方法（如DiffMoE）中，不同顯著程度的小塊實際被分配了多少專家。結果令人失望：無論一個小塊的紋理多複雜還是多單調，分配給它的專家數量幾乎沒有差別。換句話說，項目經理根本沒有在根據任務難度來分配人手，所有任務都被"無差別"地對待了。

這個現象被稱為"噪聲路由"問題——路由器被噪聲干擾，失去了準確識別重要區域的能力，導致算力分配嚴重失准。

三、SharpMoE的核心思路：讓項目經理摘下眼罩

針對這個問題，研究團隊提出了SharpMoE框架，核心思路其實相當直覺：既然路由器看不清當前步驟里的圖像（因為噪聲太重），何不讓它參考一張"乾淨的預覽圖"來做決策？

在擴散模型的每一步去噪過程中，模型都會預測一個當前對最終乾淨圖像的估計，這個估計被稱為"x^0預測"。雖然在早期階段這個估計還很粗糙，但它已經基本勾勒出了圖像的主體結構——比如鸚鵡大概在哪裡、背景大概是什麼。這就像是設計公司在正式開工前，先拿到了一份草圖，項目經理雖然看不到最終的精美成品，但已經能從草圖上判斷出哪個區域的設計工作最繁重。

贊助商廣告

SharpMoE的做法是：在當前時間步的路由決策中，不僅參考當前的噪聲圖像，還額外引入上一時間步預測出的乾淨圖像估計，作為判斷哪些區域需要更多專家的依據。這樣一來，即使當前圖像還充斥著噪聲，路由器也能藉助這份"乾淨預覽"，準確識別出圖像中真正需要重點處理的區域，從而合理分配算力。

四、雙路由器協同：經驗與洞察的結合

具體到實現層面，每個SharpMoE模組內部設置了兩個路由器，形成"雙軌協作"的機制。

第一個路由器是原來預訓練好的路由器，它繼續負責讀取當前時間步的噪聲圖像，感知模型在這一步去噪過程中的實時狀態，捕捉當前階段的處理需求。第二個路由器是新引入的"顯著性感知路由器"，它讀取上一時間步預測出的乾淨圖像估計，從中獲取圖像顯著區域的資訊。兩個路由器各自產生一組得分，將兩組得分加在一起，作為最終的路由決策依據。

這兩個路由器的分工，就像是一位老員工（預訓練路由器）憑藉豐富經驗處理眼前的狀況，同時配合一位擁有"透視鏡"的新同事（顯著性感知路由器）來看清任務的本質。兩人協作，決策自然更加準確。

為了避免新引入的路由器一開始就打亂已經訓練好的模型，研究團隊將顯著性感知路由器的初始權重全部設為零。這樣，模型在訓練初期依然按照原有方式運行，隨著訓練的推進，新路由器的影響力才逐步增加，平穩地將顯著性資訊融入路由決策。

五、全軌跡訓練：讓項目經理看完整個項目進度

引入乾淨圖像估計帶來了一個新挑戰：標準的擴散模型訓練通常只訓練"單步去噪"，也就是隨機抽取某一個時間步，讓模型學會在這一步做好去噪，而不關心前後步驟之間的關聯。但顯著性感知路由器需要上一步的乾淨預測結果作為輸入，單步訓練根本無法提供這個資訊。

為此，研究團隊設計了"遞歸全軌跡訓練"方案。每次訓練時，不再只抽取一個時間步，而是隨機抽取一組按時間順序排列的多個時間步（如10步），讓模型完整地模擬一段去噪過程。在這段模擬中，每一步都會產生對乾淨圖像的預測，這個預測會被傳遞給下一步使用。通過這種方式，顯著性感知路由器得到了它所需要的資訊，訓練得以正常進行。

贊助商廣告

在訓練第一步時，由於還沒有上一步的乾淨預測，研究團隊用當前的噪聲圖像作為替代輸入。這個處理方式背後的邏輯是：在生成過程的最初階段，圖像的內容尚未成形，任何區域都談不上顯著不顯著，噪聲圖像在這一刻其實是個合理的起點。

此外，研究團隊將訓練中第一個時間步固定在接近1.0的位置（具體取0.999）。這是因為如果從純粹的隨機噪聲出發，訓練目標會變得混亂，無法給模型提供有效的學習信號。0.999這個細微的差別，既保證了訓練的有效性，又確保了訓練和實際使用時的行為保持一致。

六、軌跡路由損失：從全局視角約束算力分配

光有更聰明的路由器還不夠，研究團隊進一步提出了"軌跡路由損失"，用來從訓練目標層面直接驅動模型去學會正確的算力分配方式。

思路是這樣的：得益於全軌跡訓練，研究團隊可以統計在整個去噪過程中，每個圖像小塊累計被分配了多少專家（即累計算力）。與此同時，他們用前面提到的拉普拉斯算子計算出每個小塊的真實顯著程度，得到一張"顯著性地圖"。

理想狀態下，一個小塊的累計算力分配，應該與它的顯著程度成正比。越顯著的區域，理應獲得越多的算力。軌跡路由損失就是用來衡量實際算力分配和理想顯著性分布之間的差距，並在訓練中不斷縮小這個差距。具體使用的是一種叫做KL散度的統計工具，它能夠量化兩個分布之間有多"像"或多"不像"。

這個損失項與原本的去噪損失（Flow Matching損失）共同構成總訓練目標，兩者通過一個權重係數（在實驗中設為0.001）進行平衡。這個權重確保算力分配的約束足夠有效，同時又不會干擾模型生成圖像的基本能力。

七、實驗結果：效果顯著，適用廣泛

研究團隊在ImageNet數據集（一個包含超過120萬張涵蓋1000個類別的標準圖像庫）上進行了系統性評測，採用256×256解析度的類別條件圖像生成任務。

贊助商廣告

評測使用的核心指標有兩個。FID（Fréchet Inception Distance，弗雷歇初始距離）衡量生成圖像與真實圖像之間的整體差距，數值越低越好。IS（Inception Score）衡量生成圖像的多樣性和質量，數值越高越好。

SharpMoE被設計為一個"後訓練增強"框架——也就是說，研究團隊先拿已經訓練了50萬步的MoE擴散模型作為起點，然後只需再用SharpMoE繼續訓練10萬步，就能獲得顯著的性能提升。

在以DiffMoE-L（大號模型）為基礎的實驗中，SharpMoE將FID從3.86降低到了3.10，IS從203.00提升到了228.88（在引導強度cfg=1.5的設置下）。在以TC-DiT-L為基礎時，FID從5.07降到了3.72，IS從174.98提升到了206.93。在以EC-DiT-L為基礎時，FID從4.09降到了3.27，IS從195.12提升到了221.36。

這些改進貫穿了小（S）、中（B）、大（L）三種模型規模，也貫穿了TC-DiT、EC-DiT、DiffMoE三種不同的MoE架構，充分說明SharpMoE並不依賴某種特定的架構才能發揮作用，而是具有廣泛的適用性。

消融實驗（也就是逐步拆除各個組件、觀察性能變化的對照實驗）進一步驗證了每個組件的貢獻。以DiffMoE-B為基礎，在cfg=1.5的設置下，原始模型的FID為8.03。僅加入顯著性感知路由機制，FID就降到了6.95。在此基礎上再加入軌跡路由損失，FID進一步降到6.66。兩個組件各有獨立貢獻，組合使用效果最佳。

在預訓練階段影響的實驗中，研究團隊將SharpMoE分別應用於訓練了40萬步、50萬步、70萬步的DiffMoE-B檢查點，結果發現：無論從哪個階段開始後訓練，SharpMoE都能在10萬步內帶來一致的性能提升，哪怕模型已經充分收斂也不例外。這說明SharpMoE作為後訓練增強工具，具有很強的魯棒性。

在軌跡步數的影響實驗中，研究團隊測試了T=5、10、15、20四種不同的全軌跡訓練步數設置。結果顯示，四種設置均能帶來顯著提升，性能差異有限，說明SharpMoE對這個超參數並不敏感，不需要精細調優。實驗最終選擇T=10作為默認設置，因為在該設置下效果略優。

贊助商廣告

在專家分配的可視化分析中，研究團隊統計了不同顯著程度的圖像小塊在生成過程中各個時間步平均被分配的專家數量。對比圖清晰地顯示：DiffMoE的分配曲線幾乎是水平的，各顯著程度的小塊獲得的專家數量相差無幾；而SharpMoE的分配曲線呈明顯的單調遞增趨勢，越顯著的小塊獲得的專家越多。在高噪聲階段（生成早期），這種差異尤為明顯，正說明SharpMoE的乾淨預測指導在最需要的時刻發揮了最大的作用。

說到底，SharpMoE解決的是一個聽起來很直覺、但實現起來頗費功夫的問題：讓AI在生成圖像時，能夠"看清楚"哪裡需要重點投入，而不是蒙著眼睛隨機分配算力。研究團隊的方案——借用上一步對乾淨圖像的預測來指導當前步的專家分配，再配合全軌跡訓練和顯著性對齊的損失函數——在多種架構和規模上都表現出了穩定而顯著的改進。

對於普通人來說，這項研究的意義在於：未來的AI圖像生成系統，在同等計算資源下，能生成細節更豐富、質量更高的圖像。鸚鵡的每一根羽毛、食物的每一層紋理，都能得到更充分的算力關注，而不是被淹沒在噪聲的混亂分配中。

這也引出了一個值得思考的問題：在AI系統越來越複雜的今天，"怎麼分配算力"本身就是一門藝術。SharpMoE的探索揭示，讓AI更好地"看清楚"自己面對的問題，往往比一味堆砌更多參數更加有效。有興趣深入了解技術細節的讀者，可以通過arXiv編號2606.26938查閱完整論文。

Q&A

Q1：SharpMoE和普通擴散模型的區別是什麼？

A：普通擴散模型的路由器在做"哪些區域需要更多算力"的決策時，只能看當前充滿噪聲的模糊圖像，導致判斷失准。SharpMoE額外引入了上一步預測的乾淨圖像作為參考，讓路由器能夠更準確地識別哪些區域真正需要重點處理，從而把算力花在刀刃上，提升生成圖像的細節質量。

Q2：SharpMoE訓練起來會不會特別費時？

贊助商廣告

A：不會特別費時。SharpMoE被設計為"後訓練增強"框架，可以直接在已經訓練好的模型上繼續微調。實驗表明，只需在原有50萬步訓練的基礎上再追加10萬步後訓練，就能獲得顯著的性能提升，而且無論模型處於哪個訓練階段都適用。

Q3：軌跡路由損失具體是怎麼約束算力分配的？

A：軌跡路由損失會統計整個去噪過程中每個圖像小塊累計獲得的算力，同時用拉普拉斯算子計算出每個小塊的真實複雜程度（顯著性），然後用KL散度來衡量兩者分布的差距，並在訓練中不斷縮小這個差距，從而讓模型學會把更多算力分配給紋理複雜、細節豐富的區域。