這項由南洋理工大學S-Lab實驗室主導的研究以預印本形式發布於2026年6月,論文編號為arXiv:2606.15236,有興趣深入了解的讀者可通過該編號查詢完整論文。
當我們談論AI生成圖片,大多數人腦海中浮現的可能是那些能憑空"畫出"逼真風景、人像乃至奇幻場景的神奇模型。這些模型背後,有一套被稱為"擴散模型"的核心技術——它的工作方式有點像把一張清晰的照片慢慢往裡加入噪點,直到變成一片雪花屏,再反過來訓練AI學會從雪花屏里"還原"出清晰照片。
然而,南洋理工大學的這支研究團隊發現了一個長期被忽視的浪費現象:在AI學習如何"去噪"的整個過程中,相當一部分計算力其實花在了毫無意義的地方。更關鍵的是,他們不僅發現了這個問題,還提出了一個幾乎不需要額外計算資源、不改動任何核心訓練流程的修複方案,並將它命名為**頻譜強制(Spectral Forcing,簡稱SF)**。
---
一、AI畫圖時究竟在"看"什麼?一個關於噪音與信號的故事
要理解這項研究解決的是什麼問題,先得理解AI在訓練時面對的處境。
以"矯正流擴散"(rectified flow diffusion)這種主流訓練方式為例,AI在每一個訓練時刻,看到的是一張"半成品圖"——它介於純粹的隨機噪點和清晰原始照片之間。時刻越靠近起點(純噪點),圖像越模糊混亂;時刻越靠近終點(清晰照片),圖像越接近真實。AI的任務,就是在每一個時刻預測"應該往哪個方向走才能得到真實圖像"。
現在,自然界的圖片有一個普遍規律:圖像中的細節(高頻資訊,比如紋理、邊緣鋸齒)天然比粗略輪廓(低頻資訊,比如大塊顏色、整體形狀)攜帶的能量少得多。如果用聲音來類比,低頻就像低沉的鼓聲,穿透力強、能量大;高頻就像細碎的沙沙聲,微弱易被淹沒。
當噪點被加入圖像時,這種微弱的高頻細節資訊極其容易被噪點"蓋住"。研究團隊通過數學推導得出一條清晰的界線:在任何給定的訓練時刻,圖像中那些頻率超過某個臨界值的細節,實際上已經完全被噪點淹沒,從中根本無法提取出任何有關原始圖像的資訊。這條臨界線可以用一個公式精確描述,它隨著訓練時刻向"清晰照片"方向推進而不斷擴展,允許越來越多的細節頻率露出水面。
這本來是個中性的物理事實。但問題在於:AI並不"知道"這條界線的存在。它在每個時刻都得同時處理圖像的所有頻率,包括那些已經被噪點完全覆蓋、根本不含有用資訊的高頻部分。
---
二、被浪費的計算力:AI在"學習"毫無意義的東西
研究團隊為了證實這個猜測,做了一個直覺上簡單卻相當有說服力的實驗。他們訓練了一個小型AI模型,讓它在合成數據上充分學習,然後檢查這個模型在每個"時刻-頻率"組合上的表現:AI的預測比起"什麼都不做、直接輸出零"的最簡單基線,到底好多少?
結果呈現出一幅清晰的地圖,如同一個楔形區域。在低頻、以及訓練時刻靠近清晰圖像的區域,AI確實在做有價值的工作——它學到了數據的真實分布,能比"什麽也不預測"的方案強得多。但在高頻、以及時刻靠近噪點的區域,出現了兩種情況:要麼AI的預測退化成了一個固定的數學公式(因為噪點覆蓋了信號,AI只能機械地"去掉噪點",和數據本身無關);要麼AI的預測甚至不如最簡單的基線。換句話說,AI把大量計算資源花在了兩類沒有意義的事情上:一類是解一道固定方程,一類是連方程都沒解好。
更有說服力的是,研究團隊把同樣的檢驗方法用在了一個真實的、在ImageNet數據集(一個包含大量真實照片的標準測試集)上訓練的大型模型上,同樣清晰地發現了這個"楔形結構"——那些高頻、早期時刻的區域,AI的表現甚至不如零預測基線。浪費計算力的現象不只是理論預測,而是真實存在於實際模型中的。
---
三、頻譜強制:一把隨時間伸縮的"低通濾鏡"
既然問題已經找到,解決方案就順理成章了:能不能在每個訓練時刻,直接把那些被噪點覆蓋、毫無價值的高頻資訊隱藏掉,只讓AI看到真正有用的部分?
研究團隊的答案就是頻譜強制。它的工作原理可以用一個濾鏡來理解。在攝影中,低通濾鏡會讓圖像變得柔和,濾掉細碎的噪點和銳利邊緣,只保留整體顏色和輪廓。頻譜強制做的事情與此類似,但有兩個關鍵差異:第一,它基於數學上嚴格推導出的"有用信號界線"來設定濾鏡的截止點;第二,這個截止點會隨著訓練時刻動態變化——在靠近噪點的時刻,截止點很低,只讓極少量低頻資訊通過;隨著時刻向清晰圖像推進,截止點不斷擴大,允許越來越多的頻率進入,直到在最終時刻完全取消濾鏡,讓AI看到完整圖像。
技術上,這個濾鏡使用二維離散餘弦變換(2D-DCT)來實現——這是一種把圖像"分解"成不同頻率成分的數學工具,與JPEG圖片壓縮背後的技術同出一脈。具體流程是:在每個訓練步驟中,先把當前時刻的含噪圖像做DCT變換,然後用一個軟性的圓形遮罩把超出截止半徑的高頻係數乘以接近零的權重,最後做逆變換還原成圖像,再送入AI模型。整個操作不引入任何可學習的參數,計算量約為總訓練成本的0.5%,而且完全不改動訓練損失函數、採樣器、或任何其他組件。
截止點的變化曲線(即"調度方案")是另一個重要的設計選擇。研究團隊測試了多種方案:線性增長、平方增長、餘弦曲線增長,以及直接從理論公式推導出的"解析方案"。線性方案最簡單,就是截止點隨時間均勻擴大;解析方案則完全跟隨理論預測的信號界線移動。在實驗中,線性方案在ImageNet的標準設置下表現最好,而解析方案在更高解析度的場景中優勢明顯——這背後的原因研究團隊也給出了清晰的解釋,後文會詳述。
---
四、什麼情況下有效,什麼情況下會適得其反
頻譜強制不是萬能藥。研究團隊花了大量篇幅清晰界定了它的適用邊界,這種誠實是這項研究最值得稱道的地方之一。
核心結論可以用一句話概括:頻譜強制在兩個條件同時滿足時效果最好。第一,AI處理圖像的方式是"粗粒度分塊"(即把圖像切成較大的方塊作為輸入單元,導致模型本身就已經看不到太多高頻細節);第二,圖像的高頻內容主要是噪點而非有價值的信號。
為了驗證這兩個條件,研究團隊做了一系列精心設計的對照實驗,使用了三種合成數據集:一種是模擬自然圖像統計規律的"冪律"數據(高頻內容少,符合自然圖像規律);一種是包含大量清晰邊緣的"矩形"數據(高頻內容是真實的邊緣信號,至關重要);一種是混合了多種結構的"結構化"數據。
實驗結果非常清晰:在冪律數據上,頻譜強制顯著改善了AI的學習效果;在矩形數據上,頻譜強制反而傷害了模型——因為它隱藏的高頻內容正是矩形邊緣,是AI必須學習的關鍵信號;在結構化數據上,效果介於兩者之間,線性方案接近中性。
同樣,在分塊大小(patch size)的實驗中,當每張圖像被切成1024個小塊時(塊很小,每塊包含更多細節),頻譜強制的收益最高,改善幅度達到70%;當每張圖像只被切成16個大塊時(塊很大,每塊已經平均掉了大量細節),效果反而略微下降。這說明,當AI的輸入已經因為分塊方式而"看不到"高頻細節時,頻譜強制額外隱藏這些已經不存在的資訊意義不大;但當AI確實在處理高頻資訊時,顯式告訴它"現在這些頻率都是噪點,別浪費精力"就很有價值。
---
五、在真實數據集上的表現:數字會說話
理論和合成實驗已經很有說服力,但最終的檢驗還是得放到真實數據上。研究團隊選擇了ImageNet-256作為測試場景,使用的模型框架是"JiT"(Just-in-Time,一種由李天宏和何愷明提出的像素空間擴散模型架構)。
在最有代表性的配置下,即使用JiT-700M/32(7億參數規模,每張256×256的圖像被切成64個圖塊),僅訓練60個輪次,加入頻譜強制後,FID分數(一種衡量生成圖像質量的指標,數值越低越好)從24.19降到了20.68,提升幅度達14.5%;初始分數(Inception Score,衡量生成圖像多樣性和清晰度,越高越好)則從83.28提升到93.96,提升幅度約13%。這一對比是在完全相同的訓練配置下進行的,唯一的變量就是是否啟用頻譜強制。
更能說明問題的是訓練效率:加入頻譜強制後,訓練60個輪次就能達到原本需要約90個輪次才能達到的圖像質量,訓練120個輪次就能達到原本約145個輪次的水平。這意味著在實際使用中,可以節省約17%到33%的訓練時間,而硬體成本幾乎沒有增加。
在更大的訓練預算下,到120個輪次時,加入頻譜強制的模型FID達到15.15,不僅比同樣輪次的基線(16.46)強,還已經超過了此前發表的、使用類似架構訓練約145個輪次的參考結果。
在較小的模型(JiT-130M/32,同樣64個圖塊)上,頻譜強制在早期訓練階段(15個輪次時改善11.6%)優勢最明顯,隨著訓練深入,差距逐漸收窄,到200個輪次時仍保持約1.5%的優勢。這個模式說明,頻譜強制帶來的部分收益來自"更快入門"(數據效率),但也有一部分是穩定存在的長期改善。
當分塊數量增加到256個(即JiT-130M/16,使用較小的圖塊切割方式)時,頻譜強制的效果縮減到2.2%左右,基本在統計誤差範圍內。這完美對應了理論預測:更細的分塊讓AI本身就能看到更多高頻細節,此時頻譜強制的貢獻有限,但也不會造成傷害。
研究團隊還對比了多種可能的替代方案。恆定的低通濾鏡(不隨時間變化)反而比基線更差,因為它永久隱藏了某些頻率,導致AI永遠無法學習生成那些高頻細節;空間域的高斯模糊效果更差;在損失函數上做頻率加權(而非在輸入上做濾鏡)也明顯不如頻譜強制;此前提出的"模糊擴散"和"DCT空間擴散"等方法在同等條件下同樣不如頻譜強制。
---
六、線性方案為何在ImageNet上勝過理論最優方案?
研究團隊對這個看似反直覺的發現給出了詳細的解釋,讀來頗有啟發。
解析方案(即截止點完全跟隨理論推導的信號界線移動)在小解析度合成數據上比線性方案強2到3倍,但在ImageNet的256×256標準設置、64個圖塊的配置下反而輸給了線性方案。原因有三點:
首先,理論公式中使用的"冪律指數α"是對自然圖像整體頻率分布的一個全局擬合值,但真實圖像在極高頻率段的能量下降速度比全局擬合更快(因為相機傳感器噪點、抗混疊處理等因素),導致理論公式對高頻部分的處理過於激進,把本來還有一點用的頻率也隱藏掉了。
其次,在64個圖塊的配置下,圖像分塊本身就已經截斷了大量高頻資訊,解析方案的早期極度保守(截止點長時間停在最低值附近)會讓AI長時間看不到足夠多的有效資訊,影響梯度質量。
第三,解析方案中截止點的增長速度在訓練早期非常緩慢,導致大部分訓練時間內AI能看到的頻率範圍極其有限,學習效率受損。這三個問題在更高解析度(比如512×512)時都會得到緩解,所以在高解析度玩具實驗中解析方案反而更優。
研究團隊的結論是:理論框架提供了"截止點應該隨時間單調擴大、在終點達到全頻率"這一正確的定性形狀,但具體的函數形式在實際使用中需要根據解析度和分塊大小做經驗性調整。線性方案是一個在多種配置下都足夠穩健的默認選擇。
---
七、在文字生成圖片模型中的遷移表現
研究團隊進一步把頻譜強制插入了SenseNova-U1,一個"原生視覺-語言模型"(即不依賴獨立圖像編碼器、直接處理原始圖像像素塊的統一文本-圖像模型)。這類模型為了控制序列長度,通常也採用較粗的圖像分塊,正好落在頻譜強制的有效區間內。
在DPG-Bench(一個評測文字生成圖像綜合能力的基準測試)上,加入頻譜強制後整體分數從64.35提升到67.85,涵蓋的13個子類別中有9個獲得改善。提升最集中的子類別是"實體狀態"、"實體整體"、"計數"等需要捕捉整體語義結構的維度,而不是那些依賴高頻細節的類別——這與理論預測一致,因為這類語義資訊主要編碼在低頻成分中。
在GenEval(另一個文字生成圖像能力基準測試)上,總體分數從3.87%提升到4.56%(相對提升約18%),其中"單一物體"類別提升2.81個百分點(約19%),"顏色"類別提升1.33個百分點(約16%)。需要說明的是,這些測試是在模型訓練早期(10萬步)進行的,需要理解能力的複合構圖類別(如"兩個物體同框"、"計數"等)在這個階段兩個模型都還是零分,尚未發展出相關能力。
---
八、各項配置和細節對效果的影響
研究團隊還系統性地測試了若干設計參數的影響,為希望實際使用頻譜強制的人提供了充分的參考。
關於最低截止點cmin(控制濾鏡在訓練最初始時刻能通過多少頻率),研究發現該參數對效果的影響是單調的:cmin越大(濾鏡越寬鬆),效果越接近基線;cmin越小(濾鏡越嚴格),早期訓練越困難,但給AI創造的"迫使它專注低頻"的壓力也越大。默認值0.05在多種配置下表現穩健。
關於圖像解析度的影響,玩具實驗中把圖像尺寸從64×64擴大到512×512(同時保持圖塊數量固定為64),解析方案的相對優勢隨解析度增大而顯著增強:在64×64時基線最優,解析方案比基線差;在256×256時解析方案已經明顯領先基線約15%;在512×512時仍保持約3.3%的優勢。在真實ImageNet數據上,在512×512解析度下,原本在256×256時與基線持平的JiT-130M/32配置,加入頻譜強制後獲得了3.4%的FID改善。這說明更高解析度的訓練場景是頻譜強制更自然的主場。
關於訓練與推理的計算開銷,全文反覆確認:頻譜強制僅需一次前向和一次逆向2D-DCT變換,計算量約為基線的0.5%,無可學習參數,無額外內存占用。在推理階段,同樣在每個採樣步驟的圖像輸入上應用同樣的濾鏡,開銷同樣可以忽略不計。
---
歸根結底,這項研究的貢獻是把一個長期隱藏在AI訓練過程中的"結構性浪費"變得可見,並用最小代價將其修復。擴散模型在訓練時確實存在一個"有效工作區間"——在這個區間之外,模型要麼在機械地解固定方程,要麼在做比隨機猜測還差的事情。頻譜強制把這條邊界顯式化,用一個動態變化的濾鏡告訴模型"現在只有這些頻率是值得學習的",從而讓模型把有限的計算力集中在真正重要的地方。
對於普通用戶而言,這意味著未來使用類似技術訓練的圖像生成模型,在同等算力預算下可以更快收斂、生成質量更高;對於開發者而言,這是一個幾乎無代價即可接入現有訓練流程的改進,尤其對那些出於成本考慮不得不使用粗分塊方式的原生視覺-語言模型更有意義。
當然,頻譜強制不是所有場景的萬能解。如果你的數據本身就富含高頻關鍵資訊(比如醫學圖像中的細微病變),或者你的模型已經在用非常細的分塊方式處理圖像,頻譜強制的貢獻就會大幅縮水。研究團隊在這方面保持了相當清醒的自我評估,沒有把一個有條件適用的技術包裝成無限通用的突破——這種清醒本身就很值得學習。
如果你對這項研究感興趣,想看看背後完整的數學推導和更多實驗細節,可以通過arXiv編號2606.15236找到完整論文。
---
Q&A
Q1:頻譜強制(Spectral Forcing)需要修改擴散模型的訓練流程嗎?
A:頻譜強制不需要修改訓練的任何核心部分。它只是在圖像送入模型之前,加了一個基於當前訓練時刻動態調整截止頻率的低通濾鏡,損失函數、採樣器、模型架構、EMA權重全部保持原樣。計算量約增加0.5%,沒有任何新的可學習參數。
Q2:頻譜強制在所有圖像生成任務中都有效嗎?
A:不是所有場景都有效。頻譜強制在兩個條件同時滿足時效果最好:圖像被切成較少、較大的圖塊(比如64塊),以及圖像的高頻內容主要是噪點而非關鍵信號。當圖像本身富含高頻邊緣資訊(比如輪廓鮮明的幾何圖形),或者模型本身就採用細粒度分塊(比如256塊),效果會明顯減弱,甚至可能略微下降。
Q3:頻譜強制的線性調度方案為什麼比理論推導的解析方案在ImageNet標準設置下更好?
A:理論上解析方案應該最優,但在256×256解析度、64個圖塊的標準ImageNet配置下,解析方案對高頻內容的隱藏過於激進,且早期截止點增長太慢,導致模型長時間接收不到足夠豐富的訓練信號。線性方案增長更均勻,避免了這個問題。在更高解析度(512×512以上)的場景中,解析方案的優勢會重新顯現。






