西湖大學等機構聯合研究：AI畫圖終於學會了「先畫骨架再填細節」，圖像生成質量大幅躍升

這項由上海創新研究院、西湖大學、浙江大學、復旦大學、京東及中國科學院大學聯合完成的研究，於2026年5月以預印本形式發布，論文編號為arXiv:2605.26089，感興趣的讀者可通過該編號查詢完整論文。

贊助商廣告

一位畫家在描繪一隻蘋果時，通常不會從左上角的某個像素點開始一格一格往右畫，而是先勾勒出蘋果的整體圓形輪廓和大致的紅色調，接著描繪出蘋果柄和表面的紋理，最後才點上那幾粒細小的黃色斑點。這種從整體到局部、從粗糙到精細的創作方式，是人類繪畫的自然直覺。

然而，目前絕大多數人工智慧圖像生成系統的工作方式與此完全相反。它們習慣於將一張圖片切割成成千上萬個小方塊，然後像拼接地磚一樣，從左到右、從上到下，一塊一塊地生成。這種"掃地機器人式"的生成方式，就好像讓一個畫家用格尺把畫布分成256個小方格，然後規定他必須嚴格按照從第一格到第二百五十六格的順序填色，既不允許跳躍，也不允許回頭修改。

這種做法帶來了兩個長期困擾研究者的根本性問題。來自上述多所機構的研究團隊提出了一套全新的解決方案，他們將其稱為"通道化向量量化"（CVQ）和"通道化自回歸生成"（CAR）。簡單來說，他們讓AI不再按空間位置畫圖，而是按"視覺資訊層次"畫圖——先畫出決定整體色調和形狀的那一層，再逐步疊加決定紋理和細節的那一層，正如專業畫家的工作方式。

一、AI圖像生成的兩塊"絆腳石"

要理解這項研究解決了什麼問題，先要了解現有AI圖像系統是怎麼運作的，以及它們卡在了哪裡。

現有的AI圖像生成系統，在生成圖片之前，通常需要先把圖片"壓縮編碼"成一串數字代碼，就像把一首歌曲壓縮成MP3文件一樣。這個壓縮編碼的過程，專業上叫做"向量量化"。具體來說，系統會有一本"碼書"，裡面記錄著幾千到幾萬個"標準圖案塊"，每當系統遇到一小塊圖像區域，就在碼書里找一個最相似的標準塊來替代，記下對應的編號。這樣，一張圖片就變成了一串數字編號，後續的AI生成器只需要預測這串編號的順序，就能"畫出"圖片。

贊助商廣告

第一個絆腳石叫做"碼書崩潰"。碼書里明明有16384個標準塊，但實際上，系統訓練完之後，可能只有幾百個標準塊會被頻繁使用，其餘99%都形同虛設。這就好比一家擁有1萬6千種食材的餐廳，廚師每天只用那200種最常見的食材做菜，其餘的全在倉庫里慢慢腐爛。碼書利用率這麼低，導致圖片的細節資訊大量丟失，重建出來的圖片模糊失真。

研究團隊通過仔細分析找到了原因：相鄰的圖像小方塊之間存在大量重複和相似性。打個比方，一張草地照片裡，密密麻麻的草葉圖案幾乎是重複的，這導致大量的小方塊編碼都指向了碼書里的同一個標準塊，其他標準塊自然無人問津，久而久之就被"餓死"了。

第二個絆腳石叫做"空間順序錯配"。大語言模型（就是ChatGPT那類系統）之所以能生成流暢的文章，是因為語言本身就是天然的一維序列——字和字之間有自然的前後邏輯，"今天天氣很好"這句話里，每個字都依賴前面的字。但圖像是二維的，它沒有天然的"從哪裡開始讀"的方向。現有系統強行把二維圖像拼成一維序列（比如從左上角到右下角逐行掃描），就好像把一張地圖裁成細長條首尾相接——方塊們被迫排成一隊，但它們之間原本的空間關係已經被徹底打亂了。在這種扭曲的順序下訓練AI，效果自然大打折扣。

二、換個角度切圖：通道化向量量化的核心思路

解決問題的關鍵在於一個看似簡單的想法：不再按"位置"切圖，改為按"通道"切圖。

要理解這個概念，先要明白"通道"是什麼。當一張圖片被神經網路編碼之後，它會變成一個三維數據塊，可以把它想成一疊透明膠片。每一張膠片對應一個"通道"，記錄著圖像某一種特定的視覺資訊。早期的通道記錄的是圖像的大致形狀和主要顏色，後期的通道記錄的是細微紋理和精細結構。把所有膠片疊在一起，就還原出完整的圖像。

研究團隊對神經網路的編碼器做了一個實驗：他們把一張樹葉圖片編碼後，單獨"抹掉"某一個通道，然後觀察圖片如何變化。結果發現，抹掉某個特定通道後，圖片中葉片的顏色全部消失了；抹掉另一個通道，葉柄不見了；抹掉第三個通道，表面紋理模糊了。這說明不同的通道確實各司其職，分別掌管不同層次的視覺資訊。

贊助商廣告

傳統的做法是把這疊膠片豎著切——每次取一個位置點（比如坐標(3,5)處）上所有膠片疊加的那一小列，作為一個編碼單位。CVQ的做法是橫著切——每次取完整的一張膠片，也就是整個通道，作為一個編碼單位。

這一橫一豎的區別，解決了前面說的兩個問題。對於碼書崩潰問題：一張膠片（通道）代表的是整張圖在某個維度上的全局資訊，不同圖片的同一個通道往往差異很大——比如一張蘋果圖和一張貓咪圖，它們的"顏色分布通道"就截然不同——因此不同圖片會用到碼書中不同的標準塊，碼書利用率自然大幅提升。對於順序問題：通道本身就是按資訊層次自然排列的，從粗到細，這種順序對AI學習來說是有意義的，不需要強行扭曲。

具體的技術實現上，CVQ讓碼書里的每一個標準塊都不再是一個小方塊，而是一整張"通道膠片"，尺寸為h×w×1（高×寬×1層）。量化時，系統找到與當前通道最相似的標準膠片，記下對應的編號。256個通道就得到256個編號，一張圖片就被編碼為256個數字的序列。

實驗結果證實了這個想法的有效性。研究團隊用t-SNE可視化工具（一種把高維數據投影到二維平面、方便肉眼觀察的技術）對比了兩種方法的編碼分布：按位置切的小方塊編碼，來自兩張不同圖片的編碼點在圖上混雜交織，難以區分；而按通道切的膠片編碼，來自兩張不同圖片的編碼點則明顯分成兩團，界限清晰。更直觀的是碼書利用率的對比：傳統方法訓練到後期，碼書里真正被用到的標準塊越來越少，最終萎縮成一小片；CVQ從頭到尾都保持著近乎100%的碼書利用率，幾乎每一個標準塊都在發揮作用。

三、訓練細節：讓通道學會"先畫重要的"

通道本身並沒有固定的先後順序——神經網路隨機初始化時，第1個通道記錄什麼、第128個通道記錄什麼，都是偶然的。為了讓AI學會"先畫整體再畫細節"，研究團隊引入了一個叫做"嵌套通道丟棄"的訓練技巧。

贊助商廣告

這個技巧的思路類似於訓練一個演講者做"即興演講"。假設你要演講5分鐘，教練隨機打斷你說"好，現在只剩1分鐘了"，你必須立刻調整，把最重要的內容說完。久而久之，你自然會把最核心的內容放在前面說。嵌套通道丟棄也是這樣：訓練時，系統隨機決定"只保留前k個通道"，迫使解碼器僅憑前k個通道就重建出儘量好的圖片。這樣訓練下來，神經網路為了減少損失，會自然地把最重要的全局資訊壓縮進前幾個通道，把細節資訊留給後面的通道。

訓練時還有一個小挑戰：當只保留很少的通道時，圖片資訊極為稀疏，傳統的對抗損失（用來提升圖片真實感的一種訓練方式）會不穩定，產生奇怪的偽像。研究團隊為此設計了一個自適應權重函數：保留通道數很少時，對抗損失的權重接近於零；隨著保留通道數增加，權重平滑上升至正常水平。這種漸進式的訓練策略保證了穩定收斂。

實驗表明，嵌套通道丟棄對重建質量幾乎沒有負面影響（重建FID、SSIM、PSNR指標基本持平），但對生成質量有顯著的提升效果：在GenEval評分上提升了0.12分，在DPG評分上提升了9.38分。這說明引入有意義的通道順序，能大幅幫助AI更好地完成從文字描述到圖像生成的任務。

四、從重建質量看CVQ的實力

研究團隊在ImageNet-1K數據集（一個包含100萬張圖片、1000個類別的標準圖像數據集）上對CVQ進行了系統評測，對比了多種現有的向量量化方法。評測指標包括重建FID（越低越好，衡量生成圖像與真實圖像的整體差異）、SSIM（越高越好，衡量圖像結構相似性）和PSNR（越高越好，衡量像素級重建精度）。

在"256個編碼"的設置下，傳統的VQGAN方法碼書利用率僅有4.5%，重建FID為4.84。CVQ在同等碼書大小（16384個標準塊）下，碼書利用率達到100%，重建FID降至2.60，SSIM提升至0.565，PSNR達到20.94。與需要藉助預訓練CLIP模型初始化碼書的VQGAN-LC方法（FID為3.01）和需要引入額外可學習基底的SimVQ方法（FID為2.63）相比，CVQ不需要任何額外模組或複雜初始化，就能達到同等甚至更好的效果。

贊助商廣告

在"1024個編碼"的更高精度設置下，CVQ的優勢更為突出。傳統VQGAN在這個設置下碼書利用率僅剩2.8%，重建FID為1.32。CVQ同樣保持100%利用率，重建FID大幅降至0.88，PSNR飆升至25.02 dB，遠超曾被視為該領域標杆的MoVQ方法（FID為1.05）和VQGAN-LC方法（FID為1.29）。

碼書規模擴展實驗更能說明CVQ的優勢。隨著碼書大小從1024增加到65536，傳統VQ的碼書利用率從20.3%驟降到1.1%，重建質量幾乎停滯不前。CVQ則在65536大小的碼書下仍保持96.1%的高利用率，重建FID從3.64降至2.32，相比同等條件的傳統VQ實現了52%的提升幅度。這說明CVQ有能力充分利用更大的碼書來承載更豐富的視覺資訊，具備良好的規模擴展性。

五、通道的漸進式重建：視覺層次的量化證明

研究團隊還做了一組直觀實驗：依次只使用前32、64、96、128……直至256個通道來重建圖片，觀察重建質量如何變化。

結果呈現出清晰的"先粗後細"規律。僅用前32個通道時，重建FID高達30.24，PSNR僅16.96——圖片只有模糊的大致輪廓和主色調。隨著通道增加，圖像質量急劇改善：64個通道時FID降至11.84，128個通道時降至4.05，此時圖片的主體對象和基本結構已經清晰可辨。從128通道到256通道，FID的改善速度明顯放緩（從4.05降至2.63），但SSIM和PSNR仍在穩步上升，說明後期通道主要負責補充精細紋理和局部細節，而非重塑整體結構。

這組數據從定量角度證實了CVQ的核心設計理念：通道序列確實編碼了從全局到局部、從粗到細的視覺資訊層次。

六、通道化自回歸生成：CAR系統的工作方式

有了CVQ這套"通道化編碼"體系，研究團隊進一步構建了完整的圖像生成系統CAR（通道化自回歸生成）。

CAR的工作邏輯與大語言模型生成文章的邏輯完全相同，只是把"預測下一個詞"改成了"預測下一個通道"。系統接收文字描述（比如"一張蘋果的照片"），然後依次生成第1個通道的編號、第2個通道的編號……直到第256個通道的編號，最後由解碼器把這256個通道的編號還原成完整的圖片。

贊助商廣告

CAR建立在預訓練的Qwen3語言模型（一個來自阿里雲的強大開源大模型）基礎上，分別使用了4B參數量和8B參數量的版本。訓練分兩個階段進行：第一階段只訓練一個中間連接層（MLP投影器），讓語言模型能夠理解通道編碼的格式，此階段語言模型本體保持凍結不動；第二階段則對所有參數進行端到端的全面優化。整個訓練過程使用了約8000萬張文圖對，數據來源涵蓋ImageNet-21K、LAION-Aesthetics-12M、CC12M等公開數據集以及一個內部精選數據集。

七、文生圖性能對比：在強手如雲中脫穎而出

研究團隊在兩個標準評測基準上測試了CAR的文生圖能力：GenEval評分（衡量生成圖片與文字描述的語義吻合度，滿分1.0）和DPG評分（衡量對複雜描述的遵循程度，滿分100）。

在同類型的單向自回歸生成方法中（即與CAR採用相同的"從左到右逐步預測"範式），CAR的表現相當亮眼。4B參數量的CAR在GenEval上得到0.75分，DPG總體得分83.82分，已經超越了參數量更大的NextStep-1（14B參數，DPG為85.28分的方法，該方法用了連續token）和Emu3（8B參數，GenEval僅0.66分）。進一步擴展到8B參數量後，CAR在GenEval上達到0.79分，DPG總體得分升至86.72分，細分項目中兩個物體識別得分高達0.92，位置關係得分0.66，顏色屬性得分0.66。

與那些使用"雙向注意力"或混合策略的方法（如VAR家族的Infinity和InfinityStar）相比，CAR也毫不遜色。這兩類方法在技術上更為複雜，允許模型在生成時"前後參照"，而CAR始終保持最簡潔的單向預測範式。在MJHQ-30K數據集上，CAR的FID分數為6.42，優於多個同類方法。

值得一提的是，在GenEval的細分評分中，"兩個物體同時存在"這一項CAR 8B得到了0.92的高分，"位置關係"得到0.66，這兩項恰恰是語言與視覺對齊中最具挑戰性的部分，說明CVQ的通道化表示對語義理解有一定的促進作用。

八、與其他1D代詞化方法的比較

與CVQ目標相近的，還有一批也致力於將圖像壓縮為一維序列的研究工作，比如TiTok、SpectralAR、FlexTok等。這些方法通常通過引入額外的"可學習查詢"模組（讓神經網路學會把圖像特徵匯聚成一維序列）或使用擴散模型作為解碼器來實現一維化。

贊助商廣告

CVQ與它們的根本區別在於：CVQ的一維結構來自量化過程本身，不需要任何額外的架構模組。這就像同樣是把一捆柴火裝進一根管子，有人專門設計了一個壓縮機來強行塞進去，而CVQ是選了一種天然就適合管狀排列的柴火。

在標準VQGAN訓練配置下，CVQ（重建FID 2.60）明顯優於同等配置的TiTok-256（重建FID 3.84）。在更強的TA-TiTok訓練配置下，CVQ（重建FID 1.29）依然優於TiTok-256（重建FID 1.51），SSIM和PSNR也更高。FlexTok雖然能達到1.45的FID，但它使用了擴散模型作為解碼器，引入了額外的生成模型作為重建依賴，系統複雜度更高。

九、可變解析度擴展：CVQ的進一步潛力

研究團隊還展示了CVQ擴展到不同解析度的可行性。基礎實驗固定在256×256解析度，但通過在量化前後加入輕量級的"重採樣模組"（用可學習的查詢向量來處理任意尺寸的特徵圖），CVQ可以在保持通道數固定的情況下，處理512×512乃至1024×1024的輸入。

對於傳統的空間方塊量化方法，解析度翻倍意味著token數量變為四倍（256→1024→4096），計算量隨之急劇膨脹。CVQ則不同：無論解析度如何變化，生成階段的序列長度始終是256個通道token，推理成本幾乎不隨解析度增加。更高的解析度只是讓每個通道token所攜帶的空間細節更豐富，而非增加token的數量。

實驗數據顯示，CVQ在512解析度下的重建FID為0.96，仍遠低於同條件下傳統VQ的2.05。在分配相同token數量（1024個）的情況下，CVQ在512解析度下達到FID 0.96、PSNR 24.55，同等條件傳統VQ僅能達到FID 2.05、PSNR 22.01。

說到底，CVQ和CAR這套方案的本質貢獻，是重新思考了一個看似基礎卻影響深遠的問題：一張圖片應該被分成怎樣的"最小單位"來處理。從"空間小方塊"到"資訊通道層"，這一改變既符合人類感知圖像的直覺（我們確實會先看整體再看細節），也意外地解決了困擾向量量化領域多年的碼書崩潰難題，還順帶讓圖像自回歸生成獲得了一個自然而然的一維序列結構。

贊助商廣告

這項研究最有趣的地方或許在於：最簡單的改變，往往解決最頑固的問題。研究團隊沒有堆砌複雜模組，沒有引入額外參數，只是換了個切圖的角度，就讓整個系統從碼書利用率到最終生成質量都得到了全面提升。後續研究可以考慮將CVQ與SimVQ、IBQ等其他量化改進方法結合，進一步挖掘通道化表示的潛力；也可以將通道化思路延伸到影片領域，因為影片在時間維度上同樣存在類似的資訊層次結構。對於感興趣的讀者，完整的技術細節和實驗數據可通過論文編號arXiv:2605.26089查閱原文。

Q&A

Q1：CVQ中"通道"和傳統的RGB通道是一回事嗎？

A：不完全一樣。RGB通道是圖像本身的紅綠藍三個顏色分量，只有3個。CVQ中的"通道"指的是神經網路編碼器處理圖像後產生的特徵圖通道，通常有256個，每個通道捕捉圖像某一層次的視覺資訊，比如整體色調、邊緣輪廓或細微紋理，與RGB的概念不同。

Q2：CVQ碼書利用率為什麼能達到100%？

A：因為CVQ按通道而非按空間位置切分圖像。不同圖片的同一個通道（比如"顏色分布層"）差異很大，蘋果圖和貓咪圖的這一層截然不同，所以不同圖片會對應碼書中不同的標準塊。傳統方法中大量相鄰小方塊紋理相似，都搶著用同一個標準塊，導致其他標準塊閒置。CVQ從根源上分散了這種"扎堆"現象。

Q3：CAR生成圖片比傳統方法慢還是快？

A：在標準解析度下速度相當，但在高解析度場景下CAR有明顯優勢。傳統方法生成1024×1024的圖片需要處理4096個token，而CAR始終只處理256個通道token，推理成本幾乎不隨解析度增加，適合高解析度圖像生成的應用場景。