宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

西湖大學等機構聯合研究:AI畫圖終於學會了「先畫骨架再填細節」,圖像生成質量大幅躍升

2026年06月01日 首頁 » 熱門科技

這項由上海創新研究院、西湖大學、浙江大學、復旦大學、京東及中國科學院大學聯合完成的研究,於2026年5月以預印本形式發布,論文編號為arXiv:2605.26089,感興趣的讀者可通過該編號查詢完整論文。

一位畫家在描繪一隻蘋果時,通常不會從左上角的某個像素點開始一格一格往右畫,而是先勾勒出蘋果的整體圓形輪廓和大致的紅色調,接著描繪出蘋果柄和表面的紋理,最後才點上那幾粒細小的黃色斑點。這種從整體到局部、從粗糙到精細的創作方式,是人類繪畫的自然直覺。

然而,目前絕大多數人工智慧圖像生成系統的工作方式與此完全相反。它們習慣於將一張圖片切割成成千上萬個小方塊,然後像拼接地磚一樣,從左到右、從上到下,一塊一塊地生成。這種"掃地機器人式"的生成方式,就好像讓一個畫家用格尺把畫布分成256個小方格,然後規定他必須嚴格按照從第一格到第二百五十六格的順序填色,既不允許跳躍,也不允許回頭修改。

這種做法帶來了兩個長期困擾研究者的根本性問題。來自上述多所機構的研究團隊提出了一套全新的解決方案,他們將其稱為"通道化向量量化"(CVQ)和"通道化自回歸生成"(CAR)。簡單來說,他們讓AI不再按空間位置畫圖,而是按"視覺資訊層次"畫圖——先畫出決定整體色調和形狀的那一層,再逐步疊加決定紋理和細節的那一層,正如專業畫家的工作方式。

一、AI圖像生成的兩塊"絆腳石"

要理解這項研究解決了什麼問題,先要了解現有AI圖像系統是怎麼運作的,以及它們卡在了哪裡。

現有的AI圖像生成系統,在生成圖片之前,通常需要先把圖片"壓縮編碼"成一串數字代碼,就像把一首歌曲壓縮成MP3文件一樣。這個壓縮編碼的過程,專業上叫做"向量量化"。具體來說,系統會有一本"碼書",裡面記錄著幾千到幾萬個"標準圖案塊",每當系統遇到一小塊圖像區域,就在碼書里找一個最相似的標準塊來替代,記下對應的編號。這樣,一張圖片就變成了一串數字編號,後續的AI生成器只需要預測這串編號的順序,就能"畫出"圖片。

第一個絆腳石叫做"碼書崩潰"。碼書里明明有16384個標準塊,但實際上,系統訓練完之後,可能只有幾百個標準塊會被頻繁使用,其餘99%都形同虛設。這就好比一家擁有1萬6千種食材的餐廳,廚師每天只用那200種最常見的食材做菜,其餘的全在倉庫里慢慢腐爛。碼書利用率這麼低,導致圖片的細節資訊大量丟失,重建出來的圖片模糊失真。

研究團隊通過仔細分析找到了原因:相鄰的圖像小方塊之間存在大量重複和相似性。打個比方,一張草地照片裡,密密麻麻的草葉圖案幾乎是重複的,這導致大量的小方塊編碼都指向了碼書里的同一個標準塊,其他標準塊自然無人問津,久而久之就被"餓死"了。

第二個絆腳石叫做"空間順序錯配"。大語言模型(就是ChatGPT那類系統)之所以能生成流暢的文章,是因為語言本身就是天然的一維序列——字和字之間有自然的前後邏輯,"今天天氣很好"這句話里,每個字都依賴前面的字。但圖像是二維的,它沒有天然的"從哪裡開始讀"的方向。現有系統強行把二維圖像拼成一維序列(比如從左上角到右下角逐行掃描),就好像把一張地圖裁成細長條首尾相接——方塊們被迫排成一隊,但它們之間原本的空間關係已經被徹底打亂了。在這種扭曲的順序下訓練AI,效果自然大打折扣。

二、換個角度切圖:通道化向量量化的核心思路

解決問題的關鍵在於一個看似簡單的想法:不再按"位置"切圖,改為按"通道"切圖。

要理解這個概念,先要明白"通道"是什麼。當一張圖片被神經網路編碼之後,它會變成一個三維數據塊,可以把它想成一疊透明膠片。每一張膠片對應一個"通道",記錄著圖像某一種特定的視覺資訊。早期的通道記錄的是圖像的大致形狀和主要顏色,後期的通道記錄的是細微紋理和精細結構。把所有膠片疊在一起,就還原出完整的圖像。

研究團隊對神經網路的編碼器做了一個實驗:他們把一張樹葉圖片編碼後,單獨"抹掉"某一個通道,然後觀察圖片如何變化。結果發現,抹掉某個特定通道後,圖片中葉片的顏色全部消失了;抹掉另一個通道,葉柄不見了;抹掉第三個通道,表面紋理模糊了。這說明不同的通道確實各司其職,分別掌管不同層次的視覺資訊。

傳統的做法是把這疊膠片豎著切——每次取一個位置點(比如坐標(3,5)處)上所有膠片疊加的那一小列,作為一個編碼單位。CVQ的做法是橫著切——每次取完整的一張膠片,也就是整個通道,作為一個編碼單位。

這一橫一豎的區別,解決了前面說的兩個問題。對於碼書崩潰問題:一張膠片(通道)代表的是整張圖在某個維度上的全局資訊,不同圖片的同一個通道往往差異很大——比如一張蘋果圖和一張貓咪圖,它們的"顏色分布通道"就截然不同——因此不同圖片會用到碼書中不同的標準塊,碼書利用率自然大幅提升。對於順序問題:通道本身就是按資訊層次自然排列的,從粗到細,這種順序對AI學習來說是有意義的,不需要強行扭曲。

具體的技術實現上,CVQ讓碼書里的每一個標準塊都不再是一個小方塊,而是一整張"通道膠片",尺寸為h×w×1(高×寬×1層)。量化時,系統找到與當前通道最相似的標準膠片,記下對應的編號。256個通道就得到256個編號,一張圖片就被編碼為256個數字的序列。

實驗結果證實了這個想法的有效性。研究團隊用t-SNE可視化工具(一種把高維數據投影到二維平面、方便肉眼觀察的技術)對比了兩種方法的編碼分布:按位置切的小方塊編碼,來自兩張不同圖片的編碼點在圖上混雜交織,難以區分;而按通道切的膠片編碼,來自兩張不同圖片的編碼點則明顯分成兩團,界限清晰。更直觀的是碼書利用率的對比:傳統方法訓練到後期,碼書里真正被用到的標準塊越來越少,最終萎縮成一小片;CVQ從頭到尾都保持著近乎100%的碼書利用率,幾乎每一個標準塊都在發揮作用。

三、訓練細節:讓通道學會"先畫重要的"

通道本身並沒有固定的先後順序——神經網路隨機初始化時,第1個通道記錄什麼、第128個通道記錄什麼,都是偶然的。為了讓AI學會"先畫整體再畫細節",研究團隊引入了一個叫做"嵌套通道丟棄"的訓練技巧。

這個技巧的思路類似於訓練一個演講者做"即興演講"。假設你要演講5分鐘,教練隨機打斷你說"好,現在只剩1分鐘了",你必須立刻調整,把最重要的內容說完。久而久之,你自然會把最核心的內容放在前面說。嵌套通道丟棄也是這樣:訓練時,系統隨機決定"只保留前k個通道",迫使解碼器僅憑前k個通道就重建出儘量好的圖片。這樣訓練下來,神經網路為了減少損失,會自然地把最重要的全局資訊壓縮進前幾個通道,把細節資訊留給後面的通道。

訓練時還有一個小挑戰:當只保留很少的通道時,圖片資訊極為稀疏,傳統的對抗損失(用來提升圖片真實感的一種訓練方式)會不穩定,產生奇怪的偽像。研究團隊為此設計了一個自適應權重函數:保留通道數很少時,對抗損失的權重接近於零;隨著保留通道數增加,權重平滑上升至正常水平。這種漸進式的訓練策略保證了穩定收斂。

實驗表明,嵌套通道丟棄對重建質量幾乎沒有負面影響(重建FID、SSIM、PSNR指標基本持平),但對生成質量有顯著的提升效果:在GenEval評分上提升了0.12分,在DPG評分上提升了9.38分。這說明引入有意義的通道順序,能大幅幫助AI更好地完成從文字描述到圖像生成的任務。

四、從重建質量看CVQ的實力

研究團隊在ImageNet-1K數據集(一個包含100萬張圖片、1000個類別的標準圖像數據集)上對CVQ進行了系統評測,對比了多種現有的向量量化方法。評測指標包括重建FID(越低越好,衡量生成圖像與真實圖像的整體差異)、SSIM(越高越好,衡量圖像結構相似性)和PSNR(越高越好,衡量像素級重建精度)。

在"256個編碼"的設置下,傳統的VQGAN方法碼書利用率僅有4.5%,重建FID為4.84。CVQ在同等碼書大小(16384個標準塊)下,碼書利用率達到100%,重建FID降至2.60,SSIM提升至0.565,PSNR達到20.94。與需要藉助預訓練CLIP模型初始化碼書的VQGAN-LC方法(FID為3.01)和需要引入額外可學習基底的SimVQ方法(FID為2.63)相比,CVQ不需要任何額外模組或複雜初始化,就能達到同等甚至更好的效果。

在"1024個編碼"的更高精度設置下,CVQ的優勢更為突出。傳統VQGAN在這個設置下碼書利用率僅剩2.8%,重建FID為1.32。CVQ同樣保持100%利用率,重建FID大幅降至0.88,PSNR飆升至25.02 dB,遠超曾被視為該領域標杆的MoVQ方法(FID為1.05)和VQGAN-LC方法(FID為1.29)。

碼書規模擴展實驗更能說明CVQ的優勢。隨著碼書大小從1024增加到65536,傳統VQ的碼書利用率從20.3%驟降到1.1%,重建質量幾乎停滯不前。CVQ則在65536大小的碼書下仍保持96.1%的高利用率,重建FID從3.64降至2.32,相比同等條件的傳統VQ實現了52%的提升幅度。這說明CVQ有能力充分利用更大的碼書來承載更豐富的視覺資訊,具備良好的規模擴展性。

五、通道的漸進式重建:視覺層次的量化證明

研究團隊還做了一組直觀實驗:依次只使用前32、64、96、128……直至256個通道來重建圖片,觀察重建質量如何變化。

結果呈現出清晰的"先粗後細"規律。僅用前32個通道時,重建FID高達30.24,PSNR僅16.96——圖片只有模糊的大致輪廓和主色調。隨著通道增加,圖像質量急劇改善:64個通道時FID降至11.84,128個通道時降至4.05,此時圖片的主體對象和基本結構已經清晰可辨。從128通道到256通道,FID的改善速度明顯放緩(從4.05降至2.63),但SSIM和PSNR仍在穩步上升,說明後期通道主要負責補充精細紋理和局部細節,而非重塑整體結構。

這組數據從定量角度證實了CVQ的核心設計理念:通道序列確實編碼了從全局到局部、從粗到細的視覺資訊層次。

六、通道化自回歸生成:CAR系統的工作方式

有了CVQ這套"通道化編碼"體系,研究團隊進一步構建了完整的圖像生成系統CAR(通道化自回歸生成)。

CAR的工作邏輯與大語言模型生成文章的邏輯完全相同,只是把"預測下一個詞"改成了"預測下一個通道"。系統接收文字描述(比如"一張蘋果的照片"),然後依次生成第1個通道的編號、第2個通道的編號……直到第256個通道的編號,最後由解碼器把這256個通道的編號還原成完整的圖片。

CAR建立在預訓練的Qwen3語言模型(一個來自阿里雲的強大開源大模型)基礎上,分別使用了4B參數量和8B參數量的版本。訓練分兩個階段進行:第一階段只訓練一個中間連接層(MLP投影器),讓語言模型能夠理解通道編碼的格式,此階段語言模型本體保持凍結不動;第二階段則對所有參數進行端到端的全面優化。整個訓練過程使用了約8000萬張文圖對,數據來源涵蓋ImageNet-21K、LAION-Aesthetics-12M、CC12M等公開數據集以及一個內部精選數據集。

七、文生圖性能對比:在強手如雲中脫穎而出

研究團隊在兩個標準評測基準上測試了CAR的文生圖能力:GenEval評分(衡量生成圖片與文字描述的語義吻合度,滿分1.0)和DPG評分(衡量對複雜描述的遵循程度,滿分100)。

在同類型的單向自回歸生成方法中(即與CAR採用相同的"從左到右逐步預測"範式),CAR的表現相當亮眼。4B參數量的CAR在GenEval上得到0.75分,DPG總體得分83.82分,已經超越了參數量更大的NextStep-1(14B參數,DPG為85.28分的方法,該方法用了連續token)和Emu3(8B參數,GenEval僅0.66分)。進一步擴展到8B參數量後,CAR在GenEval上達到0.79分,DPG總體得分升至86.72分,細分項目中兩個物體識別得分高達0.92,位置關係得分0.66,顏色屬性得分0.66。

與那些使用"雙向注意力"或混合策略的方法(如VAR家族的Infinity和InfinityStar)相比,CAR也毫不遜色。這兩類方法在技術上更為複雜,允許模型在生成時"前後參照",而CAR始終保持最簡潔的單向預測範式。在MJHQ-30K數據集上,CAR的FID分數為6.42,優於多個同類方法。

值得一提的是,在GenEval的細分評分中,"兩個物體同時存在"這一項CAR 8B得到了0.92的高分,"位置關係"得到0.66,這兩項恰恰是語言與視覺對齊中最具挑戰性的部分,說明CVQ的通道化表示對語義理解有一定的促進作用。

八、與其他1D代詞化方法的比較

與CVQ目標相近的,還有一批也致力於將圖像壓縮為一維序列的研究工作,比如TiTok、SpectralAR、FlexTok等。這些方法通常通過引入額外的"可學習查詢"模組(讓神經網路學會把圖像特徵匯聚成一維序列)或使用擴散模型作為解碼器來實現一維化。

CVQ與它們的根本區別在於:CVQ的一維結構來自量化過程本身,不需要任何額外的架構模組。這就像同樣是把一捆柴火裝進一根管子,有人專門設計了一個壓縮機來強行塞進去,而CVQ是選了一種天然就適合管狀排列的柴火。

在標準VQGAN訓練配置下,CVQ(重建FID 2.60)明顯優於同等配置的TiTok-256(重建FID 3.84)。在更強的TA-TiTok訓練配置下,CVQ(重建FID 1.29)依然優於TiTok-256(重建FID 1.51),SSIM和PSNR也更高。FlexTok雖然能達到1.45的FID,但它使用了擴散模型作為解碼器,引入了額外的生成模型作為重建依賴,系統複雜度更高。

九、可變解析度擴展:CVQ的進一步潛力

研究團隊還展示了CVQ擴展到不同解析度的可行性。基礎實驗固定在256×256解析度,但通過在量化前後加入輕量級的"重採樣模組"(用可學習的查詢向量來處理任意尺寸的特徵圖),CVQ可以在保持通道數固定的情況下,處理512×512乃至1024×1024的輸入。

對於傳統的空間方塊量化方法,解析度翻倍意味著token數量變為四倍(256→1024→4096),計算量隨之急劇膨脹。CVQ則不同:無論解析度如何變化,生成階段的序列長度始終是256個通道token,推理成本幾乎不隨解析度增加。更高的解析度只是讓每個通道token所攜帶的空間細節更豐富,而非增加token的數量。

實驗數據顯示,CVQ在512解析度下的重建FID為0.96,仍遠低於同條件下傳統VQ的2.05。在分配相同token數量(1024個)的情況下,CVQ在512解析度下達到FID 0.96、PSNR 24.55,同等條件傳統VQ僅能達到FID 2.05、PSNR 22.01。

說到底,CVQ和CAR這套方案的本質貢獻,是重新思考了一個看似基礎卻影響深遠的問題:一張圖片應該被分成怎樣的"最小單位"來處理。從"空間小方塊"到"資訊通道層",這一改變既符合人類感知圖像的直覺(我們確實會先看整體再看細節),也意外地解決了困擾向量量化領域多年的碼書崩潰難題,還順帶讓圖像自回歸生成獲得了一個自然而然的一維序列結構。

這項研究最有趣的地方或許在於:最簡單的改變,往往解決最頑固的問題。研究團隊沒有堆砌複雜模組,沒有引入額外參數,只是換了個切圖的角度,就讓整個系統從碼書利用率到最終生成質量都得到了全面提升。後續研究可以考慮將CVQ與SimVQ、IBQ等其他量化改進方法結合,進一步挖掘通道化表示的潛力;也可以將通道化思路延伸到影片領域,因為影片在時間維度上同樣存在類似的資訊層次結構。對於感興趣的讀者,完整的技術細節和實驗數據可通過論文編號arXiv:2605.26089查閱原文。

Q&A

Q1:CVQ中"通道"和傳統的RGB通道是一回事嗎?

A:不完全一樣。RGB通道是圖像本身的紅綠藍三個顏色分量,只有3個。CVQ中的"通道"指的是神經網路編碼器處理圖像後產生的特徵圖通道,通常有256個,每個通道捕捉圖像某一層次的視覺資訊,比如整體色調、邊緣輪廓或細微紋理,與RGB的概念不同。

Q2:CVQ碼書利用率為什麼能達到100%?

A:因為CVQ按通道而非按空間位置切分圖像。不同圖片的同一個通道(比如"顏色分布層")差異很大,蘋果圖和貓咪圖的這一層截然不同,所以不同圖片會對應碼書中不同的標準塊。傳統方法中大量相鄰小方塊紋理相似,都搶著用同一個標準塊,導致其他標準塊閒置。CVQ從根源上分散了這種"扎堆"現象。

Q3:CAR生成圖片比傳統方法慢還是快?

A:在標準解析度下速度相當,但在高解析度場景下CAR有明顯優勢。傳統方法生成1024×1024的圖片需要處理4096個token,而CAR始終只處理256個通道token,推理成本幾乎不隨解析度增加,適合高解析度圖像生成的應用場景。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新