這項由華中科技大學與VIVO AI Lab聯合完成的研究,於2026年6月以預印本形式發布在arXiv論文平台,論文編號為arXiv:2606.19195。研究由華中科技大學和VIVO AI Lab的聯合團隊共同推進,感興趣的讀者可以通過上述編號在arXiv檢索完整論文。
一、手機里的"修圖大師"為何總比專業軟體慢?
每當我們用手機拍了一張照片,背景里有根礙眼的電線杆,或者一張合影里多了個陌生人,我們都希望能輕鬆地把這些"雜物"從畫面中抹去,並且讓被抹去的區域自然地被背景填滿——就好像那裡從來什麼都沒有一樣。這個過程在電腦視覺領域叫做"圖像修復"或"圖像補全",是一個歷史悠久的經典問題。
近年來,隨著AI生成圖像技術的飛速發展,這件事變得越來越可能做到。市面上出現了一批能力極強的"大模型",比如FLUX.1-Fill-Dev和SD3.5 Large-Inpainting,它們能夠以驚人的效果填補圖片中的缺失區域,讓結果看起來渾然天成。然而,這類模型的體量極為龐大——參數量高達100億甚至更多,就好像一位需要住在五星級酒店、配備整個後勤團隊才能出門工作的超級明星廚師。在手機或者資源有限的設備上,這樣的"超級明星"根本無從施展,光是加載模型本身就要消耗大量內存和時間。
正因如此,華中科技大學與VIVO AI Lab的研究團隊提出了一個頗具挑戰性的問題:能不能訓練出一位"小而精"的專科廚師,用一間迷你廚房、一套精簡工具,烹飪出與五星級大廚不相上下的菜餚?這便是"莫比烏斯"(Moebius)誕生的初衷——一個僅有2.26億參數(約0.22B)的輕量級圖像修復框架,其體量不足FLUX.1-Fill-Dev的2%,卻在多項標準評測中達到甚至超越了後者的修復質量,同時總推理時間提速超過15倍。
二、為什麼不直接把大模型"縮水"就好了?
一個自然而然的想法是:既然大模型太重,直接把它裁剪小一點不就行了?研究團隊最初也嘗試了這條路,但結果令人沮喪。他們的實驗基準是PixelHacker——一個約8.62億參數、當時學術界的頂尖圖像修復模型,也是莫比烏斯後來的"老師"。通過去掉PixelHacker中冗餘的最後一個下採樣階段,參數量從8.62億壓縮到了5.26億,圖像質量的損失還算可以接受。
然而,當他們進一步嘗試把模型里各個部件換成"輕量版"時,麻煩來了。具體來說,他們嘗試把模型中負責"看局部細節"的標準卷積層換成更省資源的"深度可分離卷積"(DWConv,可以理解為把一道菜的烹飪步驟拆分成互不干擾的小步驟,每步只處理一種食材),把負責"全局資訊交流"的注意力機制換成線性注意力等更高效的算子。結果卻讓人大跌眼鏡:模型的圖像質量評分(FID,數值越低越好)從32.75急劇惡化到43.58,劣化幅度超過30%,修復出來的圖像一塌糊塗。
研究團隊將這個現象命名為"表示瓶頸"(Representation Bottleneck)。簡單來說,就是模型在經過大幅度"減肥"之後,失去了理解圖像語義和空間結構的能力——就像一個原本能做滿漢全席的廚師,突然只剩下一把菜刀和一口鍋,很多精細的工序根本無法完成。圖像修復這項任務對"語義理解"的要求極高:你要知道被遮住的區域裡"應該"是什麼,才能自然地填進去。缺乏表達能力的輕量模型,往往只能填出一片模糊的顏色塊,或者生成與周圍環境格格不入的內容。
更糟糕的是,PixelHacker所使用的"門控線性注意力"(GLA)這種高效的自注意力機制,從數學結構上就不支持"交叉注意力"操作。而交叉注意力恰恰是將外部語義資訊(比如"這張圖是海邊場景"這樣的全局先驗知識)注入模型的關鍵通道。這意味著,你不能直接把GLA拿來用在同時需要自注意力和跨模態交互的場景中,否則模型會失去獲取全局語義的能力。
三、莫比烏斯的核心魔法:用"摘要矩陣"代替繁重的注意力計算
面對上述困境,研究團隊提出了一套全新的思路。他們不再試圖簡單替換現有算子,而是從頭設計了兩個全新的模組:Local-λ(局部λ)和Interactive-λ(交互λ)。這兩個模組共同構成了莫比烏斯的核心計算單元——LλMI(Local-λ Mix Interaction,局部λ混合交互)塊。
要理解這兩個模組,可以用一個圖書館的比喻來貫穿整個說明。假設你是圖書館的管理員(模型),你的任務是根據讀者(查詢向量Q)的需求,從海量書架(輸入特徵圖)中找到最相關的書籍(輸出特徵)。傳統的注意力機制就像是每次有讀者來訪,你都要把圖書館裡所有書的目錄逐一翻閱一遍,然後給出推薦——這在書很少的時候還好,但書多了之後計算量會隨書的數量平方增長,極其耗時。
Local-λ的解決方案則是:在每次開館前,先把所有書的核心內容提煉成一本固定大小的"精華手冊"λ,這個手冊同時包含兩部分:一部分叫做"語義內容摘要"(λ_c),通過對所有書的關鍵詞做統計歸納得到;另一部分叫做"空間位置摘要"(λ_p),記錄書架上哪些位置的書在主題上彼此相鄰。當讀者來訪時,你只需要拿著這本精華手冊查詢即可,完全不需要再遍歷整個書架。從數學上看,語義內容摘要的計算方式是對鍵矩陣K做softmax之後與值矩陣V相乘,得到一個固定大小的矩陣;而空間位置摘要則通過一個三維卷積操作(一種感知局部窗口內空間關係的算子)來提取。最終,查詢矩陣Q分別與這兩部分相乘並求和,得到融合了全局語義和局部空間連續性的輸出。這樣一來,計算複雜度從隨圖像像素數量平方增長變成了線性增長,大幅節省了算力。
Interactive-λ的邏輯與此類似,但它解決的是另一個問題:如何把"外部知識"(即全局語義先驗,在莫比烏斯中具體指LCG嵌入,一種從未被遮住的圖像區域提取出的"這張圖是什麼場景"的高維特徵向量)高效地注入到模型內部。這個外部知識的規模遠小於圖像特徵圖,想要建立兩者之間精確的空間對應關係非常困難——就好像你有一頁只有關鍵詞的摘要(外部語義),卻要把它對齊到一整本書(圖像特徵)的每一頁。
Interactive-λ的做法是:同樣先把外部語義資訊壓縮成一個固定大小的"語義摘要矩陣"λ_c,同時引入一個輕量級的位置嵌入矩陣E_pos,用來記錄圖像不同位置的空間布局資訊,生成"位置摘要矩陣"λ_p。圖像特徵作為查詢Q,分別與這兩個摘要相乘後疊加,就得到了融合了外部語義和空間布局的輸出。這個設計從根本上解決了GLA無法做交叉注意力的問題,讓輕量化架構也能無障礙地接收和利用全局語義先驗。
在此基礎上,研究團隊還用兩種高效算子替換了模型中其他耗資源的部分:用"深度殘差塊"(DW.Res)替換原本的標準卷積殘差塊,用於提取局部空間特徵;用"Mix-FFN"替換原本的全連接前饋網路,後者將標準的全連接層替換為一種結合了深度卷積的混合結構,大幅減少參數量。實驗表明,僅用Mix-FFN替換標準FFN就能再節省約4800萬參數和270億次浮點運算(GFLOPs),而對圖像質量的影響微乎其微。
把Local-λ、Interactive-λ和Mix-FFN按順序疊加,就形成了LλMI塊。具體的數據流是:輸入特徵先經過層歸一化後送入Local-λ模組做自聚合,結果加回輸入;再經過層歸一化後送入Interactive-λ模組融合外部語義,結果再次加回;最後經過Mix-FFN做特徵變換,加回後輸出。整個LλMI塊取代了原本重型擴散模型中的"空間變換器塊",以極小的參數量完成了相同的功能。
四、光有好架構還不夠:知識蒸餾讓小模型"開竅"
即便有了精心設計的LλMI架構,研究團隊在實驗中發現,僅靠標準的預測損失(即讓模型預測的噪聲儘量接近真實添加的噪聲)來訓練這個極度壓縮的模型,最終的圖像質量評分(FID)只能達到33.42,遠未達到理想水平。這就好比一個接受了特殊訓練課程的廚師,儘管學了正確的廚藝框架,但由於經驗太少,做出來的菜仍然差強人意。
為了讓這位"小廚師"真正達到"大廚"的水準,研究團隊引入了一套"自適應多粒度蒸餾策略"。這裡的"蒸餾"借用了"知識蒸餾"這一機器學習領域的經典概念:讓一個能力強大的大模型(稱為"教師")指導一個小模型(稱為"學生")學習,讓小模型的行為儘量向大模型靠攏。在莫比烏斯的框架里,教師模型是預訓練好的PixelHacker(8.62億參數),學生模型是莫比烏斯自己(2.26億參數)。
蒸餾策略分為三個層面,形成一個從粗到細的監督體系。第一層是"粗粒度蒸餾":在圖像特徵圖被壓縮到最小尺寸(16×16像素的特徵空間)的中間瓶頸處,強制要求學生模型的中間表示與教師模型在對應位置的中間表示儘量接近,損失函數是兩者的歐氏距離的平方。這相當於要求小廚師在備料階段(最濃縮、最關鍵的資訊層)就要和大廚的思路對齊。
第二層是"細粒度蒸餾與任務監督":在最終輸出層(64×64像素的特徵空間),同時使用兩個損失來監督學生。一是標準任務損失,即要求學生預測的噪聲與真實噪聲(ground truth)接近;二是知識蒸餾損失,要求學生的最終預測結果與教師的預測結果接近。兩種損失共同約束最終輸出,讓小模型不僅要"做對"(接近真實答案),還要"學像"(接近教師的輸出風格)。
第三層是"潛在空間感知蒸餾":為了進一步提升生成圖像的視覺感知質量,研究團隊引入了E-LatentLPIPS這一感知損失——它能在不把潛在特徵解碼回像素空間的前提下,直接在潛在空間中衡量感知質量。這一設計非常關鍵:如果在每次訓練疊代中都把高解析度的潛在特徵解碼回像素圖,再計算感知損失,內存消耗會極為巨大,對一個輕量化框架來說根本不現實。在潛在空間直接計算感知損失,既保留了感知質量的約束,又大幅節省了訓練資源。
然而,將三個層次的損失函數合併優化時,研究團隊遇到了另一個難題:不同損失的量級和梯度貢獻差異懸殊,如果用固定的權重係數來平衡它們,調參極為困難,而且容易導致訓練不穩定。為此,他們設計了一套"自適應梯度平衡機制":通過計算各個損失相對於關鍵參數層的梯度範數(即梯度的"強度"),動態地調整每個損失的權重,使得任何一個損失的梯度都不會壓制其他損失,實現自動平衡。具體來說,細粒度的蒸餾損失和感知損失的權重,被設置為任務損失的梯度範數除以各自的梯度範數;粗粒度蒸餾損失與細粒度輸出損失之間的權重,同樣由梯度範數之比動態決定。這種機制的靈感來源於GAN(生成對抗網路)的損失平衡思路,有效穩定了訓練過程,讓學生模型能夠快速收斂。
五、實驗結果:小模型的大勝利
莫比烏斯的實驗覆蓋了兩大類場景和多個標準數據集。在自然場景圖像修複方面,研究團隊在Places2數據集上進行了系統評測,這個數據集包含了超過180萬張涵蓋各種自然場景的圖片,是圖像修復領域最常用的基準之一。在多個評測子集(小遮罩、大遮罩、測試集等)上,莫比烏斯的表現均與PixelHacker和FLUX.1-Fill-Dev相當,甚至在小遮罩條件下以0.92的FID和0.091的LPIPS(感知相似度,數值越低越好)超越了FLUX.1-Fill-Dev(FID為0.94)。相比之下,SD3.5 Large-Inpainting的表現明顯更差,在多個子集上的FID劣於莫比烏斯數倍。
在人像場景方面,莫比烏斯的表現更為亮眼。在CelebA-HQ(高清人臉數據集)的512×512圖像測試中,莫比烏斯取得了5.39的FID和0.122的LPIPS,與專門針對大面積遮擋優化的MAT模型(4.86 FID)處於同一水平,遠超所有其他擴散模型。在FFHQ(另一高質量人臉數據集)的256×256測試中,莫比烏斯獲得8.15 FID和0.231 LPIPS,再次壓倒FLUX.1-Fill-Dev(11.19 FID)和SD3.5 Large-Inpainting(109.42 FID,差距高達1243%)。從直觀效果來看,在人臉修復中,莫比烏斯能夠精準還原眼神對齊、皮膚紋理等細節,而大型生成式模型在這類需要高精度空間語義對應的任務上,往往產生結構混亂或模糊。
在效率方面,對比數據更加直觀。莫比烏斯在單步推理時的延遲僅為26.01毫秒,理論計算量為0.154萬億次浮點運算(TFLOPs);而PixelHacker的延遲為46.89毫秒,FLUX.1-Fill-Dev則高達161.01毫秒,是莫比烏斯的約6倍。更關鍵的是,工業級大模型通常需要50步(FLUX.1-Fill-Dev)或28步(SD3.5)採樣才能生成一張圖,而莫比烏斯只需20步。綜合步數來看,完成一次修復任務,FLUX.1-Fill-Dev總計需要約8.05秒,而莫比烏斯只需0.52秒,速度差距超過15倍。
為了更全面地評估視覺質量,研究團隊還組織了一項雙盲用戶偏好實驗。22名參與者(包含專家和普通用戶)在不知道圖片來源的情況下,對自然場景、人像場景和真實世界目標移除三類任務各50組對比圖進行偏好投票。結果顯示,莫比烏斯的平均選擇率為31.76%,與教師PixelHacker的32.18%幾乎持平,顯著高於FLUX.1-Fill-Dev(23.70%)和SD3.5 Large-Inpainting(12.36%)。在人像場景中,莫比烏斯甚至以32.27%的偏好率排名第一,超過了自己的老師。
六、消融實驗:每個設計決策都不是隨意的
為了驗證每一個設計選擇的必要性,研究團隊進行了系統的消融實驗,逐一替換或去除各個組件,觀察性能變化。他們構建了一個包含15組對照實驗的分析表,覆蓋了從架構選擇到訓練策略的各個維度。
在架構層面,實驗證明,單獨使用任何一種輕量化替換都會導致性能下降,只有Local-λ、Interactive-λ、Mix-FFN和DWConv四者協同作用,才能在極致壓縮的前提下保持最佳性能。例如,在引入知識蒸餾的前提下,基於GLA的標準結構(5.26億參數)FID為26.81,而莫比烏斯的完整LλMI結構(2.26億參數)FID為26.43,參數量少了一半多,質量卻略有提升,充分說明新架構對參數的利用效率更高。
在蒸餾策略層面,消融實驗逐步添加各個損失組件,觀察FID的變化。僅使用粗粒度蒸餾損失時,FID高達74.20,模型幾乎無法生成有意義的內容;加入細粒度蒸餾損失後,FID降至36.17;再加入任務損失後降至32.59;最後加入潛在感知損失後,FID降至26.43,LPIPS為0.258。每個組件的加入都帶來了可觀的質量提升,證明多粒度蒸餾策略的每一層都是不可缺少的。
此外,研究團隊在置信度引導(Classifier-Free Guidance,CFG)的尺度選擇上也做了詳細驗證。CFG是一種在推理時調節"生成質量與多樣性平衡"的技術,類似於調節照片的對比度——太低了畫面不夠清晰,太高了又會失真。實驗發現,自然場景的最優CFG尺度為2.5,人像場景為2.0,這兩個數值被設定為莫比烏斯的默認推理配置。
七、真實世界應用與局限性
除了標準學術基準,研究團隊還測試了莫比烏斯在真實世界目標移除任務中的表現。真實場景的遮罩往往不規則,背景複雜,對模型的理解和生成能力要求更高。實驗顯示,在移除電線杆、清除前景人物後還原背景等任務中,莫比烏斯能夠準確理解全局場景結構,生成自然連貫的背景內容,而FLUX.1-Fill-Dev和SD3.5在這些場景中則頻繁出現語義不一致、顏色偏差等問題。研究團隊還將莫比烏斯與商業圖像編輯系統進行了對比,包括Nano Banana和Qwen Image Edit,結果顯示莫比烏斯在視覺質量上與這些參數量遠大於自己的商業系統相當,進一步證明了其作為開源輕量級工具的實用價值。
當然,莫比烏斯並非沒有局限性。研究團隊在補充材料中坦誠地展示了失敗案例:在極小區域的精細紋理修復中(例如遮擋區域背景紋理極為複雜且上下文資訊極少的情況),莫比烏斯有時會生成不夠逼真的細節,不及擁有更多參數的PixelHacker。這是極致壓縮帶來的固有代價,在參數量減少到原來四分之一以下的前提下,這種程度的質量損失被認為是完全可接受的權衡。
此外,研究團隊還對莫比烏斯的泛化能力進行了評測。他們從LVIS數據集中採樣了1萬張圖像作為"分布外"自然場景測試集,從DeepFakeFace數據集的維基百科子集中採樣了3000張人臉圖像作為"分布外"人像測試集,使用在Places2和CelebA-HQ上訓練的權重直接進行推理。結果顯示,莫比烏斯在兩個分布外集合上均表現穩健,FID和LPIPS與其他方法相比依然具有競爭力,驗證了其良好的零樣本泛化能力。
歸根結底,莫比烏斯這項工作真正令人印象深刻的地方,不在於它在某個單一指標上打破了紀錄,而在於它證明了一件此前被認為極難實現的事:一個體積極小的專科模型,通過精心的架構創新和訓練策略設計,完全可以在特定任務上與體積是它50倍的通用大模型分庭抗禮。對於普通用戶來說,這意味著未來的手機、平板乃至嵌入式設備,都有可能原生搭載高質量的AI圖像修復功能,而不需要將照片傳到雲端、等待大型伺服器處理後再返回結果。這種"把能力裝進口袋"的技術路徑,或許會深刻改變AI工具觸達普通人的方式。當然,目前莫比烏斯的訓練仍依賴大型GPU集群(16塊NVIDIA L40S),其架構能否進一步遷移到其他視覺生成任務,以及能否在更嚴苛的資源約束下保持性能,仍是值得持續探索的開放問題。有興趣深入了解技術細節的讀者,可以通過arXiv論文編號2606.19195查閱完整原文。
Q&A
Q1:莫比烏斯(Moebius)模型和FLUX.1-Fill-Dev相比,修復效果真的差不多嗎?
A:從論文實驗數據來看,莫比烏斯在多個標準測試集上的FID和LPIPS指標與FLUX.1-Fill-Dev相當,在小遮罩自然場景和人像修復任務上甚至優於後者。但莫比烏斯是經過專項訓練的專科模型,適合在固定類型的修復任務上使用,而FLUX.1-Fill-Dev是零樣本通用模型,靈活性更強。兩者各有側重,不能簡單說誰完全碾壓誰。
Q2:LλMI塊和普通注意力機制有什麼區別,為什麼能做到更省資源?
A:普通注意力機制需要對圖像中每個位置與所有其他位置計算相關性,計算量隨像素數量平方增長。LλMI塊的核心思路是把所有位置的資訊先壓縮成一個固定大小的"摘要矩陣"λ,查詢時只與這個小矩陣交互,計算量變成線性增長。同時,它還專門設計了Interactive-λ模組來處理外部語義資訊的注入,彌補了以往線性注意力機制無法做交叉注意力的缺陷。
Q3:莫比烏斯的知識蒸餾和普通的模型壓縮有什麼不同?
A:普通模型壓縮通常是直接裁剪或量化現有大模型的權重,而莫比烏斯的知識蒸餾是讓一個全新設計的小模型,在訓練過程中同時向大模型的中間表示(粗粒度)、最終預測(細粒度)以及感知質量(潛在感知損失)三個層面對齊學習。此外,莫比烏斯還引入了自適應梯度平衡機制,動態調整各個損失的權重,避免手動調參的困難,這是其與一般蒸餾方法的關鍵區別。






