這項由Adobe ART AI實驗室與Adobe研究院聯合完成的研究,於2026年6月15日以預印本形式發布,論文編號為arXiv:2606.13898。感興趣的讀者可通過該編號查閱完整原文。
每當你打開Photoshop,點下那個神奇的"移除"按鈕,讓AI幫你把照片裡不想要的人或物抹掉,你有沒有想過:為什麼有時候等待的時間那麼久?背後的AI到底在做什麼,為什麼它那麼"慢"?這篇來自Adobe的研究,正是為了回答這個問題,並給出一個聰明得出人意料的解決方案。
一、當Photoshop遇上"排隊太長"的煩惱
先說一個真實的數字:Photoshop v27.0發布後的短短28天內,有110萬用戶使用了"Generative Fill"(生成式填充)功能,產生了3620萬次交互,消耗了8280萬個生成額度。這個數字說明什麼?說明Adobe的AI伺服器每天要處理海量的圖像編輯請求,就像一家超級忙碌的快餐廳,每分每秒都有無數顧客在等餐。
問題在於,近幾年AI圖像生成技術發生了一次重大升級——從一種叫做"卷積神經網路"(U-Net)的老架構,換成了更強大的"擴散變換器"(Diffusion Transformer,簡稱DiT)。新架構生成的圖像質量更好,但代價是計算量大幅增加。即便伺服器的硬體從A100升級到了更貴的H100顯卡,成本依然居高不下。Adobe的工程師們測量後發現,在整個AI圖像編輯流程中,DiT模組一個人就占據了平均73%的運行時間——哪怕已經把原本需要50個步驟的生成過程,通過"知識蒸餾"技術壓縮到了8個步驟。
用一個比喻來理解:整個AI圖像編輯系統就像一條流水線,有負責"理解圖像"的工人(VAE編碼器)、負責"主要創作"的工人(DiT)、負責"解碼輸出"的工人(VAE解碼器),以及負責"最終精修"的工人(Refiner)。測量結果顯示,不管圖像是512×512還是2048×2048的超大解析度,"主要創作"那個工人始終要干全部工作量的68%到74%。他一個人太忙了,整條流水線的速度就被他拖慢了。
研究團隊提出的解決方案叫做HiLo-Token——一個"輸入自適應的高低頻率令牌壓縮框架"。這個名字聽起來很複雜,但核心思想用一句話就能說清楚:不是每塊地方都值得AI花大力氣去看,只需要把注意力放在真正重要的地方。
二、AI的眼睛也需要"選擇性注意"
在深入了解這個方案之前,有必要理解一個基礎概念:AI處理圖像時,會把圖像切成很多小塊,每個小塊叫做一個"令牌"(Token)。就像你把一幅大拼圖分成了許多小拼圖塊,AI對每一塊都要進行分析和計算。圖像越大,小塊越多,計算量就越大。
研究團隊首先做了一件很有價值的事:他們分析了真實用戶在Photoshop里的編輯行為。通過研究大量真實的用戶操作數據,他們發現了一些很有趣的規律。
在"需要編輯的區域有多大"這個問題上,超過50%的用戶每次編輯的區域不超過整張圖片的10%。換句話說,大多數時候,用戶只是想抹掉照片裡的一個小人物、一根電線杆,或者一個不想要的水印。而90%的用戶,編輯區域不超過整張圖的50%。
在"編輯區域是什麼形狀"這個問題上,55%是分散的小孔洞狀(比如抹去多個小污點),34%是細長的條狀,而方形和不規則形狀加在一起只占11%。
這些數據指向一個重要結論:絕大多數情況下,AI根本不需要對整張圖片的每個角落都進行精細計算。用戶只是想改變圖片的一小塊,AI卻要對著整張圖片勞心費力,這就是浪費。就像你只是想修改一篇文章的第三段,系統卻非要把整篇文章重新排版一遍——這顯然不合理。
這個洞察奠定了整個HiLo-Token方法的基礎:聰明地選擇哪些地方需要精細處理,哪些地方粗看一眼就夠了。
三、"精修區"與"掃一眼區":兩種令牌的分工之道
HiLo-Token的名字里,"Hi"代表高頻(High Frequency),"Lo"代表低頻(Low Frequency)。理解這兩個詞,需要先理解圖像里的"頻率"是什麼意思。
回到那個流水線比喻——編輯區域就是流水線上那個需要重點改造的零件,而圖像的其他部分是背景環境。流水線工人需要兩種不同的資訊:一是需要改造的零件本身及其附近的細節(高頻資訊,比如紋理、邊緣、花紋),二是整個工廠的大體布局(低頻資訊,比如整體顏色、大致結構)。
高頻資訊就像圖像里細膩的紋理——一塊石磚牆的縫隙、一件襯衫的格子花紋、一幅油畫的筆觸。這類資訊在圖像里表現為顏色或亮度的快速變化。低頻資訊則是圖像的大致輪廓和整體色調,比如天空是藍色的、地面是灰色的——這些資訊即使圖像被大幅縮小,也不會失真太多。
HiLo-Token把這兩類資訊用完全不同的策略來處理,就像一位有經驗的畫家:對於需要修改的區域,他會拿著放大鏡仔細觀察周圍的細節;對於遠處的背景,他只需要眯著眼睛看個大概就夠了。
具體來說,在高頻令牌這條路上,研究團隊會對原始圖像進行適度的壓縮處理(採用8倍壓縮比的VAE編碼器加上2倍的補丁嵌入層),保留足夠的空間解析度,確保那些細膩的紋理不會被"糊掉"。這條路會產生大量的令牌,所以需要進行精心的篩選,只保留最有價值的那些。
在低頻令牌這條路上,圖像會被激進地縮小16倍——一張2048×2048的圖像會被縮成128×128——然後經過VAE編碼器和一個專門的"低頻補丁嵌入層"來提取資訊。因為縮得太小,生成的令牌數量極少,所以這部分令牌可以全部保留。這些令牌只能告訴AI圖像的大概模樣,但這就足夠了——它們的任務是讓AI不要"迷失方向",知道整體的結構是什麼樣的。
最後,兩部分令牌被拼接在一起,組成"HiLo-Token"表示,送入DiT進行處理。整個過程里最神妙的部分,是高頻令牌的篩選機制。
四、用"邊緣探測器"代替昂貴的"注意力分析"
如何判斷圖像的哪些區域包含豐富的高頻資訊,值得讓AI多花心思呢?
直覺上,你可能會說:讓AI先看一眼圖像,根據它自己覺得哪裡重要來選擇。這種方法叫做"基於注意力的令牌選擇",確實有人嘗試過。但研究團隊發現這種方法存在一個致命缺陷。
考慮這樣一個場景:圖片裡有一面對稱的教堂壁畫,正中間有一塊區域被用戶標記為要刪除的對象(比如一個交通標誌遮擋了壁畫)。刪除這個標誌之後,AI需要根據壁畫的另一半來"腦補"出被遮擋的那部分內容,因為壁畫是對稱的。
問題在於,被遮擋的那部分內容此時並不存在。AI在擴散過程的早期步驟里,還沒有生成那部分內容,自然也就沒有有意義的"注意力信號"來告訴系統"對面的那面壁畫很重要"。結果就是,基於注意力的方法會忽略掉那面對稱的壁畫,AI最終腦補出來的內容會和整體風格完全不搭。
研究團隊轉向了一種更簡單、更可靠的方案:Sobel算子邊緣檢測。這是電腦視覺領域一個已經有幾十年歷史的經典技術,說白了就是找出圖像里顏色變化劇烈的地方。顏色變化劇烈的地方,往往就是紋理豐富、細節複雜的區域,也就是高頻資訊密集的區域。
Sobel算子的工作原理不複雜:用兩個小型卷積核分別掃描圖像的水平方向和垂直方向,計算每個像素在這兩個方向上的顏色變化幅度,然後把兩個方向的變化合成一個"空間頻率圖"。這個頻率圖裡,數值越高的地方,代表那裡的紋理越複雜、細節越豐富。
但僅僅有頻率圖還不夠。如果直接根據閾值(比如0.1)來選擇令牌,得到的是散落各處的零星令牌,就像棋盤上隨機分布的棋子,對AI來說這種分散的資訊很難有效利用。
研究團隊加了一步"區域化"處理:把頻率圖進行16倍的空間池化,讓相鄰的小塊自然聚合成更大的區域。這樣一來,選擇出來的高頻令牌就不再是零散的點,而是連續的塊狀區域,AI能夠更好地理解這些區域的上下文關係。
與此同時,用戶指定的編輯區域會經過"膨脹"處理——把標記區域往外擴張一圈,確保編輯區域邊緣附近的所有令牌都被納入。這是因為編輯的內容需要和周圍環境無縫融合,如果把編輯區域周邊的上下文令牌都丟掉,生成的內容就會出現突兀的邊界感。
整個令牌選擇過程的計算代價極小,只用到了兩次卷積操作和一次線性層操作,整體僅需約10毫秒,與DiT本身動輒數秒的計算時間相比,這點額外開銷幾乎可以忽略不計。
五、從"通才"到"專家":模型的訓練之路
HiLo-Token不是一個獨立的工具,它被整合進了Adobe的圖像編輯模型體系里。
Adobe有一個叫做MultiEdit(ME)的"通才"模型,基於Firefly Image 3預訓練而來,有著20億參數規模的DiT主幹網路。這個通才模型幾乎無所不能——對象插入、移除、替換、重新打光、文字編輯、相機角度調整、主體提取,都在它的能力範圍之內。
但在實際產品部署中,"通才"並不總是最優解。以"移除"和"生成填充"這兩個功能為例,它們的目標在某種意義上是相反的:一個要刪掉內容,另一個要添加內容。如果硬把它們塞進同一個模型里一起訓練,模型會產生干擾——比如在"移除"任務里,模型可能會不由自主地傾向於往空白處插入東西,留下奇怪的"幽靈內容"。
因此,通才模型ME會被進一步"專科化"——通過在精心篩選的專項數據集上進行監督微調(SFT),培養出針對不同任務的專家模型。比如用於Photoshop移除功能的"Erase Specialist",就是在約40.7萬個圖像-蒙版對上微調而來,這些數據來自對象移除(包括合成渲染數據和真實世界數據)、修圖、對象拼接與合成、手動遮罩,以及混合編輯等多個類別,跨越多種圖像解析度。
微調過程中,研究團隊發現了一些很有意思的規律。如果訓練數據里對象移除的樣本太少,模型就需要更長的訓練時間才能抑制"往空白處插東西"的衝動;反之,如果訓練時間太長,模型又會開始在編輯區域和周圍環境的邊界處產生接縫感,像是"打補丁"的痕跡。這需要在訓練過程中仔細監控,找到那個恰到好處的平衡點。
HiLo-Token就是在這個監督微調階段被注入模型的——讓模型從一開始就學會"只看關鍵地方",而不是在訓練好之後才被強行剪枝。
在微調完成之後,研究團隊還會對模型進行"步驟蒸餾"。原始擴散模型需要50個去噪步驟才能生成一張高質量的圖像,在A100 GPU上處理一張1K解析度的圖像就需要約7秒,這對於生產環境來說太慢了。通過一種叫做分布匹配蒸餾(Distribution Matching Distillation,DMD)的技術,可以訓練出一個"學生模型",讓它用8個步驟就能生成和50步驟"老師模型"質量相當的結果。具體做法是最小化學生模型和教師模型生成結果之間的統計差異(KL散度),同時引入對抗性訓練(GAN)來進一步提升生成質量。
整個訓練過程在4個節點、共32塊A100 GPU上進行,採用BF16混合精度計算和全分片數據並行(FSDP)技術來高效利用硬體資源。
六、真實的測試結果:錢到底省了多少
研究團隊在一批包含92個代表性真實用戶編輯案例的評測集上驗證了HiLo-Token的效果。這些案例被按照編輯區域大小(蒙版比例)分成三組:小蒙版組(平均蒙版比例6.38%)、中蒙版組(15.92%)和大蒙版組(35.36%)。
加速效果非常直觀。在DiT模組這個最大的計算瓶頸上,小蒙版的情況下加速比達到了3.13倍,中等蒙版是2.59倍,大蒙版是1.67倍。邏輯很清晰:編輯區域越小,可以丟棄的無關令牌就越多,加速效果也就越明顯。落實到端到端的整體推理時間,三組對應的整體加速比分別是1.33倍、1.66倍和1.77倍。
在質量評估上,研究團隊沒有依賴FID(圖像生成質量的常見指標)或CLIP分數(衡量圖文匹配程度的指標),因為他們認為這些指標並不能準確反映圖像編輯的質量。他們轉而依賴專業的質量工程(QE)團隊進行人工盲評,讓評測人員在不知道哪個版本使用了HiLo-Token的情況下,比較兩種方法的輸出結果。
結果顯示,對於移除功能,48%的案例兩個版本質量相當,27%的案例使用HiLo-Token的版本更好,25%的案例原版更好。對於生成填充功能,70%打平,24%使用HiLo-Token的更好,僅6%原版更好。對於生成擴展功能,81%打平,10%使用HiLo-Token的更好,9%原版更好。也就是說,在絕大多數情況下,用戶根本感知不到任何質量差異,甚至在某些情況下,經過令牌壓縮的版本質量還更好一些。
在基礎設施成本上,效果更加可觀。根據圖1b所展示的數據,引入HiLo-Token之後,運行Adobe移除功能所需的亞馬遜AWS p5.48xlarge節點(每個節點配備8塊H100顯卡,每小時費用55.04美元)數量減少了33%。這意味著,僅僅通過這一項技術改進,Adobe每年可以節省的伺服器成本是相當可觀的數字。
研究團隊還驗證了HiLo-Token與其他優化技術的兼容性。與FP8量化(一種減少數值精度以加快計算的技術)結合使用,可以在HiLo-Token基礎上再減少40%的DiT延遲。若把8步推理進一步蒸餾到5步,可以額外降低37.5%的延遲,質量下降僅影響不到5%的圖像,在可接受範圍內。此外,HiLo-Token也與VAE和Refiner模組的優化完全兼容,從而實現端到端的整體提速。
七、與同類方法的差異
把HiLo-Token放在更大的背景下來看,它屬於"令牌級效率優化"這一大類方法,這類方法的核心思路是減少參與注意力計算的令牌數量,從而降低計算量。
現有的類似工作包括令牌合併(ToMe,把相似的令牌合併成一個)、令牌剪枝(直接刪除不重要的令牌)、以及空間解析度下採樣(把整幅圖像縮小後再處理)等。這些方法各有其局限性:要麼對圖像編輯這類特定任務的支持不夠好,要麼在壓縮比較激進時會出現明顯的質量下降,要麼根本沒有考慮到用戶自定義蒙版這一核心交互模式。
與HiLo-Token最相關的兩個前作是LazyDiffusion和DiffCR。LazyDiffusion是整個HiLo-Token框架的基礎,它提出了只在蒙版區域內進行生成的核心思路,但它依賴一個基於Transformer的上下文編碼器來提取編輯區域之外的資訊,這個編碼器本身就不便宜——而且因為上下文令牌和蒙版令牌是沿特徵維度拼接的,大量有用的上下文資訊在處理過程中被丟棄了。
HiLo-Token的改進體現在三個層面:用輕量級的Sobel邊緣檢測替代了昂貴的Transformer上下文編碼器;把上下文令牌的拼接方式從特徵維度改為令牌維度,避免了上下文資訊的浪費;並且引入了"輸入自適應"機制,根據每張圖像的具體內容動態決定選擇多少以及選擇哪些令牌,而非對所有圖像一視同仁地應用固定的壓縮比。
---
說到底,這項研究解決的是一個非常實際的工程問題:怎麼讓強大的AI圖像編輯功能跑得更快、花更少的錢,同時不讓用戶感知到任何質量下降。答案不是什麼深奧的理論突破,而是一個基於常識的洞察——大多數用戶只改圖片的一小塊,沒有必要對整張圖片每個角落都精雕細琢。把這個洞察轉化為技術方案,需要解決一系列工程上的具體問題:如何智能地選擇哪些地方需要精細處理,如何低成本地提取整體結構資訊,如何讓這套機制適應不同複雜度的圖像內容,以及如何讓整個方案無縫融入現有的訓練和部署流程。
研究團隊給出的答案——用經典的Sobel邊緣檢測來識別高頻區域,用激進下採樣來捕獲低頻全局結構,用區域化處理讓令牌選擇更連貫——每一步都簡潔而有效。由此可見,好的工程解決方案不一定需要最新的技術,關鍵在於找准問題的本質,然後選擇最合適的工具。
這對普通Photoshop用戶意味著什麼?當你在最新版本的Photoshop里使用移除或生成填充功能時,AI響應速度提升的背後,正是這套"看圖省錢"方案在默默運行。它的存在,讓Adobe能夠用更少的伺服器資源服務更多的用戶,也為未來進一步提升體驗創造了空間。
至於HiLo-Token能否推廣到更廣泛的圖像生成任務(比如沒有用戶蒙版的純文生圖),或者能否在移動端這樣內存受限的環境下發揮作用,這些都是值得進一步探索的問題。有興趣深入了解技術細節的讀者,可通過論文編號arXiv:2606.13898查閱完整原文。
---
Q&A
Q1:HiLo-Token是什麼技術?
A:HiLo-Token是Adobe開發的一種AI圖像編輯加速框架,核心思路是把圖像分成"值得精細處理的高頻區域"和"粗看一眼就夠的低頻區域",讓AI重點處理關鍵位置,跳過不重要的地方,從而在不影響畫質的前提下大幅減少計算量,在小蒙版編輯場景下最高可實現3.13倍加速。
Q2:HiLo-Token用了什麼方法來判斷圖像哪裡重要?
A:研究團隊沒有採用昂貴的注意力分析方法,而是使用了經典的Sobel算子邊緣檢測——找出圖像里顏色變化劇烈(即紋理豐富)的區域作為高頻令牌,同時用16倍激進下採樣的圖像來提取低頻的全局結構資訊。兩部分資訊拼接後送入AI模型處理,計算額外開銷僅約10毫秒。
Q3:Photoshop用了HiLo-Token之後質量會下降嗎?
A:根據Adobe專業質量工程團隊的盲評結果,移除功能有48%的案例質量相當,生成填充功能有70%打平,生成擴展功能有81%打平,而且在部分案例中使用HiLo-Token的版本質量還更好。整體來說,用戶在日常使用中基本感知不到任何質量變化。






