Adobe的AI圖像編輯提速秘訣：讓Photoshop的AI功能快3倍不降質，背後是一套聰明的「看圖省錢」方案

這項由Adobe ART AI實驗室與Adobe研究院聯合完成的研究，於2026年6月15日以預印本形式發布，論文編號為arXiv:2606.13898。感興趣的讀者可通過該編號查閱完整原文。

贊助商廣告

每當你打開Photoshop，點下那個神奇的"移除"按鈕，讓AI幫你把照片裡不想要的人或物抹掉，你有沒有想過：為什麼有時候等待的時間那麼久？背後的AI到底在做什麼，為什麼它那麼"慢"？這篇來自Adobe的研究，正是為了回答這個問題，並給出一個聰明得出人意料的解決方案。

一、當Photoshop遇上"排隊太長"的煩惱

先說一個真實的數字：Photoshop v27.0發布後的短短28天內，有110萬用戶使用了"Generative Fill"（生成式填充）功能，產生了3620萬次交互，消耗了8280萬個生成額度。這個數字說明什麼？說明Adobe的AI伺服器每天要處理海量的圖像編輯請求，就像一家超級忙碌的快餐廳，每分每秒都有無數顧客在等餐。

問題在於，近幾年AI圖像生成技術發生了一次重大升級——從一種叫做"卷積神經網路"（U-Net）的老架構，換成了更強大的"擴散變換器"（Diffusion Transformer，簡稱DiT）。新架構生成的圖像質量更好，但代價是計算量大幅增加。即便伺服器的硬體從A100升級到了更貴的H100顯卡，成本依然居高不下。Adobe的工程師們測量後發現，在整個AI圖像編輯流程中，DiT模組一個人就占據了平均73%的運行時間——哪怕已經把原本需要50個步驟的生成過程，通過"知識蒸餾"技術壓縮到了8個步驟。

用一個比喻來理解：整個AI圖像編輯系統就像一條流水線，有負責"理解圖像"的工人（VAE編碼器）、負責"主要創作"的工人（DiT）、負責"解碼輸出"的工人（VAE解碼器），以及負責"最終精修"的工人（Refiner）。測量結果顯示，不管圖像是512×512還是2048×2048的超大解析度，"主要創作"那個工人始終要干全部工作量的68%到74%。他一個人太忙了，整條流水線的速度就被他拖慢了。

贊助商廣告

研究團隊提出的解決方案叫做HiLo-Token——一個"輸入自適應的高低頻率令牌壓縮框架"。這個名字聽起來很複雜，但核心思想用一句話就能說清楚：不是每塊地方都值得AI花大力氣去看，只需要把注意力放在真正重要的地方。

二、AI的眼睛也需要"選擇性注意"

在深入了解這個方案之前，有必要理解一個基礎概念：AI處理圖像時，會把圖像切成很多小塊，每個小塊叫做一個"令牌"（Token）。就像你把一幅大拼圖分成了許多小拼圖塊，AI對每一塊都要進行分析和計算。圖像越大，小塊越多，計算量就越大。

研究團隊首先做了一件很有價值的事：他們分析了真實用戶在Photoshop里的編輯行為。通過研究大量真實的用戶操作數據，他們發現了一些很有趣的規律。

在"需要編輯的區域有多大"這個問題上，超過50%的用戶每次編輯的區域不超過整張圖片的10%。換句話說，大多數時候，用戶只是想抹掉照片裡的一個小人物、一根電線杆，或者一個不想要的水印。而90%的用戶，編輯區域不超過整張圖的50%。

在"編輯區域是什麼形狀"這個問題上，55%是分散的小孔洞狀（比如抹去多個小污點），34%是細長的條狀，而方形和不規則形狀加在一起只占11%。

這些數據指向一個重要結論：絕大多數情況下，AI根本不需要對整張圖片的每個角落都進行精細計算。用戶只是想改變圖片的一小塊，AI卻要對著整張圖片勞心費力，這就是浪費。就像你只是想修改一篇文章的第三段，系統卻非要把整篇文章重新排版一遍——這顯然不合理。

這個洞察奠定了整個HiLo-Token方法的基礎：聰明地選擇哪些地方需要精細處理，哪些地方粗看一眼就夠了。

三、"精修區"與"掃一眼區"：兩種令牌的分工之道

HiLo-Token的名字里，"Hi"代表高頻（High Frequency），"Lo"代表低頻（Low Frequency）。理解這兩個詞，需要先理解圖像里的"頻率"是什麼意思。

贊助商廣告

回到那個流水線比喻——編輯區域就是流水線上那個需要重點改造的零件，而圖像的其他部分是背景環境。流水線工人需要兩種不同的資訊：一是需要改造的零件本身及其附近的細節（高頻資訊，比如紋理、邊緣、花紋），二是整個工廠的大體布局（低頻資訊，比如整體顏色、大致結構）。

高頻資訊就像圖像里細膩的紋理——一塊石磚牆的縫隙、一件襯衫的格子花紋、一幅油畫的筆觸。這類資訊在圖像里表現為顏色或亮度的快速變化。低頻資訊則是圖像的大致輪廓和整體色調，比如天空是藍色的、地面是灰色的——這些資訊即使圖像被大幅縮小，也不會失真太多。

HiLo-Token把這兩類資訊用完全不同的策略來處理，就像一位有經驗的畫家：對於需要修改的區域，他會拿著放大鏡仔細觀察周圍的細節；對於遠處的背景，他只需要眯著眼睛看個大概就夠了。

具體來說，在高頻令牌這條路上，研究團隊會對原始圖像進行適度的壓縮處理（採用8倍壓縮比的VAE編碼器加上2倍的補丁嵌入層），保留足夠的空間解析度，確保那些細膩的紋理不會被"糊掉"。這條路會產生大量的令牌，所以需要進行精心的篩選，只保留最有價值的那些。

在低頻令牌這條路上，圖像會被激進地縮小16倍——一張2048×2048的圖像會被縮成128×128——然後經過VAE編碼器和一個專門的"低頻補丁嵌入層"來提取資訊。因為縮得太小，生成的令牌數量極少，所以這部分令牌可以全部保留。這些令牌只能告訴AI圖像的大概模樣，但這就足夠了——它們的任務是讓AI不要"迷失方向"，知道整體的結構是什麼樣的。

最後，兩部分令牌被拼接在一起，組成"HiLo-Token"表示，送入DiT進行處理。整個過程里最神妙的部分，是高頻令牌的篩選機制。

四、用"邊緣探測器"代替昂貴的"注意力分析"

如何判斷圖像的哪些區域包含豐富的高頻資訊，值得讓AI多花心思呢？

贊助商廣告

直覺上，你可能會說：讓AI先看一眼圖像，根據它自己覺得哪裡重要來選擇。這種方法叫做"基於注意力的令牌選擇"，確實有人嘗試過。但研究團隊發現這種方法存在一個致命缺陷。

考慮這樣一個場景：圖片裡有一面對稱的教堂壁畫，正中間有一塊區域被用戶標記為要刪除的對象（比如一個交通標誌遮擋了壁畫）。刪除這個標誌之後，AI需要根據壁畫的另一半來"腦補"出被遮擋的那部分內容，因為壁畫是對稱的。

問題在於，被遮擋的那部分內容此時並不存在。AI在擴散過程的早期步驟里，還沒有生成那部分內容，自然也就沒有有意義的"注意力信號"來告訴系統"對面的那面壁畫很重要"。結果就是，基於注意力的方法會忽略掉那面對稱的壁畫，AI最終腦補出來的內容會和整體風格完全不搭。

研究團隊轉向了一種更簡單、更可靠的方案：Sobel算子邊緣檢測。這是電腦視覺領域一個已經有幾十年歷史的經典技術，說白了就是找出圖像里顏色變化劇烈的地方。顏色變化劇烈的地方，往往就是紋理豐富、細節複雜的區域，也就是高頻資訊密集的區域。

Sobel算子的工作原理不複雜：用兩個小型卷積核分別掃描圖像的水平方向和垂直方向，計算每個像素在這兩個方向上的顏色變化幅度，然後把兩個方向的變化合成一個"空間頻率圖"。這個頻率圖裡，數值越高的地方，代表那裡的紋理越複雜、細節越豐富。

但僅僅有頻率圖還不夠。如果直接根據閾值（比如0.1）來選擇令牌，得到的是散落各處的零星令牌，就像棋盤上隨機分布的棋子，對AI來說這種分散的資訊很難有效利用。

研究團隊加了一步"區域化"處理：把頻率圖進行16倍的空間池化，讓相鄰的小塊自然聚合成更大的區域。這樣一來，選擇出來的高頻令牌就不再是零散的點，而是連續的塊狀區域，AI能夠更好地理解這些區域的上下文關係。

贊助商廣告

與此同時，用戶指定的編輯區域會經過"膨脹"處理——把標記區域往外擴張一圈，確保編輯區域邊緣附近的所有令牌都被納入。這是因為編輯的內容需要和周圍環境無縫融合，如果把編輯區域周邊的上下文令牌都丟掉，生成的內容就會出現突兀的邊界感。

整個令牌選擇過程的計算代價極小，只用到了兩次卷積操作和一次線性層操作，整體僅需約10毫秒，與DiT本身動輒數秒的計算時間相比，這點額外開銷幾乎可以忽略不計。

五、從"通才"到"專家"：模型的訓練之路

HiLo-Token不是一個獨立的工具，它被整合進了Adobe的圖像編輯模型體系里。

Adobe有一個叫做MultiEdit（ME）的"通才"模型，基於Firefly Image 3預訓練而來，有著20億參數規模的DiT主幹網路。這個通才模型幾乎無所不能——對象插入、移除、替換、重新打光、文字編輯、相機角度調整、主體提取，都在它的能力範圍之內。

但在實際產品部署中，"通才"並不總是最優解。以"移除"和"生成填充"這兩個功能為例，它們的目標在某種意義上是相反的：一個要刪掉內容，另一個要添加內容。如果硬把它們塞進同一個模型里一起訓練，模型會產生干擾——比如在"移除"任務里，模型可能會不由自主地傾向於往空白處插入東西，留下奇怪的"幽靈內容"。

因此，通才模型ME會被進一步"專科化"——通過在精心篩選的專項數據集上進行監督微調（SFT），培養出針對不同任務的專家模型。比如用於Photoshop移除功能的"Erase Specialist"，就是在約40.7萬個圖像-蒙版對上微調而來，這些數據來自對象移除（包括合成渲染數據和真實世界數據）、修圖、對象拼接與合成、手動遮罩，以及混合編輯等多個類別，跨越多種圖像解析度。

微調過程中，研究團隊發現了一些很有意思的規律。如果訓練數據里對象移除的樣本太少，模型就需要更長的訓練時間才能抑制"往空白處插東西"的衝動；反之，如果訓練時間太長，模型又會開始在編輯區域和周圍環境的邊界處產生接縫感，像是"打補丁"的痕跡。這需要在訓練過程中仔細監控，找到那個恰到好處的平衡點。

贊助商廣告

HiLo-Token就是在這個監督微調階段被注入模型的——讓模型從一開始就學會"只看關鍵地方"，而不是在訓練好之後才被強行剪枝。

在微調完成之後，研究團隊還會對模型進行"步驟蒸餾"。原始擴散模型需要50個去噪步驟才能生成一張高質量的圖像，在A100 GPU上處理一張1K解析度的圖像就需要約7秒，這對於生產環境來說太慢了。通過一種叫做分布匹配蒸餾（Distribution Matching Distillation，DMD）的技術，可以訓練出一個"學生模型"，讓它用8個步驟就能生成和50步驟"老師模型"質量相當的結果。具體做法是最小化學生模型和教師模型生成結果之間的統計差異（KL散度），同時引入對抗性訓練（GAN）來進一步提升生成質量。

整個訓練過程在4個節點、共32塊A100 GPU上進行，採用BF16混合精度計算和全分片數據並行（FSDP）技術來高效利用硬體資源。

六、真實的測試結果：錢到底省了多少

研究團隊在一批包含92個代表性真實用戶編輯案例的評測集上驗證了HiLo-Token的效果。這些案例被按照編輯區域大小（蒙版比例）分成三組：小蒙版組（平均蒙版比例6.38%）、中蒙版組（15.92%）和大蒙版組（35.36%）。

加速效果非常直觀。在DiT模組這個最大的計算瓶頸上，小蒙版的情況下加速比達到了3.13倍，中等蒙版是2.59倍，大蒙版是1.67倍。邏輯很清晰：編輯區域越小，可以丟棄的無關令牌就越多，加速效果也就越明顯。落實到端到端的整體推理時間，三組對應的整體加速比分別是1.33倍、1.66倍和1.77倍。

在質量評估上，研究團隊沒有依賴FID（圖像生成質量的常見指標）或CLIP分數（衡量圖文匹配程度的指標），因為他們認為這些指標並不能準確反映圖像編輯的質量。他們轉而依賴專業的質量工程（QE）團隊進行人工盲評，讓評測人員在不知道哪個版本使用了HiLo-Token的情況下，比較兩種方法的輸出結果。

結果顯示，對於移除功能，48%的案例兩個版本質量相當，27%的案例使用HiLo-Token的版本更好，25%的案例原版更好。對於生成填充功能，70%打平，24%使用HiLo-Token的更好，僅6%原版更好。對於生成擴展功能，81%打平，10%使用HiLo-Token的更好，9%原版更好。也就是說，在絕大多數情況下，用戶根本感知不到任何質量差異，甚至在某些情況下，經過令牌壓縮的版本質量還更好一些。

贊助商廣告

在基礎設施成本上，效果更加可觀。根據圖1b所展示的數據，引入HiLo-Token之後，運行Adobe移除功能所需的亞馬遜AWS p5.48xlarge節點（每個節點配備8塊H100顯卡，每小時費用55.04美元）數量減少了33%。這意味著，僅僅通過這一項技術改進，Adobe每年可以節省的伺服器成本是相當可觀的數字。

研究團隊還驗證了HiLo-Token與其他優化技術的兼容性。與FP8量化（一種減少數值精度以加快計算的技術）結合使用，可以在HiLo-Token基礎上再減少40%的DiT延遲。若把8步推理進一步蒸餾到5步，可以額外降低37.5%的延遲，質量下降僅影響不到5%的圖像，在可接受範圍內。此外，HiLo-Token也與VAE和Refiner模組的優化完全兼容，從而實現端到端的整體提速。

七、與同類方法的差異

把HiLo-Token放在更大的背景下來看，它屬於"令牌級效率優化"這一大類方法，這類方法的核心思路是減少參與注意力計算的令牌數量，從而降低計算量。

現有的類似工作包括令牌合併（ToMe，把相似的令牌合併成一個）、令牌剪枝（直接刪除不重要的令牌）、以及空間解析度下採樣（把整幅圖像縮小後再處理）等。這些方法各有其局限性：要麼對圖像編輯這類特定任務的支持不夠好，要麼在壓縮比較激進時會出現明顯的質量下降，要麼根本沒有考慮到用戶自定義蒙版這一核心交互模式。

與HiLo-Token最相關的兩個前作是LazyDiffusion和DiffCR。LazyDiffusion是整個HiLo-Token框架的基礎，它提出了只在蒙版區域內進行生成的核心思路，但它依賴一個基於Transformer的上下文編碼器來提取編輯區域之外的資訊，這個編碼器本身就不便宜——而且因為上下文令牌和蒙版令牌是沿特徵維度拼接的，大量有用的上下文資訊在處理過程中被丟棄了。

HiLo-Token的改進體現在三個層面：用輕量級的Sobel邊緣檢測替代了昂貴的Transformer上下文編碼器；把上下文令牌的拼接方式從特徵維度改為令牌維度，避免了上下文資訊的浪費；並且引入了"輸入自適應"機制，根據每張圖像的具體內容動態決定選擇多少以及選擇哪些令牌，而非對所有圖像一視同仁地應用固定的壓縮比。

贊助商廣告

---

說到底，這項研究解決的是一個非常實際的工程問題：怎麼讓強大的AI圖像編輯功能跑得更快、花更少的錢，同時不讓用戶感知到任何質量下降。答案不是什麼深奧的理論突破，而是一個基於常識的洞察——大多數用戶只改圖片的一小塊，沒有必要對整張圖片每個角落都精雕細琢。把這個洞察轉化為技術方案，需要解決一系列工程上的具體問題：如何智能地選擇哪些地方需要精細處理，如何低成本地提取整體結構資訊，如何讓這套機制適應不同複雜度的圖像內容，以及如何讓整個方案無縫融入現有的訓練和部署流程。

研究團隊給出的答案——用經典的Sobel邊緣檢測來識別高頻區域，用激進下採樣來捕獲低頻全局結構，用區域化處理讓令牌選擇更連貫——每一步都簡潔而有效。由此可見，好的工程解決方案不一定需要最新的技術，關鍵在於找准問題的本質，然後選擇最合適的工具。

這對普通Photoshop用戶意味著什麼？當你在最新版本的Photoshop里使用移除或生成填充功能時，AI響應速度提升的背後，正是這套"看圖省錢"方案在默默運行。它的存在，讓Adobe能夠用更少的伺服器資源服務更多的用戶，也為未來進一步提升體驗創造了空間。

至於HiLo-Token能否推廣到更廣泛的圖像生成任務（比如沒有用戶蒙版的純文生圖），或者能否在移動端這樣內存受限的環境下發揮作用，這些都是值得進一步探索的問題。有興趣深入了解技術細節的讀者，可通過論文編號arXiv:2606.13898查閱完整原文。

---

Q&A

Q1：HiLo-Token是什麼技術？

A：HiLo-Token是Adobe開發的一種AI圖像編輯加速框架，核心思路是把圖像分成"值得精細處理的高頻區域"和"粗看一眼就夠的低頻區域"，讓AI重點處理關鍵位置，跳過不重要的地方，從而在不影響畫質的前提下大幅減少計算量，在小蒙版編輯場景下最高可實現3.13倍加速。

Q2：HiLo-Token用了什麼方法來判斷圖像哪裡重要？

贊助商廣告

A：研究團隊沒有採用昂貴的注意力分析方法，而是使用了經典的Sobel算子邊緣檢測——找出圖像里顏色變化劇烈（即紋理豐富）的區域作為高頻令牌，同時用16倍激進下採樣的圖像來提取低頻的全局結構資訊。兩部分資訊拼接後送入AI模型處理，計算額外開銷僅約10毫秒。

Q3：Photoshop用了HiLo-Token之後質量會下降嗎？

A：根據Adobe專業質量工程團隊的盲評結果，移除功能有48%的案例質量相當，生成填充功能有70%打平，生成擴展功能有81%打平，而且在部分案例中使用HiLo-Token的版本質量還更好。整體來說，用戶在日常使用中基本感知不到任何質量變化。