德克薩斯大學奧斯汀分校研究出新型"輕量級"數據壓縮神經網路，同等畫質下比主流方案節省近一半頻寬

這項由德克薩斯大學奧斯汀分校系統機器學習實驗室完成的研究，以預印本形式於2026年5月7日發布在arXiv平台，論文編號為arXiv:2605.06628，研究方向屬於信號處理與深度學習的交叉領域。有興趣深入了解的讀者可以通過上述編號在arXiv上檢索完整論文。

贊助商廣告

**一、從一個你每天都在經歷的困境說起**

每天，無數穿戴設備、醫療傳感器、衛星相機和自動駕駛汽車的攝影機都在持續不斷地產生海量數據。這些數據就像一條條奔涌的河流，但傳輸它們所用的"管道"——也就是網路頻寬——卻始終是有限的，設備的電池也不允許無休止地消耗。所以，如何把數據"壓縮"得足夠小，同時又不丟失關鍵資訊，是一個長期困擾工程師的核心問題。

你可以把數據壓縮理解成一種"打包行李"的藝術。出門旅行時，你要把所有生活必需品裝進一個有限容量的行李箱。打包技藝高超的人知道哪些東西可以摺疊、哪些可以省略、哪些必須帶上，最終用最小的空間裝下最完整的生活。數據壓縮做的正是同樣的事——只不過它處理的不是衣物，而是圖像、聲音和影片。

現有的壓縮工具大致分成兩大陣營。一類是我們熟悉的"標準壓縮格式"，比如圖片領域的JPEG、影片領域的MPEG。它們經過幾十年的打磨，運行效率很高，但有個根本性的局限：它們的設計目標是讓人眼看起來舒服，而不是讓機器"讀懂"信號。對於衛星的高光譜相機、醫院的三維CT掃描儀或者空間音頻陣列來說，這類工具就顯得力不從心了，因為這些信號的結構與普通照片差異懸殊。另一類是近年興起的"神經網路編解碼器"，它們通過深度學習來捕捉信號中隱藏的規律，壓縮效果令人驚嘆，但往往體積龐大、計算開銷極高，完全無法在一塊手錶大小的傳感器晶片上運行。

正是這個夾縫——需要高效、通用、又足夠輕量的壓縮方案——催生了這篇論文的核心工作：**LiVeAction**。這個名字來自三個英文詞的首字母組合：**Li**ghtweight（輕量級）、**Ve**rsatile（通用性強）、**A**symmetric（不對稱設計），加上"ction"讓它讀起來像"直播行動"，隱喻實時處理能力。

贊助商廣告

**二、為什麼以前的方案都差點意思**

要理解LiVeAction的價值，先得搞清楚現有方案分別敗在哪裡。

用"標準壓縮"打包行李，相當於所有人用同一套摺疊規則，不管你要去滑雪還是去海邊。規則簡單、速度快，但對特殊需求完全無感——你帶了厚羽絨服，卻發現目的地是熱帶海島。JPEG和MPEG針對人眼進行了精細調優，對於人眼不在乎的細節（比如高頻紋理）大膽刪除。但如果壓縮的是高光譜圖像，每一條光譜帶都可能對應一種礦物成分，"人眼不在乎"恰恰是機器最需要的部分。

另一邊，近年來大熱的"生成式神經編解碼器"，代表作包括用於影片生成的Cosmos、用於音頻合成的Stable Audio，以及圖像生成領域的各類VAE（變分自編碼器）。這些模型的解碼器極其強大，能夠憑藉壓縮後的極少資訊"腦補"出細節，重建出栩栩如生的畫面。聽起來很美？問題在於，這種"腦補"本質上是一種有創意的猜測——模型會用統計規律填充它認為"應該存在"的紋理，而這些紋理未必真實存在於原始信號中。對於醫學影像來說，這簡直是災難性的：一塊被腦補出來的陰影，可能被誤判為腫瘤。

此外，這類生成模型普遍龐大且計算密集，光是編碼器部分就動輒數千萬參數，運行一次需要大量計算資源。在手持設備或遠程傳感器上實時運行，根本是無稽之談。它們的訓練也極度依賴專門為特定信號類型設計的"感知損失函數"——用來衡量"圖像看起來像不像"的指標，比如LPIPS。這種指標對圖像有效，對高光譜數據或三維醫療體素則完全沒有意義，導致這類模型幾乎無法遷移到新的信號類型上。

還有一類更樸素的通用方案：標量量化（把每個數值直接取整）或解析度降低（直接縮小圖像）。這類方法簡單直接、對任何信號都能用，但它們完全不考慮信號內部的結構和規律，就像打包行李時把所有東西一股腦壓進箱子，沒有任何摺疊技巧，浪費大量空間。

贊助商廣告

**三、LiVeAction的設計思路：拆成兩半，各司其職**

面對上述三類方案的共同不足，研究團隊提出的解決思路可以用一句話概括：**讓編碼器儘可能輕，讓解碼器儘可能強，兩者不必對稱。**

打個比方：你是一個在野外工作的地質學家，需要把岩石樣本的資訊發回給實驗室。你隨身攜帶的野外裝備（編碼器）必須輕便、耐用、省電，只需要完成基本的採樣和記錄工作。而實驗室里的大型分析儀器（解碼器）可以非常精密，耗時也無妨，因為它不用跋山涉水。這種"野外輕裝、實驗室精析"的分工模式，正是LiVeAction的核心邏輯。

大多數現有神經網路編解碼器採用的是"對稱架構"——編碼器和解碼器的規模、深度基本相同，就像兩個同等體量的儀器分別安置在野外和實驗室。但研究團隊發現，加深或加寬編碼器帶來的收益是遞減的：花雙倍計算量不會帶來雙倍的壓縮質量。既然如此，為什麼不把資源集中到解碼器上，讓編碼器"夠用就好"呢？

**四、輕量編碼器的秘密：像FFT一樣分組處理**

編碼器的輕量化是LiVeAction技術含量最高的部分之一，但核心思想其實並不難理解。

普通的神經網路層，其實就是一個巨大的"乘法表"——把輸入的每一個數值與每一個權重參數相乘再求和。這個矩陣越大，計算量越大。以一個處理1080p影片的編碼器為例：將影片信號變換到頻域後，每個小區域會產生1536個數值，需要將它們壓縮到12個潛在變量，對應的矩陣運算僅此一步每秒就需要超過17億次浮點運算。這還只是編碼器里的一個投影步驟。

LiVeAction的解決方案借鑑了兩個經典思想。第一個是FFT（快速傅里葉變換）的分組策略：FFT之所以"快"，正是因為它把一個大問題拆成若干相互獨立的小問題並行處理，每組之間不互相干擾，大幅減少計算步驟。第二個是ShuffleNet和Monarch矩陣的"塊對角結構"：把一個大矩陣分成若干小塊，每塊獨立計算，塊與塊之間通過通道重排（就像洗牌一樣交換位置）來保證資訊流通。兩者合用，就像把一個100人的大班級分成10個10人小組分別完成作業，再匯總結果——總工作量遠小於100人同時相互協作。

贊助商廣告

具體實現上，LiVeAction的編碼器用多層"分組卷積"替換了單一的大型矩陣投影。每一層只有少量參數，計算量極低，但多層疊加後加入了非線性激活函數（GELU）和分組歸一化（GroupNorm），使整個編碼器具備了捕捉複雜信號特徵的能力。研究團隊在圖3中展示了一個清晰的對比：隨著信號維度（即小波變換的級數J）增加，單一大矩陣的參數量呈三次方爆炸增長，而分組結構對的參數量增長則平緩得多，兩者之間的差距在高維場景下可以達到幾個數量級。

**五、解碼器的"奢侈品"：線性注意力機制**

既然編碼器要輕，解碼器就可以用更強的武器。LiVeAction的解碼器基於EfficientViT這一架構，其核心是"線性注意力機制"。

普通的Transformer注意力機制（支撐著GPT等大模型的關鍵技術）在處理高解析度信號時有個致命弱點：計算量隨著序列長度的平方增長。換句話說，圖像解析度翻倍，計算量變成原來的四倍。這對於處理高解析度影片或圖像的解碼器來說是個巨大負擔。

EfficientViT用ReLU函數替代了標準注意力中的Softmax，使計算量從平方增長變為線性增長——圖像解析度翻倍，計算量也只翻倍。研究團隊在此基礎上做了兩處改動：一是把原來的批歸一化（BatchNorm）換成分組歸一化（GroupNorm），消除了訓練時和實際使用時行為不一致的問題；二是把原本只支持二維圖像的架構擴展到支持一維（音頻）和三維（醫療體素、影片）信號，使同一套解碼器架構能適配所有信號類型。

**六、整體處理流程：從原始信號到壓縮文件，再還原回來**

LiVeAction的完整壓縮流程就像一條有序的裝配流水線，每道工序都有其特定職責。

信號進入系統後，首先經過小波包變換（WPT）。小波變換是一種經典的數學工具，可以把信號分解成不同頻率的成分，就像把一首音樂分解成低音鼓點、中音旋律和高音和聲。這一步用的是Cohen-Daubechies-Feauveau 9/7濾波器，這是圖像和音頻壓縮領域公認的高效分解工具，也是JPEG 2000標準採用的核心技術。分解之後，信號從時間/空間維度"摺疊"進了頻率維度，相鄰位置的冗餘資訊被有效去除。

贊助商廣告

接下來是一個可逆的"冪律壓擴變換"，作用類似於音頻處理中的動態壓縮：把大值稍微壓小、把小值稍微放大，讓數值分布更均勻，方便後續處理。

然後信號進入輕量化編碼器，產生潛在表示向量。之後經過一個基於拉普拉斯累積分布函數的非線性映射，把每個潛在值壓縮到-127到127的整數範圍內，嚴格控制在8位以內。這一步的"σ參數"是通過訓練學習的，能夠自適應地匹配不同信號的統計特性。

量化步驟採用有限標量量化（FSQ）：在訓練前期，量化用"加隨機噪聲"來模擬，讓編碼器學會容忍量化誤差；訓練到70%時凍結編碼器，後續只訓練解碼器，量化改為真實的取整操作。這種"先軟後硬"的策略可以避免早期訓練因量化不連續而產生的梯度問題。

量化後的整數序列經過熵編碼（類似於用ZIP壓縮整數文件），最終寫入磁盤或網路傳輸。研究發現，WEBP無損格式和JPEG-LS在壓縮效率與速度之間的平衡最佳，但不同熵編碼方案之間的差異其實很小。

解壓時，整個流程反向執行：熵解碼→反量化→解碼器重建→逆冪律變換→逆小波變換，得到重建信號。

**七、訓練目標的簡化：用方差代替概率模型**

傳統的學習型壓縮方案需要同時訓練一個"概率密度模型"來精確估計每個潛在變量的資訊量，並配備一個獨立的輔助優化器來維護這個模型。這套機制確實能精確控制碼率，但顯著增加了系統的設計複雜度，而且對於每種新信號類型都需要重新調整。

LiVeAction團隊提出了一個大膽的簡化方案：直接用潛在變量的**樣本方差的對數**來近似碼率。這背後有紮實的理論基礎——對於指數族分布（比如廣義高斯分布，而實際信號的潛在表示通常符合這類分布），最大熵原理告訴我們，在均值和方差固定的情況下，分布的熵（即資訊量）與方差的對數成正比。換句話說，控制方差就等效於控制碼率。

贊助商廣告

於是，最終的訓練損失函數只有兩項：第一項是均方誤差（MSE），衡量重建信號與原始信號的差距；第二項是潛在變量方差的對數，充當碼率懲罰項。二者之間用一個權重參數λ平衡，研究團隊發現λ=0.03在所有信號類型上都能穩定工作，無需針對每種信號單獨調參。這個λ值大約能把平均碼率壓縮一半——從每個潛在通道8比特降到大約4比特。

為了驗證這個簡化的代價有多小，研究團隊專門做了對比實驗。結果顯示，使用精確概率模型的版本每像素需要0.83比特，重建PSNR為31.19 dB；而使用簡化方差損失的版本只需要0.65比特，PSNR為30.85 dB。簡化版本在碼率上節省了22%，質量損失極其微小。對於大多數應用場景，這是一個非常划算的交換。

**八、為什麼不用感知損失和對抗損失**

生成式編解碼器（如Stable Audio、Cosmos）通常使用"感知損失"（比如LPIPS，衡量深度神經網路提取的特徵相似度）和"對抗損失"（讓一個判別器來評判重建結果是否足夠逼真）來訓練解碼器產生視覺上令人滿意的輸出。這兩類損失的本質，都是在引導解碼器去"填充"人眼喜歡看到的細節，即便這些細節並不來自原始信號。

LiVeAction完全放棄了這兩類損失，只用MSE。原因有三：第一，感知損失依賴特定的神經網路特徵提取器，這些特徵提取器往往專門針對圖像設計，對音頻、高光譜或醫療體素沒有任何意義；第二，對抗訓練極不穩定，對超參數極度敏感，容易崩潰，需要大量調試經驗；第三，對於機器感知任務，"逼真但不準確"比"略微模糊但忠實"危害更大——一個自動駕駛系統可不希望因為編解碼器"腦補"了一道不存在的路障而緊急剎車。

當然，純MSE訓練的代價是解碼器不會主動合成高頻紋理細節，重建圖像在放大後可能略顯平滑。研究團隊對此給出了一個優雅的補充方案：在解碼器輸出之後，可以選擇性地接入一個獨立的生成模型（比如FLUX ControlNet）來做"後處理增強"。這個生成模型以解碼器輸出為條件，補充紋理細節。實驗結果顯示，這種後處理能帶來約0.5 dB的DISTS指標提升，且更重要的是顯著恢復了視覺上的細節質感，同時由於生成增強是完全獨立的可選模組，核心編解碼器的保真度不受任何影響。

贊助商廣告

**九、如何適配不同信號類型：幾條實用經驗**

LiVeAction聲稱可以適配任意信號類型，但實際操作時仍需要根據信號特性選擇若干超參數。研究團隊總結了一套簡潔的設計經驗，並將完整配置代碼開放在GitHub上。

關於信號維度的選擇，大多數情況下是自然確定的：單通道音頻顯然是一維，彩色圖像是二維。但對於多通道信號（比如224個波段的高光譜圖像），如果通道數與空間解析度處於同一量級，且所有通道的物理單位一致（都是輻射度值），就可以把通道維度當作額外的空間維度處理，讓模型在通道之間也發現冗餘規律。

關於潛在變量數量（即壓縮到多少個"核心數值"），研究團隊推薦選取原始信號維度的1/64。對於自然信號，冗餘度通常很高，64倍的維度壓縮往往不會帶來明顯的質量損失。

關於小波分解的級數J，建議選取使得每層內部的隱藏維度落在512到1536之間的值。這個區間被實驗證明是計算效率和表達能力的甜蜜點——太小則模型容量不足，太大則計算浪費。

關於編解碼器深度，研究發現編碼器4層、解碼器8層的組合能在實時編碼速度、解碼器訓練成本和壓縮質量之間取得最佳平衡。這種不對稱的深度配置恰好體現了"輕編碼器、強解碼器"的核心設計哲學。

**十、實驗結果：從音頻到3D醫療圖像，全面超越對手**

研究團隊為六種不同的信號類型訓練了專屬編解碼器，並與業界最強的對比方案進行了系統性評測。

**立體音樂**方面，對比對象是Stable Audio（一款支撐Stability AI音頻生成產品的VAE）。Stable Audio的潛在變量因為沒有碼率約束，熵值很高，需要用16位浮點數儲存才能避免量化失真，實際壓縮比僅為64:1。LiVeAction的碼率懲罰有效壓低了潛在變量的熵，實現了195:1的壓縮比，高出Stable Audio約3倍。音質方面，LiVeAction達到36.57 dB的PSNR，比Stable Audio高出8.15 dB。編碼速度方面，由於結構化卷積運算遠比Stable Audio的標準CNN層高效，LiVeAction的編碼吞吐量超出Stable Audio 16倍以上，在大段音頻上尤為突出（5012 KSamp/s對比229 KSamp/s）。

贊助商廣告

**空間音頻**方面，對比對象是Meta的EnCodec（當前業界最廣泛使用的神經音頻編解碼器）。LiVeAction實現了12.8倍的維度壓縮（64倍 vs EnCodec的5倍），2.2倍更高的壓縮比（1013:1 vs 455:1），以及35.6倍更快的編碼速度。在信號質量上，空間音頻特有的空間失真指標（SSDR）提高了6.09 dB，殘差失真指標（SRDR）提高了13.55 dB，說明LiVeAction在保持空間音場結構方面有顯著優勢。

**RGB圖像**方面，這是評測最為全面的一塊。在低功耗移動處理器（Intel Arrow Lake 255U）上，LiVeAction的編碼吞吐量為9.95百萬像素/秒，高於WaLLoC（6.12 Mpix/s）和AVIF（3.01 Mpix/s），而Cosmos根本無法在這款CPU上運行。相對於JPEG 2000的BD-rate（Bj?ntegaard Delta率，用於綜合評估不同碼率下的質量差距，負值越大越好）：在PSNR指標上節省36.55%的碼率，在SSIM指標上節省70.30%，在DISTS指標上節省70.27%。Cosmos在PSNR上表現差（+49.61%，反而需要更多碼率），但在SSIM和DISTS上有優勢（因為它會生成視覺上更銳利的細節）。

特別值得關注的是機器感知實驗：研究團隊將不同編解碼器壓縮後的圖像送入EVA-CLIP視覺Transformer模型進行ImageNet 1000類分類，以分類準確率衡量"壓縮後資訊保留了多少"。LiVeAction在0.19 bpp下達到79.81%的分類準確率，與Cosmos（同樣約0.25 bpp下約87%）的差距來自於Cosmos是在ImageNet上訓練的（相當於刷題），而LiVeAction完全沒有見過ImageNet數據。即便如此，LiVeAction在相同或更低碼率下與Cosmos不相上下，說明其壓縮對機器視覺任務同樣有效。

**高光譜圖像**方面，LiVeAction對比的是JPEG 2000（高光譜領域常用的通用壓縮方案）。兩者在相同壓縮比（575:1）下，LiVeAction的PSNR（18.52 dB）略高於JPEG 2000（18.18 dB），同時維度壓縮比高出64倍（LiVeAction為64維度壓縮，JPEG 2000不做維度壓縮）。編碼速度上，LiVeAction在GPU上達到600 MVox/s，是CPU版JPEG 2000（12.47 MVox/s）的約48倍；即使都跑在CPU上，LiVeAction（14.93 MVox/s）也超過JPEG 2000（6.45 MVox/s）兩倍以上。

贊助商廣告

**三維醫療體素**方面，在MEDMNIST 3D數據集（包含器官、骨折、結節等6類醫療影像）上，LiVeAction以64倍維度壓縮、2.1倍更高的體積壓縮比（209:1 vs 95.62:1）和2.7 dB更高的PSNR（24.74 dB vs 22.00 dB）全面超越JPEG 2000，同時編碼速度（54.08 MVox/s）是CPU版JPEG 2000（13.60 MVox/s）的約4倍。

**影片**方面，Cosmos DV8×8是業界最強的神經影片標記器之一。但Cosmos在處理完整1080p影片時會遭遇內存溢出，必須以24幀為單位分塊處理，還需要50%的重疊來避免邊界偽影，這導致實際壓縮比和速度大打折扣。LiVeAction無需分塊，單次通過即可處理全長1080p影片，在RTX 4090上達到52.94幀/秒的編碼速度，而Cosmos即使在分塊模式下也只有13.73幀/秒。壓縮比方面，LiVeAction（約330倍）比Cosmos DV8×8的實際可用壓縮比（約192倍）高出約1.7倍。在CPU上，LiVeAction以107.6幀/秒處理240p影片，實現了低解析度下的真實時編碼。

表V中還列出了更詳細的RGB圖像對比數據，涵蓋Kodak測試集和ImageNet 1k數據集，包括PSNR、LPIPS、DISTS、SSIM等多個指標，以及在不同碼率配置下與Balle 2018 Hyperprior、AVIF等主流方案的全面比較。總體趨勢是：在相同PSNR下，LiVeAction通常需要更少的碼率；在相同碼率下，LiVeAction的結構相似度指標（SSIM、DISTS）普遍優於未使用生成損失的方案，而PSNR則與Balle 2018等傳統學習型壓縮方案接近。

**十一、參數規模與訓練資源：小而精的哲學**

LiVeAction的規模對比數據令人印象深刻。Cosmos的編解碼器有3200萬參數；WaLLoC有9200個參數（極度精簡的線性投影版本）；LiVeAction有49.3萬參數，落在兩者之間，但在性能上顯著超越Cosmos的BD-rate表現。

訓練數據規模上，LiVeAction使用的訓練集都是相對小規模的領域數據集：音樂用的是MUSDB18-HQ（約7小時高質量音樂），圖像用的是LSDIR，影片用的是6000個Vimeo90k短片段。與之形成對比的是Cosmos，訓練消耗了數百乃至數千GPU天的計算資源，並且使用了網際網路規模的數據。LiVeAction的圖像編解碼器據估計可在單張GPU上完成訓練，大大降低了研究門檻，也意味著任何機構都可以為自己的專有信號類型訓練定製版本，而無需科技巨頭級別的算力支持。

贊助商廣告

---

說到底，LiVeAction做的事情有點像給工地上的搬磚工配備了一輛輕便的電動平板車：它不是最豪華的運輸工具，不能一次拉幾十噸貨，但它足夠輕、足夠省電，讓一個人在工地上快速穿梭，而真正的精細組裝工作留給倉庫里的大型設備來完成。這種分工哲學並不新鮮，但在神經網路編解碼器領域，它以前從未被如此系統、徹底地執行過。

從更宏觀的角度來看，這項工作的意義在於降低了"為新型傳感器設計專屬壓縮方案"的門檻。以前，你要麼用不合身的通用標準，要麼花費巨額資源訓練一個龐大的生成模型。現在，藉助LiVeAction的設計框架和幾條超參數經驗，一個小團隊在合理的時間和計算預算內，就能為一款全新的傳感器打造出超越傳統標準的專屬編解碼器。這對於醫療影像、環境監測、太空探索德克薩斯大學奧斯汀分校研究出新型輕量級數據壓縮神經網路同等畫質下比主流方案節省近一半頻寬等領域來說，潛在價值值得持續關注。

研究團隊也坦承了若干局限性和未來方向：目前LiVeAction是固定碼率訓練的，一個模型對應一個壓縮比率，未來希望探索可變碼率訓練；另外，與下游機器學習任務的聯合優化（即讓壓縮直接服務於檢測、分類等任務，而非重建質量）也是一個自然的延伸方向。對這項研究感興趣的讀者，可以通過arXiv編號**2605.06628**找到完整論文，研究代碼已開放在GitHub的UT-SysML/liveaction倉庫中。

---

Q&A

Q1：LiVeAction和普通的JPEG壓縮有什麼本質區別？

A：JPEG是根據人眼感知特性設計的，會優先保留人眼敏感的低頻資訊，丟棄人眼不在意的高頻細節。LiVeAction是通過神經網路從大量真實數據中學習信號本身的統計規律來壓縮，不依賴人眼特性，因此對高光譜、醫療體素等"機器看"而非"人看"的信號效果更好。在相同的文件大小下，LiVeAction在結構相似度指標（SSIM）上比JPEG 2000節省約70%的碼率。

Q2：LiVeAction的"不對稱設計"具體指什麼，為什麼這樣設計？

A：不對稱指的是編碼器（把原始信號變成壓縮表示）非常輕量，只有49.3萬參數且使用分組卷積結構；而解碼器（把壓縮表示還原為信號）更深、更強，使用線性注意力機制。這樣設計是因為傳感器設備需要實時編碼，計算資源極有限，而解碼往往在雲端伺服器上進行，資源充裕。研究發現加深編碼器的收益遞減，把資源集中在解碼器上更划算。

贊助商廣告

Q3：LiVeAction為什麼不用感知損失，去掉之後圖像質量會不會變差？

A：感知損失（如LPIPS）依賴專門為圖像設計的特徵提取器，對音頻、醫療體素等非圖像信號完全無法使用，會限制通用性。去掉感知損失後，重建圖像不會主動合成高頻紋理，放大後略顯平滑，但不會出現"腦補"出不存在內容的問題，對醫療影像等需要精確還原的場景更安全。研究團隊驗證：純MSE訓練後可選接入FLUX ControlNet做後處理增強，能在不影響核心保真度的情況下補充視覺細節，DISTS指標提升約0.5 dB。