圖像分類AI的「地圖」里到底有沒有「洞」？圖賓根大學團隊用數學方法給神經網路做了一次拓撲體檢

這項由德國圖賓根大學醫學數據隱私與隱私保護機器學習實驗室（MDPPML）及生物資訊學與醫學資訊學研究所（IBMI）聯合開展的研究，以預印本形式發布於2026年5月，論文編號為arXiv:2605.06380，感興趣的讀者可通過該編號在arXiv平台檢索完整論文。

贊助商廣告

一、神經網路分類器的"地圖"長什麼樣？

當一個圖像識別AI看到一張照片時，它會做出判斷：這是貓、這是汽車、這是香蕉。但在AI的內部世界裡，這個判斷過程是怎麼發生的？有一種理解方式是把AI想像成一個超級複雜的地圖繪製者，它把所有可能的圖像分成了若干塊區域，每塊區域貼上一個標籤——比如"貓區"、"汽車區"。只要一張圖片落在"貓區"里，AI就會說"這是貓"。

這些區域在數學上叫做"決策區域"。問題是，這些區域的形狀是什麼樣的？它們是整塊的還是碎片化的？是不是存在奇怪的"洞"？過去的研究已經確認，同一類別的圖像區域通常是"連通"的，也就是說從同類的圖像A到圖像B，存在一條路徑可以一直保持在同一類別區域內行走，不會突然跳到別的類別去。但這項新研究想問一個更深的問題：這些區域裡有沒有"洞"？

用地圖來打比方：一塊普通的大陸是完整的，沒有洞。但如果這塊大陸的中間有一個湖，從地圖上看就像一個"洞"——你可以圍著湖走一圈，這個圓圈無法被壓縮成一個點，因為中間有湖擋著。數學上，能夠把任何圓圈都壓縮成一個點的區域叫做"單連通"區域，而有"洞"的區域就不是單連通的。這項研究就是要弄清楚，深度學習圖像分類器的決策區域，是否是單連通的。

二、從"路"到"面"：研究問題升級了

以前的研究驗證的是"連通性"——能不能從A走到B。這就好比檢查地圖上兩個城市之間有沒有路。而這項研究驗證的是"單連通性"——能不能把一個圓圈收縮成一個點。這就好比檢查地圖上有沒有湖泊或孤島，使得某些路線圍不攏、收不回來。

贊助商廣告

從數學角度說，這是從"一維問題"升級到了"二維問題"。路是一維的，而能把圓圈填滿的"面"是二維的。研究團隊的核心想法是：如果我在決策區域裡畫一個封閉的圓圈，能不能在圓圈內部填滿一個"膜"，而這個膜也完全在同一決策區域內？如果能，就說明這個圓圈可以被收縮，區域具有單連通性。

為了實際操作這個檢驗，研究團隊不是在紙上畫圈，而是選取四張被同一個AI分類為同一類別的圖像，把它們當作圓圈的四個角，然後嘗試用圖像空間裡的一個"面"來填滿這四個角圍成的框。如果這個面里的每一個點都被AI分類為同一類別，那就說明這個圓圈可以被填滿，即可以被收縮。

三、研究用到了哪些數學工具？

要理解研究團隊的方法，先得明白圖像在電腦里是什麼。一張普通的彩色圖像在電腦里是一個由數字組成的大矩陣，每個像素有紅綠藍三個數值。所以，圖像可以被看作一個超高維空間裡的一個點——維度等於像素數乘以3。對於常見的224×224像素圖像來說，這個空間的維度高達約15萬。研究就在這個超高維空間裡進行。

研究團隊引入了一個叫做"Coons曲面片"的經典幾何工具。Coons曲面片源自電腦輔助設計領域，是1967年提出的一種數學方法：給定四條邊界曲線，它能自動生成一個自然平滑地填充在這四條邊界之內的曲面。就像給你四根彎曲的鐵絲圍成一個框，Coons方法能幫你找到一塊最自然的布來蒙在這個框上。

研究團隊先構建Coons曲面作為參考，然後用自己的方法生成一個"保標籤曲面"（即所有點都被分類為同一標籤的曲面），最後比較這兩個曲面有多相似。如果自己生成的曲面和Coons參考曲面面積接近、形狀相近，就說明決策區域不僅能被填滿，而且填法還很自然，不需要繞很大的彎。

研究還引入了一個叫做"灰度均方根距離"的度量單位，用來衡量圖像之間的差異。簡單說，如果兩張圖像的距離為1個灰度單位，意思是平均每個像素差了大約一個灰度級別——對人眼來說幾乎看不出差別。這個度量讓研究團隊能以一個直觀的尺度來判斷曲面的精細程度。

贊助商廣告

四、具體怎麼操作？"補丁"遊戲

研究團隊設計了一套逐步細化的四邊形網格填充程序。可以把這個過程理解為用越來越小的瓷磚來鋪一塊地。

第一步，選取四張圖像作為角點，這四張圖像已經被確認屬於同一類別。然後，沿著四條邊生成路徑：每條邊是兩個角點圖像之間的一條連續路徑，路徑上所有的圖像也都屬於同一類別。如果直線路徑上有圖像被分錯了類，就用一種叫做DeepFool的工具把它拉回來——DeepFool是一種能找到最近的分類邊界的算法，這裡被反過來用，把跑出去的點拉回正確區域。

第二步，在這四條邊圍成的框裡，先試著鋪一塊大瓷磚，也就是一個粗糙的曲面。在這塊大瓷磚上均勻取一些點，逐個檢查它們的分類標籤。如果所有點都屬於正確類別，這塊瓷磚就被接受了。如果有點跑出了決策區域，就把這塊大瓷磚切成四塊小瓷磚，分別檢查，如果還有問題就繼續切，直到所有瓷磚都通過檢驗，或者瓷磚小到已經超過了研究設定的精度閾值（0.5個灰度單位）。

每當切割產生新的頂點時，這個新頂點也要接受分類檢驗。如果它被分錯了，就用DeepFool把它拉回正確區域。整個過程結束後，所有被接受的小瓷磚拼在一起，就構成了一個完整的"保標籤曲面"。

這個方法有一個很聰明的設計：採用了"二進制網格"結構，也就是每次切割都把邊長減半，產生的頂點坐標都是2的冪次分之一。這樣，新生成的頂點自然地落在已有網格的格點上，不會產生不對齊的問題，整個曲面能保持連續和一致。

五、六種主流AI、六千個測試，結果如何？

研究團隊在ImageNet數據集（一個包含約128萬張圖像、1000個類別的大型圖像資料庫）上進行了實驗，測試了六種代表性的圖像分類模型。這六種模型幾乎覆蓋了當前主流的神經網路架構類型。

ResNet-50是一種通過"殘差連接"解決深層網路訓練難題的經典卷積網路，已在學術界和工業界廣泛使用。DenseNet-121則是一種讓每一層都與後續所有層直接相連的密集連接網路，資訊流動極其充分。EfficientNet-B0是谷歌通過系統性縮放寬度、深度和解析度來提升效率的緊湊型網路。ConvNeXt-Tiny是借鑑了Transformer設計思想的現代卷積網路。ViT-B/16是把圖像切成16×16像素小塊、用純Transformer架構處理的視覺Transformer。Swin-T是採用分層滑動窗口設計的層次化視覺Transformer。

贊助商廣告

對於每個模型，研究團隊構建了1000個測試"圓圈"，每個圓圈對應ImageNet的一個類別，共6000個圓圈、24000張圖像。每個圓圈由四張被該模型正確分類為同一類別的圖像作為角點構成，然後運行填充程序，看能不能成功構建保標籤曲面。

結果相當一致：所有6000個測試圓圈都被成功填充，成功率100%。

在第一輪測試中，使用默認的修復參數（最多50次DeepFool疊代），絕大多數圓圈直接成功。其中ResNet-50有999個成功、1個失敗；DenseNet-121有975個成功、25個失敗；EfficientNet-B0、ConvNeXt-Tiny、ViT-B/16、Swin-T分別有990、992、993、990個成功。對於第一輪失敗的案例，研究團隊用了更強的修復參數（最多200次疊代、調整後的超沖值和二分步驟）重新運行，全部成功。

六、表面之下：更多有趣的細節

研究團隊不只是記錄"成功或失敗"，還做了大量診斷性分析。

首先是"根級診斷"：在運行任何切割或修復之前，先直接測試最簡單的曲面——把四個角點直接做雙線性插值，看看這個粗糙曲面是否已經整體落在決策區域內。結果發現，只有少數圓圈通過了這個最簡單的測試：ResNet-50為15.9%，DenseNet-121僅6.9%，EfficientNet-B0為8.5%，而ConvNeXt-Tiny、ViT-B/16、Swin-T分別為38.9%、28.4%、42.2%。這說明，對於大多數測試案例，決策區域並不是簡單到可以用直接插值來填充的，需要自適應的細化和修復過程。較新的模型（ConvNeXt-Tiny、ViT-B/16、Swin-T）之所以根級通過率更高，可能是因為它們的決策區域在局部更"寬廣"，包含更多餘量。

其次是"覆蓋深度"分析：研究團隊追蹤了每一輪切割後已接受區域的累積比例。對於非根級通過的圓圈，大多數在前幾輪切割後就覆蓋了大部分面積，隨後逐漸趨近100%。研究還統計了達到50%、75%、90%、95%、99%覆蓋率所需的切割輪數，發現多數模型在3到5輪內就能覆蓋大半，困難區域只集中在少數需要細化到更深輪次的局部。

贊助商廣告

第三是"接受機制"分解：最終接受的小瓷磚有兩種接受方式——要麼直接通過網格點採樣檢驗，要麼是因為太小了（達到了灰度閾值）而自動接受。對於卷積網路（如ResNet-50、DenseNet-121、EfficientNet-B0），直接通過網格檢驗的比例較低，更多依賴細化到閾值以下自動接受；對於較新的Transformer類模型（ConvNeXt-Tiny、Swin-T），直接通過網格檢驗的比例更高，說明這些模型的決策區域在局部呈現出更"平坦"的特徵。

第四是與Coons參考曲面的比較：對於每個成功填充的圓圈，研究團隊計算了自己構建的保標籤曲面面積與Coons參考曲面面積的比值（稱為面積比ρ）。如果ρ接近1，說明保標籤曲面和Coons參考曲面幾乎一樣大，兩者形狀接近，填充方式很"自然"。結果顯示，所有六個模型的面積比分布都集中在1附近，中位數約在1.03到1.05之間，說明構建出的曲面並不需要大幅偏離自然插值，幾何上保持了較好的規則性。

七、網格有多複雜？修復有多難？

研究團隊還統計了最終生成的網格規模，以及整個過程中需要修復的頂點數量和難度。

從網格規模來看，各模型差異較大。ResNet-50平均需要約15600個小瓷磚（四邊形）和16600個頂點；DenseNet-121最多，平均約22900個四邊形和24260個頂點；EfficientNet-B0次之，約20800個四邊形；而ConvNeXt-Tiny最少，平均約5170個四邊形和5506個頂點；Swin-T更少，約4424個四邊形和4821個頂點；ViT-B/16居中，約6734個四邊形和7268個頂點。網格越複雜，說明決策區域的邊界在曲面附近越曲折，需要更多細化才能保證整個曲面都在目標區域內。

從修復難度來看，整體上修復是頻繁但容易的。以ResNet-50為例，平均每個圓圈需要修復約11039個頂點，但平均每次修復只需要約2.1次DeepFool疊代，沒有任何一次修復達到了疊代上限，也沒有失敗。其他模型的情況類似，平均疊代次數都在2到2.1之間，最多的單次疊代數也不超過28次。這說明，新引入的偏離目標區域的頂點，通常都非常靠近目標決策區域，只需輕微調整就能拉回來。

贊助商廣告

從計算時間來看，每個圓圈的處理時間差異較大。ResNet-50每個圓圈中位耗時約24.5分鐘，DenseNet-121約34.75分鐘，EfficientNet-B0約21.5分鐘，ConvNeXt-Tiny約13.5分鐘，ViT-B/16約31分鐘，Swin-T約14.3分鐘。其中，網格點採樣檢驗是最耗時的環節，約占總時間的一半到三分之二；切割和修復是次要耗時來源。

八、精度閾值更嚴格時，結論還成立嗎？

一個合理的質疑是：研究設定的精度閾值（0.5個灰度單位）是不是太寬鬆了？如果把閾值調得更嚴格，結果會不會不同？

研究團隊專門做了消融實驗，在ResNet-50的100個隨機圓圈上，用0.5、0.25、0.125（以及1.0作為對照）四個灰度閾值分別測試。結果：所有閾值下100%成功，沒有任何失敗。隨著閾值收緊，最終網格更複雜（從約2951個四邊形增加到約25931個四邊形），最大切割深度從7增加到10，但面積比的中位數始終保持在約1.03到1.05之間，說明曲面的幾何形狀沒有因為精度要求提高而變得更扭曲。這表明，研究的結論對精度要求的變化具有穩健性。

九、這些發現意味著什麼？

說到底，這項研究想說的是：現代圖像分類AI的"分類地圖"，不只是連通的，而且是沒有洞的。當然，研究團隊非常誠實地指出，這是有限精度下的實證證據，不是嚴格的數學證明。他們只能說，在所測試的解析度下，在所測試的6000個圓圈中，沒有發現任何無法填充的情況。更小尺度的"洞"，或者超出測試範圍的非收縮圓圈，理論上仍然可能存在。

但這個發現本身已經很有意思。它給了我們一個新的視角來理解AI的魯棒性問題。過去，人們發現AI很容易被微小的擾動"愚弄"——把一張圖像改動幾個像素，AI就可能把貓認成汽車。這讓人擔心AI的決策區域是碎片化的、脆弱的。而這項研究表明，即便存在這種局部的脆弱性，決策區域在全局上仍然可能是拓撲上連貫的、沒有洞的大結構。這就像一塊看似凸凹不平的大陸，雖然表面崎嶇，但總體上沒有被湖泊貫穿成環狀。

贊助商廣告

對於未來的研究，這項工作打開了幾個新方向。研究團隊提出可以開發更嚴格的數學認證方法，不只是在採樣點上驗證，而是在採樣點之間的連續區域也給出保證。此外，這種拓撲分析工具也可以用來理解為什麼不同架構的AI對對抗攻擊的抵抗程度不同——拓撲結構越簡單、越完整的決策區域，或許意味著更好的魯棒性。

歸根結底，這項研究做的事情有點像用衛星給一片陌生大陸拍照，證明它不像人們擔心的那樣布滿了湖泊和孤島。這不是終點，而是我們開始真正理解AI內部世界的一個新起點。有興趣深入研究的讀者可以通過arXiv編號2605.06380查詢完整論文，原始代碼也已公開於GitHub平台（搜索mdppml/contractible-class-regions即可找到）。

Q&A

Q1：什麼是決策區域的"單連通性"，為什麼它對理解圖像分類AI很重要？

A：單連通性是一個拓撲學概念，簡單說就是一個區域內沒有"洞"——任何畫在區域內的封閉圓圈都能縮成一個點而不越界。對圖像分類AI來說，如果決策區域是單連通的，意味著同一類別的圖像在AI的內部世界裡形成一個結構完整、沒有被貫穿的大塊區域，這有助於理解AI為何在全局上穩定，儘管局部可能存在被對抗攻擊欺騙的脆弱點。

Q2：DeepFool在這個研究里是怎麼被用到的？

A：DeepFool本來是一種用來生成對抗樣本的工具，能找到讓AI分類出錯所需的最小擾動方向。在這項研究里，研究團隊把它反過來用：當網格中某個新生成的頂點被AI分錯了類別時，DeepFool幫助找到把這個點"拉回"目標決策區域所需的最小調整方向，然後再通過二分搜索精確定位到區域內部，從而修復偏離的頂點。

Q3：Coons曲面片在這項研究里起什麼作用？

A：Coons曲面片是一種經典的幾何工具，能根據四條邊界曲線自動生成一個自然填充的曲面，就像用四根彎鐵絲框架蒙上一塊最平滑的布。在這項研究里，Coons曲面被用作幾何參考基準：研究團隊先構建Coons曲面，再構建自己的保標籤曲面，然後比較兩者的面積比。如果比值接近1，說明保標籤曲面和Coons參考曲面形狀相近，即填充方式很自然，不需要大幅繞彎，從而證明決策區域的形狀是相對規則的。

贊助商廣告