這項由NVIDIA與以色列理工學院(Technion)及IBM研究院聯合開展的研究,以預印本形式發表於arXiv平台,編號為arXiv:2502.07408,最新版本更新於2026年4月16日。對於任何關心AI安全、自動駕駛、智能醫療乃至日常使用AI助手的人來說,這項研究揭示了一個令人警覺的現實:我們以為堅不可摧的AI系統,其實比想像中脆弱得多。
**一切從一個令人不安的問題開始**
假設你正在乘坐一輛依賴AI視覺系統的自動駕駛汽車,或者你的醫院正在使用AI輔助診斷癌症病灶。現在,某個心懷不軌的人,不需要入侵攝影機,不需要篡改數據,只需要悄悄改動AI系統內部一兩個微小的數字——具體來說,就是翻轉一到兩個"比特"(bit,電腦儲存資訊的最小單位,類似一個只能顯示0或1的開關)——就能讓整個系統完全失效、輸出胡言亂語,甚至陷入崩潰。
這不是科幻小說里的情節。來自NVIDIA與以色列理工學院的研究團隊,通過一系列嚴謹實驗,證明了這種攻擊不僅可行,而且極其廉價、幾乎不留痕跡。他們將這套方法命名為"深度神經病變"(Deep Neural Lesion,簡稱DNL),並進一步發展出一個增強版本"單次深度神經病變"(1P-DNL)。這兩個名字來源於神經科學中的"病變"概念——就像大腦中某個極小區域受損,卻能導致視覺、語言或運動功能的全面癱瘓一樣,AI系統中的極少數參數一旦被精準破壞,整個系統就會從智能變成廢物。
**一、理解戰場:AI系統究竟是怎麼工作的**
要理解這項研究,首先需要明白AI系統內部儲存資訊的方式。深度神經網路(Deep Neural Network,DNN)本質上是一個由海量數字組成的巨型數學結構,這些數字被稱為"參數"或"權重",它們是AI通過學習大量數據後積累起來的"經驗"。每一個參數在電腦內存中都以一串二進制數字(比如32個0和1的組合)的形式儲存,遵循一種名為"IEEE 754浮點數"的標準格式。
這32個比特中,最左邊那一個比特是最特殊的,它叫做"符號位",決定了這個參數是正數還是負數——就像一個數字前面的加號或減號。後面8個比特是"指數位",決定數字的大小範圍;最後23個比特是"尾數位",決定數字的精確值。
研究團隊發現的核心脆弱點,正是這個看似微不足道的符號位。翻轉一個參數的符號位,就等於把這個參數從正數變成負數(或反之),而且改變量極大——如果原來的值是+10,翻轉後就變成了-10,變化幅度高達20。這就好比在一個精密機械鐘錶里,把一個齒輪的旋轉方向從順時針改為逆時針,整個鐘錶的運作邏輯就會從根本上被顛覆。
更重要的是,研究團隊發現大多數隨機的比特翻轉對AI性能幾乎沒有影響。實驗數據表明,即使隨機翻轉高達10萬個比特,很多AI模型的準確率也不會持續下降——說明絕大多數參數都是"無關緊要"的,真正致命的只是極少數"關鍵參數"。正因如此,找到這些關鍵參數並精準打擊,才是這項研究的核心價值所在。
**二、病變的解剖學:哪些參數最致命**
研究團隊系統地分析了是什麼讓某些參數比其他參數更加脆弱,就像醫學研究者研究大腦中哪個區域受損會導致最嚴重的後果一樣。
第一個關鍵發現是:數值最大的參數往往也是最危險的目標。這個思路借鑑自AI領域的"剪枝"研究——研究者們發現,刪除數值小的參數對AI影響微乎其微,反而是大數值參數在AI決策中扮演著主角。既然如此,翻轉大數值參數的符號位,就相當於把AI最仰賴的"意見領袖"從支持者變成了反對者,自然會造成最大的混亂。研究團隊在理論上也給出了數學支撐:根據二階泰勒展開(一種數學工具,用來估算函數變化量),翻轉一個參數的符號位對損失函數(衡量AI錯誤程度的指標)的影響,近似正比於該參數數值的平方乘以該位置的曲率。當曲率在某一層內近似均勻時,這就直接退化為選擇最大數值的參數。
第二個關鍵發現是:攻擊神經網路的"早期層"比攻擊後期層更具破壞力。這個發現與大多數人的直覺相悖——人們可能以為靠近最終決策的層(如分類器)才是最脆弱的。然而實驗一再表明,早期層的破壞會產生"級聯效應":就像一條流水線的最前端出了問題,所有下游工序的產品都會受到污染,而流水線末端的小故障只影響最後一道工序。以視覺AI為例,早期層負責檢測邊緣、紋理等基礎特徵,這些特徵是後續所有高級理解的基礎。一旦早期層被破壞,AI就像一個突然失去了視力的人,無論後續的推理能力多麼強,也無法正確處理"看不見"的世界。
第三個重要發現專門針對卷積神經網路(一種專門處理圖像的AI架構):在同一個"卷積核"(可以理解為一個專門負責識別某種視覺特徵的小型過濾器)內,翻轉一個比特的破壞力遠大於翻轉兩個比特。原因是兩個翻轉可能相互抵消——如果第一次翻轉讓過濾器"看不見橫線",第二次翻轉可能又讓它恢復了某種對橫線的感知能力。研究團隊用數學公式清晰地展示了這種抵消機制:在自然圖像中,相鄰像素往往是正相關的,而早期卷積核的不同"葉片"(權重)往往正負交替,這就為兩次翻轉的相互抵消提供了條件。因此,DNL算法強制規定每個卷積核最多只翻轉一個參數,將破壞力分散到更多不同的過濾器上,從而放大整體損害。
**三、DNL攻擊的完整操作手冊**
基於上述三個核心發現,DNL的"無數據無優化"版本(Pass-free Attack)的工作邏輯其實出奇地簡單,像是一份只有幾步的極簡食譜。
攻擊者首先需要能夠讀取AI模型的參數文件,這是前提條件。然後,他們只看神經網路的前幾層(研究中默認取前10層),在這些層的參數中,按照絕對值從大到小排序,找出最大的那些參數。對於卷積網路,還要確保每個卷積核只挑一個參數。最後,把選中的參數的符號位從0改為1(或從1改為0),將正數變為負數。整個過程不需要運行AI模型,不需要任何數據,計算量幾乎為零——在計算複雜度上,DNL的開銷是O(θ) + O(k),其中θ是參數總量,k是翻轉數量,相比需要反覆運行模型的傳統攻擊方法(計算量是O(k × B × θ × m),其中B是候選比特數,m是批量大小),效率提升了幾個數量級。
單次增強版本(1P-DNL)則在此基礎上做了一次小小的"偵察":攻擊者用一個隨機生成的輸入(比如隨機噪聲圖片)運行一次AI模型,並計算梯度(一種衡量參數對輸出影響程度的數值)。隨後,將梯度資訊與參數大小結合,形成一個混合重要性分數:分數 = 參數絕對值 + |參數 × 梯度 + 1/2 × 參數? × 梯度?|。這個公式融合了"參數有多大"和"參數對輸出有多敏感"兩個維度,就像既考慮一個人的體重又考慮他的槓桿位置,從而更精準地找到"四兩撥千斤"的支點。這個增強版仍然只需要一次前向傳播和一次反向傳播,即便使用完全隨機的輸入數據,效果也顯著優於純粹基於大小的版本。
**四、實驗戰場:從圖像分類到推理大模型的全面崩潰**
研究團隊在三個完全不同的領域進行了大規模實驗,驗證這種攻擊的普遍性和破壞力,結果堪稱觸目驚心。
在圖像分類領域,研究團隊測試了48個主流ImageNet模型(ImageNet是一個包含超過100萬張圖片的大型圖像分類數據集,是評估圖像AI性能的標準基準)。結果顯示,僅僅翻轉10個符號比特,就有43個模型的準確率下降超過60%。其中,ResNet-50(一個廣泛使用的圖像分類模型,原始準確率約80%)在1P-DNL攻擊下,僅翻轉1個比特,準確率就暴跌99.4%,幾乎從高度智能變成完全隨機猜測。VGG-11(另一個經典圖像模型)在DNL攻擊下,翻轉3個比特就損失99.9%的準確率。ViT-B/16(一種基於變換器架構的視覺模型,原始準確率超過84%)在DNL攻擊下,5個比特翻轉就導致99.3%的準確率損失——而此前被視為最強攻擊方法的BFA(比特翻轉攻擊,需要大量數據和疊代優化)在相同模型上用5個比特翻轉只能造成30.1%的準確率下降。
這個對比非常說明問題:DNL在完全不需要數據、不需要任何優化計算的前提下,效果反而超越了需要大量資源的傳統攻擊方法。這就像一個徒手闖入者,不藉助任何工具,卻比裝備精良的專業盜賊更高效地打開了保險箱。
研究還專門評估了模型大小是否影響攻擊效果。橫跨ConvNeXt、RegNet、ResNet、EfficientNet和ViT五個架構家族,從數百萬參數的小模型到數億參數的大模型,大小與脆弱程度之間沒有明顯相關性——大模型並不比小模型更安全。
除了ImageNet,研究團隊還在DTD(描述紋理數據集)、FGVC-Aircraft(飛機細粒度識別數據集)、Food101(食物分類數據集)和Stanford Cars(汽車識別數據集)上驗證了攻擊效果。在這些數據集上,用EfficientNet-B0、MobileNetV3-Large和ResNet-50三個模型進行測試,DNL在5次翻轉內就能讓所有模型/數據集組合的準確率下降超過85%,而1P-DNL在4次翻轉內就能實現超過90%的下降。
在目標檢測與實例分割領域,研究團隊測試了在COCO 2017數據集(目標檢測領域最重要的基準數據集)上運行的Mask R-CNN(使用ResNet-50和ResNet-101骨幹網路)和YOLOv8-seg模型,且攻擊只針對骨幹網路部分,不觸動任務相關的檢測頭。結果同樣是災難性的:Mask R-CNN/ResNet-50在僅僅翻轉1個比特後,邊界框平均精度(bbox AP)從0.38跌至0.01(下降97.4%),實例分割精度(segm AP)從0.35直接跌至0.00(下降100%)。翻轉2個比特後,幾乎所有指標都歸零。即便是相對魯棒的YOLOv8-seg,在1到2次翻轉後,檢測和分割性能也損失超過77%。
這些失效不只是數字上的下降,在真實圖像中表現為令人匪夷所思的錯誤:一隻狗的圖像,經過攻擊後的Mask R-CNN雖然仍能大致畫出輪廓(因為骨幹網路受損但檢測頭完好),卻把它錯誤標記為其他類別;而YOLOv8-seg則直接無法識別那隻狗,反而在狗的尾巴位置"幻視"出了一隻鳥的檢測框。
在大語言模型領域,這項研究將攻擊延伸到了當前最炙手可熱的AI技術——推理型大語言模型。研究團隊測試了三個模型:Qwen3-4B(阿里通義團隊開發的40億參數推理模型)、Qwen3-30B-A3B(300億參數的混合專家架構推理模型)和Llama-3.1-Nemotron-Nano-8B(英偉達
開發的80億參數推理模型)。測試集是MATH-500的50道數學題子集,評估標準是答案正確率。
Qwen3-30B-A3B是其中最令人震驚的案例。這是一個"混合專家"(Mixture-of-Experts,MoE)架構——可以理解為一個由數十位專家組成的團隊,每次處理問題時只請其中少數幾位專家參與。常理上,這種架構應該對局部破壞具有天然的抵抗力,因為任何一位專家的失效似乎只影響他處理的那部分問題。然而實驗表明,DNL攻擊只需翻轉2個比特(分別是第1層專家68和第3層專家82的某個權重的符號位),就能讓這個模型的數學解題準確率從78%直接歸零。1P-DNL攻擊更進一步,僅翻轉1個比特就能造成71.8%的準確率損失,翻轉4個比特後達到100%的損失。
更令研究者感興趣的是失效的方式:模型並非給出接近正確的答案,而是陷入了類似"精神失常"的狀態,不斷重複無意義的短語。DNL攻擊後,模型反覆輸出"I'm going to help you with the solution."(我將幫助你找到解決方案)這樣的套話,卻再也無法給出任何實質內容。1P-DNL攻擊後,模型則無限循環地輸出"Hello, I am a student, I am a student, I am a student..."。這種"無限循環廢話"的失效模式,比簡單的答錯更令人擔憂,因為它極難被自動檢測系統發現——從外觀上看,模型仍在"正常工作",只是輸出了毫無價值的內容。
Qwen3-4B和Nemotron Nano 8B同樣脆弱,只是需要的翻轉次數略多:Qwen3-4B在全層搜索模式下,DNL用14次翻轉就能造成100%的準確率損失,而1P-DNL僅需4次翻轉就能達到95.3%的損失。Nemotron Nano在1P-DNL攻擊下,17次翻轉就能造成100%損失。相比之下,對同樣的模型隨機翻轉符號位,翻轉100次後準確率幾乎不變——Qwen3-30B-A3B隨機翻轉27次後仍保留70%準確率,Qwen3-4B隨機翻轉100次後仍保留80%準確率。這個對比清晰說明了"精準打擊"與"隨機破壞"之間的天壤之別。
除了解碼器風格的大語言模型,研究團隊還測試了編碼器風格的文本分類模型,包括在GLUE基準測試(自然語言理解領域的標準評估套件)上微調的BERT、DistilBERT和RoBERTa。在MRPC(句子對改寫識別)、QNLI(問題-自然語言推理)和SST-2(情感分析)三個任務上,攻擊效果同樣顯著:10次翻轉內的平均相對準確率下降在69.99%到83.07%之間,沒有一個模型能夠倖免。
**五、攻擊者如何進入:比特翻轉的現實途徑**
有讀者可能會問:攻擊者真的能在現實中翻轉AI參數的某個比特嗎?研究團隊詳細梳理了多種已知的攻擊途徑,這些都不是理論假設,而是有據可查的真實攻擊方式。
Rootkit(根套件)是一種運行在作業系統最高權限級別的惡意軟體,一旦安裝,它可以掃描系統內存,定位AI模型的參數文件,然後精準地修改其中的目標比特,同時隱藏自己的存在,使常規安全軟體難以察覺。固件漏洞(例如硬碟控制器、GPU固件或BIOS中的安全漏洞)可以讓攻擊者獲得直接讀寫內存的能力。DMA(直接內存訪問)攻擊則利用Thunderbolt或FireWire等高速接口的外設直接讀寫系統內存,繞過作業系統的訪問控制。Rowhammer攻擊利用了現代動態隨機存取內存(DRAM)的物理特性:通過高頻訪問某一行內存,可以導致相鄰行的比特發生電氣干擾而翻轉,完全不需要直接寫權限。GPU緩存篡改則通過控制GPU驅動或GPU代碼來操控緩存管理,誘發參數比特翻轉,由於GPU緩存的安全審計通常不如CPU嚴格,這種攻擊往往更難被發現。電壓/頻率故障注入攻擊通過操控供電電壓或時鐘頻率,在特定時刻誘發計算錯誤,從而在寄存器或內存中造成可預測的比特翻轉。
這些途徑的共同點是:攻擊者只需要在某個時刻獲得對模型儲存位置的訪問權限,完成翻轉後即可離開,不需要持續在線,也不需要在攻擊過程中運行模型或獲取數據。
**六、符號位對比指數位:最有效的破壞方式因領域而異**
在攻擊具體哪個比特的問題上,研究團隊做了細緻的對比分析,發現結論因應用領域不同而存在顯著差異,這個發現本身也頗有深意。
對於視覺模型(圖像分類、目標檢測等),翻轉符號位(最高位,決定正負)通常比翻轉指數位最高位(決定量級範圍)更具破壞力,尤其在翻轉次數少的情況下效果更穩定。以VGG-11為例,10次翻轉符號位可造成91.8%的準確率損失,而10次翻轉指數位只造成53.9%的損失。當然也有例外,比如ResNet-18在指數位攻擊下損失99.9%,而在符號位攻擊下只損失70.6%;Inception-V3在指數位攻擊下損失99.9%,在符號位攻擊下損失96.8%。總體而言,符號位攻擊在視覺模型上更穩定可靠。
對於語言模型,指數位攻擊則更具毀滅性。在前5個塊的設定下,僅翻轉1個目標指數位就能讓三個推理LLM(Qwen3-30B-A3B、Qwen3-4B和Nemotron Nano 8B)的準確率歸零。隨機翻轉指數位的破壞力也遠超隨機翻轉符號位:僅僅隨機翻轉1個指數位,Qwen3-30B-A3B的準確率就已經降至6%。研究團隊分析,這是因為指數位的改變會導致數值的極端縮放(比如把一個正常的數字變成天文數字或趨近於零),而語言模型對這種劇烈的數值範圍變化極為敏感,相比之下簡單的符號翻轉更為"溫和"。
**七、攻擊能繞過哪些防禦措施**
面對如此強大的攻擊,研究團隊也測試了若干已有的防禦方案,結論是這些方案大多無效。
DeepNcode是一種將每個浮點數權重編碼為更長二進制碼字的防禦方案,利用不同有效碼字之間的漢明距離大於1這一特性,自動糾正孤立的比特翻轉。然而,研究團隊指出了一個根本性漏洞:這種防禦假設攻擊者不知道編碼方案,但在灰盒場景中(攻擊者不知道編碼本,但可以觀察解碼後的結果),攻擊者可以通過選擇性地翻轉編碼中的比特,搜索距離最近的另一個有效碼字,只要該碼字解碼後的值與原值符號相反,就等於繞過了糾錯機制完成了符號翻轉。這就像銀行的防偽措施假設偽幣製造者不知道驗鈔規則,但如果偽幣製造者能反覆測試驗鈔機的反應,他最終仍然能造出能通過驗證的假幣。
權重縮放防禦的思路是將所有參數乘以一個常數c後儲存,推理時再除以c,從而讓加性擾動(在數值上加減某個量)的影響縮小c倍。然而符號翻轉是乘性擾動而非加性擾動:將θ翻轉為-θ,等價於乘以-1。儲存的值是c×θ,翻轉後變成-c×θ,推理時除以c得到-θ,與未防禦時完全相同。因此,權重縮放對符號翻轉攻擊完全無效,就像給一把鎖換了更大的鑰匙孔,卻忘了換鎖芯本身。
對於二值化神經網路(Binary Neural Networks,一種將所有權重限制為+1或-1的極端壓縮架構,常被認為對權重擾動具有天然抵抗力),DNL同樣有效。研究對一個二值化ResNet-18的測試顯示:翻轉1個比特的準確率損失僅為0.14%,但翻轉3個就能造成60.71%的損失,翻轉10個則達到96.50%的損失——雖然比標準精度網路需要更多翻轉,但仍然遠非"免疫"。
**八、反向利用:用攻擊知識構建防禦**
研究團隊指出,識別關鍵參數這一能力本身,也可以反過來用於防禦。如果我們知道哪些參數最脆弱,就可以給它們提供額外的保護,而無需保護所有參數——這在計算和儲存成本上要經濟得多。
一種直接的方案是對關鍵參數的符號位進行多份複製,推理時採用多數投票,只有當多個副本同時被翻轉才會產生實際影響。另一種更實際的方案是對關鍵參數使用錯誤糾正碼(ECC,如漢明碼),自動檢測並糾正孤立的比特翻轉。研究團隊建議將DNL識別的高分數參數(絕對值最大的那些)作為防護對象,而絕大多數參數可以不加保護。
實驗結果表明這種選擇性防禦非常有效。保護ResNet-18最關鍵的約0.001%的參數(僅100個參數),就能將BFA(比特翻轉攻擊,一種需要數據和優化的現有攻擊方法)在10次翻轉內的平均準確率損失從88.87%減半至58.83%;若保護1%的參數(約10萬個),損失幾乎降為零(0.00%)。ResNet-50、MobileNet-V2和ViT-B/16@224也有類似結果:保護1%的參數後,BFA的攻擊效果分別從93.87%降至1.30%、從99.90%降至44.30%、從82.30%降至0.21%。
研究還對比了"有選擇地保護關鍵參數"與"隨機保護同等數量的參數"的差異,結論非常清晰:即使保護了20%的隨機參數,模型在10萬次隨機符號翻轉面前仍然高度脆弱;而保護5%的關鍵參數就能提供顯著的防護效果。換句話說,保護哪些參數遠比保護多少參數更重要。這一發現同時從側面證明了DNL能可靠地識別出真正關鍵的參數——它找到的正是窮舉搜索的BFA攻擊試圖破壞的同一批參數。
**說到底,這意味著什麼**
這項研究揭示的不是某個具體AI產品的某個具體漏洞,而是當前主流深度神經網路架構的一個根本性結構脆弱性:絕大多數AI系統的"智能"高度依賴極少數關鍵參數,而這些參數的識別方法出奇地簡單,攻擊成本出奇地低廉。
對於部署在關鍵場景(自動駕駛、醫療診斷、金融風控、軍事決策等)的AI系統,這意味著物理層面的硬體安全和參數儲存完整性不再是可以忽視的次要問題,而是與算法精度、數據質量同等重要的核心安全要素。一個在精度測試中表現完美的AI系統,在參數儲存層面可能脆弱得令人擔憂。
研究團隊的工作也為AI安全領域提供了一個新的研究方向:如何設計在參數層面更魯棒的神經網路架構,以及如何在不顯著增加計算成本的前提下保護關鍵參數。研究者明確指出,DNL的局限性在於它假設攻擊者能夠訪問並修改整個模型的參數——如果模型的參數被分片儲存、隔離保護或只有部分可寫,攻擊的效果會大打折扣。這為防禦設計提供了方向。
如果你對這項研究的完整技術細節感興趣,可以通過arXiv平台檢索論文編號arXiv:2502.07408,查閱NVIDIA與以色列理工學院研究團隊發布的完整論文原文。
Q&A
Q1:DNL攻擊需要攻擊者具備哪些條件才能成功?
A:DNL攻擊最核心的前提條件是攻擊者能夠讀取並修改AI模型的參數文件。攻擊者不需要任何訓練數據、不需要運行模型、也不需要進行任何複雜的計算優化。可以實現這一訪問權限的途徑包括:通過Rootkit等惡意軟體獲得系統高權限、利用固件漏洞直接操控內存、通過DMA攻擊繞過作業系統訪問控制,或利用Rowhammer等硬體級攻擊誘發內存比特翻轉。一旦獲得訪問權限,整個攻擊的計算量極小,甚至不需要使用GPU,翻轉幾個比特的操作在任何計算設備上都能瞬間完成。
Q2:為什麼對大語言模型翻轉符號位只需要兩次就能讓準確率歸零?
A:Qwen3-30B-A3B這類混合專家模型(MoE)每次處理問題時只激活少數專家,看似應該對局部破壞有抵抗力,但實驗揭示了一個關鍵機制:被破壞的專家在處理輸入時產生了極端扭曲的隱藏狀態(中間計算結果),這個被污染的狀態通過注意力機制(模型層與層之間傳遞資訊的方式)持續向後傳播,即使後續層不再使用被破壞的專家,錯誤信號也已經被"混入"了整個處理流程。研究者觀察到,被攻擊的專家在後續生成階段只參與了約4.14%的token處理,但從第一個生成的token開始,輸出就已經完全崩潰成無意義的重複內容。這說明"損壞"不是局部的,而是通過模型內部的資訊傳播機制擴散到了整個計算圖。
Q3:如何判斷自己部署的AI系統是否需要針對DNL攻擊類型進行防護?
A:評估是否需要防護主要考慮兩個維度:一是部署場景的安全敏感度,二是模型的物理訪問可控性。如果AI系統部署在自動駕駛、醫療診斷、工業控制等高風險場景,或者運行在可能遭受固件攻擊、供應鏈攻擊的硬體平台上,則應當認真評估參數層面的安全性。研究提供了一種低成本的防禦思路:用DNL自身的參數識別方法(按絕對值排序找出前1%的最大權重),對這些參數的符號位實施錯誤糾正碼(ECC)保護或多副本校驗,在幾乎不增加推理成本的前提下顯著提升魯棒性。實驗表明保護1%的關鍵參數就足以使現有已知攻擊方法的效果降至接近零。






