主流AI模型對惡意提示詞的防禦能力遠低於廠商宣稱

主流AI開發商對模型安全性的宣稱建立在對黑客行為的錯誤假設之上，思科研究人員在周三發布的一份報告中指出了這一問題。

贊助商廣告

思科表示，AI廠商假設如果他們的模型能夠抵禦單次惡意提示詞攻擊，就意味著模型是安全的。但黑客正越來越多地使用多階段提示詞來繞過模型防禦，而大多數模型並未對這類攻擊做好準備。

這份新報告揭示了AI模型內部一個大多被低估的危險，這可能使使用這些工具的企業面臨各種干擾和損害。

思科對來自OpenAI、Anthropic、谷歌、亞馬遜和xAI的15個主流AI模型進行了評估，研究人員Nicholas Conley和Amy Chang寫道："我們發現單輪攻擊成功率並不能可靠地反映攻擊者可以跨輪次調整策略時會發生什麼。"

他們的測試顯示，AI模型對多輪惡意提示詞的易感性要高得多——成功率範圍從8%到88%不等，而單輪提示詞的成功率範圍為2%到65%。

"我們測試的每個模型都表現出不可忽視的多輪攻擊成功率，"Conley和Chang寫道。

這兩位研究人員此前曾在2025年11月的一份報告中合作發現，開源權重AI模型對多輪攻擊的脆弱性是單輪攻擊的2到10倍。

"我們在開源模型中記錄的模式在閉源模型中同樣存在，"他們在新研究中寫道。"在疊代攻擊下，這批前沿閉源模型中沒有一個可以被描述為安全的。這是關於當前閉源模型前沿狀態的判斷，而不是針對任何單一廠商的評價。"

該研究最重要的發現之一是AI公司的優先事項與其模型安全性之間存在關聯。Conley和Chang發現，那些公開強調模型能力提升的AI開發商，其模型在單輪攻擊脆弱性和多輪攻擊脆弱性之間的差距最大。而那些公開聲明強調模型安全性的開發商差距較小，這表明他們在降低風險方面做出了更協調一致的努力。

研究人員測試了五種策略：角色扮演、誤導模型、資訊分解、重新框定模型拒絕以及漸進式升級。xAI的模型Grok 主流AI模型對惡意提示詞的防禦能力遠低於廠商宣稱 4.1 Fast Non-Reasoning表現最差，研究人員在88%的多輪攻擊中取得了成功。（他們在針對該模型的單輪攻擊中成功率為34%。）

贊助商廣告

表現最好的模型是亞馬遜的Nova 2 Lite，僅在8%的多階段攻擊中失守，儘管研究人員表示這一數字"仍然代表著有意義的殘餘風險"。

Conley和Chang指出，啟用推理功能後Grok 4.1的表現明顯更好，這表明AI廠商應該"記錄配置決策（如推理狀態）對安全性的相關影響"。

OpenAI、Anthropic、谷歌、亞馬遜和xAI均未立即回應置評請求。

研究人員表示，廠商需要重新思考如何評估AI模型安全性，企業需要更多關於模型單輪和多輪攻擊抵禦能力之間潛在差距的資訊。

"對於基於已發布的單輪評分做出的商業決策而言，這帶來了安全和治理風險，"Conley和Chang寫道。"單輪攻擊成功率為2.74%的模型與多輪攻擊成功率保持在24.68%的模型不是同一個產品。如果沒有配對機制的數據，兩者在大多數公開評估中無法區分，最終用戶永遠看不到這個差距。"

Q&A

Q1：什麼是多輪攻擊？它與單輪攻擊有什麼區別？

A：多輪攻擊是指黑客使用多階段提示詞來繞過AI模型防禦的攻擊方式，而單輪攻擊是一次性發送惡意提示詞。研究顯示，AI模型對多輪攻擊的脆弱性遠高於單輪攻擊，成功率範圍從8%到88%，而單輪攻擊成功率僅為2%到65%。

Q2：思科測試的AI模型中哪個表現最差？哪個最好？

A：xAI的Grok 4.1 Fast Non-Reasoning模型表現最差，研究人員在88%的多輪攻擊中成功突破了它的防禦。表現最好的是亞馬遜的Nova 2 Lite模型，僅在8%的多階段攻擊中失守，但研究人員表示這仍然存在有意義的殘餘風險。

Q3：AI廠商的優先事項如何影響模型安全性？

A：研究發現，公開強調模型能力提升的AI開發商，其模型在單輪和多輪攻擊脆弱性之間的差距最大。而強調模型安全性的開發商差距較小，表明他們在降低風險方面做出了更協調的努力。這說明廠商的關注重點直接影響模型的實際安全水平。