僅需12美元就能讓大語言模型「相信」一個徹頭徹尾的謊言

又一項實驗證明，污染大語言模型的門檻低得令人擔憂。

贊助商廣告

與搜尋引擎不同，搜尋引擎允許用戶自行判斷不同來源的可信度，而接入網路搜索的 AI 聊天機器人則可能將來源存疑的網頁內容轉化為聽起來言之鑿鑿的答案。一個典型案例是：一位安全工程師成功讓多款 AI 機器人"相信"他是一款熱門德國紙牌遊戲的現任世界冠軍——儘管這項錦標賽根本不存在。

如果你在上周末之前查看維基百科，會看到 Ron Stoner 的名字出現在《6 Nimmt!》（英文名 Take 5）的詞條頁面上，被標註為 2025 年世界冠軍。該詞條將官方外觀的 6nimmt.com 列為資訊來源，而訪問該網址確實能看到一篇慶祝 Stoner 奪冠的簡短新聞稿。

問題在於，Stoner 本人承認，無論是維基百科上的冠軍詞條，還是託管這唯一"證據"的 6 Nimmt! 域名，都是他自己創建的。即便如此，當他向多款 AI 聊天機器人詢問時，它們仍然告訴他：他就是世界冠軍。

"我的網站沒有任何獨立佐證，完全是憑空捏造的，"Stoner 在部落格文章中寫道，"整座紙牌屋的根基，不過是我喝咖啡時花 12 美元註冊的一個域名。"

換句話說，這是一次針對檢索增強生成（RAG）層的投毒攻擊。它並非提示詞注入，但攻擊的是同一個 AI 功能平面——即負責網路搜索的那一層。

正如 Stoner 所解釋的，許多讀者可能也早已意識到，AI 並不真正關心所引用來源的出處，而這正是他在設計這個實驗時想要利用的漏洞。

"所有具備網路搜索能力的前沿大語言模型，都會將答案建立在檢索排名最高的內容之上，"Stoner 寫道。在這個並不存在的《6 Nimmt!》錦標賽案例中，他植入的來源是唯一的資訊源，再加上維基百科賦予的表面權威性，這就成了一種萬無一失的欺騙手段，足以讓 AI 將謊言呈現為事實——而且這種操作簡單到非技術用戶也能輕鬆複製。

"我沒有做任何新奇的事，這不過是將老派的 SEO 和虛假資訊手段包裹在新的大語言模型技術與界面之中，"Stoner 在接受採訪時表示，"真正改變的是：AI 現在會將這些結果以權威的方式呈現出來，而大多數用戶根本不知道背後的數據管道是如何運作的。"

贊助商廣告

"大語言模型最難識別的，恰恰是它們被設計來做的事——信任文本和資源，"Stoner 在文章中指出，"答案不是'模型會自己搞清楚'，因為模型根本無法區分一個真實來源和一個我上周二剛註冊的域名。就像它也搞不清楚'strawberry'這個詞裡到底有幾個字母'r'一樣。"

Stoner 在實驗中揭示的問題涉及三種獨立的失效模式，這些模式可能被用於比偽造紙牌遊戲冠軍更具破壞性的目的。

第一是檢索層。任何依賴網路搜索來生成答案的大語言模型，都會繼承其檢索結果的可信度，而這一層可以立即導致模型輸出錯誤資訊。

第二是模型訓練語料庫。Stoner 表示，如果他對維基百科的修改存在足夠長的時間被爬蟲抓取，就可能進入模型的訓練數據。該詞條已於上周五他發布文章時被刪除，但他早在 2025 年 2 月就完成了這次修改，這意味著在此期間爬取過維基百科的 AI 公司，都可能將這段虛構的奪冠經歷納入訓練數據。

"即使維基百科的編輯事後被撤銷，任何基於撤銷前數據訓練的模型仍然會保留我留下的'遺產'，"Stoner 寫道，"語料庫投毒的清理問題，截至 2026 年仍是一個真正未解決的難題。"

Stoner 表示，他計劃在六個月後進行驗證——屆時新模型已經發布，如果在不聯網的情況下模型仍然返回他的冠軍頭銜，就證明這個謊言已經進入了訓練數據。

第三是 AI 智能體，Stoner 認為這才是真正對惡意攻擊者最具吸引力的目標。

"聊天模型產生錯誤資訊是聲譽問題，而擁有工具訪問權限的智能體產生錯誤行動則是安全問題，"他指出。通過污染智能體檢索到的來源，攻擊者可以指定希望智能體執行的操作。

"這次攻擊和測試只用了一個 12 美元的域名、一次維基百科編輯，以及大約二十分鐘的時間，"Stoner 在部落格中總結道，"如果換成一個有動機的攻擊者，配合幾個預先布局的域名，以及針對十幾篇低流量文章的協同編輯行動，攻擊面會迅速變得相當可觀。"

贊助商廣告

Stoner 表示，檢索投毒是大語言模型服務商需要正視並向用戶明確警示的問題，他預計 AI 聊天機器人在不久的將來將開始引入某種警告機制，尤其是針對 RAG 來源的結果。

他希望 AI 公司能將數據來源可信度作為核心流程要素，同時對近期網路內容進行啟發式過濾，以識別可疑模式。在《6 Nimmt!》這個案例中，這類過濾本可輕易發現問題：一個引用指向的域名註冊時間與維基百科詞條更新時間高度吻合，理應觸發警報，但實際上並沒有。

這個虛假的冠軍頭銜已經從維基百科和 RAG 響應中消失，但 Stoner 指出，使這一切成為可能的錯誤信任模式依然真實存在，並將成為 AI 開發者面臨的一個迫在眉睫的問題。

"我很高興我的文章引發了關於大語言模型、資訊來源、信任機制以及這一切運作方式的討論，"Stoner 說，"這正是我的目標，而我似乎已經實現了它。"

Q&A

Q1：什麼是 RAG 層投毒攻擊？它和提示詞注入有什麼區別？

A：RAG（檢索增強生成）層投毒是指攻擊者通過在網路上植入虛假內容，讓 AI 在檢索資訊時抓取並引用這些錯誤來源，從而輸出錯誤答案。提示詞注入則是直接在用戶輸入中嵌入惡意指令來操控模型行為。兩者攻擊的都是 AI 的資訊獲取環節，但 RAG 投毒針對的是外部數據源，而非模型本身的推理過程。

Q2：這次實驗為什麼只花了 12 美元就成功了？

A：Stoner 只需註冊一個 12 美元的域名，搭建一個看起來像官方新聞稿的頁面，再在維基百科上添加一條引用該域名的詞條，就完成了整個攻擊鏈。由於大語言模型在網路搜索時會直接信任檢索排名靠前的內容，而不驗證來源的真實性，這個"單一來源+維基百科背書"的組合足以讓多款 AI 將虛假資訊當作事實輸出。

Q3：AI 智能體在檢索投毒攻擊中面臨哪些特殊風險？

A：與普通聊天模型不同，AI 智能體通常擁有調用外部工具、執行實際操作的能力。如果智能體檢索到被污染的來源，攻擊者不僅能讓它輸出錯誤資訊，還可能誘導它執行特定的惡意操作，例如發送錯誤指令或觸發自動化流程。Stoner 指出，聊天模型產生錯誤資訊是聲譽問題，而智能體產生錯誤行動則是真正的安全問題。

贊助商廣告