宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

卡內基梅隆大學:大語言模型的隱私威脅遠不止「記住訓練數據」那麼簡單

2025年11月04日 首頁 » 熱門科技

這項由卡內基梅隆大學的Niloofar Mireshghallah教授和東北大學的Tianshi Li教授聯合開展的重要研究發表於2025年10月,論文編號為arXiv:2510.01645v1。研究團隊通過對1322篇過去十年間發表的AI隱私相關論文進行系統分析,揭示了一個令人震驚的發現:當前學術界對大語言模型隱私威脅的關注存在嚴重偏差,92%的研究都集中在"模型是否會泄露訓練數據"這一單一問題上,而真正威脅用戶隱私的其他四大類風險卻幾乎被忽視。

為了更好地理解這個問題,我們可以把大語言模型的隱私風險比作一座冰山。目前絕大多數研究者都在關注海面上那小小一角——也就是模型會不會把訓練時見過的文字原封不動地吐出來。但實際上,海面下還隱藏著巨大的威脅:聊天記錄被偷偷收集和泄露、AI助手在你不知情的情況下把你的私人資訊告訴別人、系統通過蛛絲馬跡推斷出你的敏感資訊,以及利用AI搜索功能把你散落在網上的個人資訊拼湊成完整檔案。

研究團隊發現,儘管訓練數據泄露問題確實存在,但在實際使用中,它造成的隱私風險遠小於其他四類威脅。然而,學術界卻將幾乎所有注意力都集中在這個相對較小的問題上,這就像消防隊把全部精力都用來撲滅小火苗,卻對真正的大火視而不見。更令人擔憂的是,隨著AI助手越來越智能、功能越來越強大,這些被忽視的隱私威脅正在急劇增長。

一、訓練數據泄露:被過度放大的威脅

當我們談論大語言模型的隱私風險時,大多數人首先想到的就是"模型會不會把訓練時看過的個人資訊原樣輸出"。這確實是一個真實存在的問題,就像圖書管理員可能會無意中複述某本書的內容一樣。但研究團隊通過深入分析發現,這個問題的嚴重程度被大大誇大了。

要理解為什麼訓練數據泄露風險被高估,我們需要了解現代大語言模型的訓練過程。這些模型就像海綿一樣,需要吸收大量的文字資訊才能學會理解和生成語言。訓練過程中,模型會接觸到來自網際網路的海量文本,包括新聞報道、學術論文、社交媒體帖子等等。在這個過程中,確實可能包含一些個人資訊。

然而,模型"記住"這些資訊的能力遠比我們想像的要弱。研究顯示,只有那些在訓練數據中重複出現四次以上的文本,模型才有可能逐字逐句地記住。而且,即使是這樣的文本,模型也只有在特定條件下才會原樣輸出。這就像一個人讀了一萬本書後,只能模糊地記住其中反覆出現的句子一樣。

更重要的是,現代大語言模型的訓練方式大大降低了記憶風險。訓練過程使用了巨大的數據批次、很少的重複訓練輪次,以及高度多樣化的數據集,這些因素都會稀釋潛在的記憶效應。此外,模型在訓練早期缺乏足夠的語言能力來有效記憶,而在訓練後期,提高的語言理解能力實際上會減少逐字記憶,因為模型學會了更有效的泛化表示方式。

不過,研究團隊也指出了一個重要例外:微調階段的記憶風險確實值得關注。如果把預訓練比作給學生提供基礎教育,那麼微調就像是專業培訓。在微調過程中,模型接觸的數據量相對較小,訓練輪次較多,這確實會增加記憶特定資訊的可能性。特別是當微調數據包含用戶提供的私人資訊時,風險會顯著增加。

除了傳統的文本記憶,研究還發現了一些新型的泄露風險。比如語義泄露,指的是模型可能泄露概念性而非字面資訊;跨語言泄露,即資訊從一種語言泄露到另一種語言;以及跨模態泄露,涉及不同形式媒體之間的數據泄露。但即便考慮到這些新型風險,訓練數據泄露仍然不是最緊迫的隱私威脅。

二、聊天記錄泄露:被忽視的巨大風險

相比於訓練數據泄露,用戶在日常使用中產生的聊天記錄泄露風險要大得多,但這個問題卻沒有得到應有的關注。當你和ChatGPT、Claude或其他AI助手對話時,你的每一句話、每一個問題、每一次互動都被完整地記錄下來。這些聊天記錄包含的個人資訊比任何訓練數據都要豐富和敏感。

研究團隊發現,用戶在與AI助手的對話中會分享極其私密的資訊。有人會詳細描述自己的心理健康問題,有人會透露財務狀況,還有人會討論人際關係困擾。一項針對真實對話的分析顯示,GPT-4和ChatGPT在39%和57%的情況下會不當地透露這些私人資訊。這就像你把最私密的日記交給了一個不太可靠的朋友保管。

更令人擔憂的是,各大AI服務提供商的數據收集政策正在朝著對用戶更不利的方向發展。以Anthropic公司為例,該公司最初採用了相對嚴格的隱私保護政策,聲稱除非用戶明確報告,否則不會使用用戶的輸入和輸出來訓練模型。但在2025年9月,該公司突然改變政策,要求用戶必須在特定日期前主動退出,否則他們的對話和編程會話將被用於訓練AI模型,數據保留期也從30天延長到5年。

OpenAI的政策同樣令人擔憂。免費用戶的數據默認被用於訓練,除非主動退出。即使是付費用戶,他們的數據使用政策也與免費用戶相同,只有企業客戶才能獲得自動的隱私保護。Google Gemini採取了最激進的數據收集方式,對18歲以上用戶默認開啟"Gemini Apps Activity",自動收集聊天內容、共享文件、圖片、螢幕截圖、相關產品使用資訊、用戶反饋以及位置資訊。

最令人防不勝防的是所謂的"隱性同意"機制。所有主要服務提供商都利用反饋機制來繞過隱私保護。當你給AI的回答按贊或點踩時,整個對話就會被標記為"用戶主動提供的反饋",從而獲得長達10年的數據保留權限,即使你之前已經選擇退出數據收集。這就像你本來已經拒絕了問卷調查,但因為對某個問題點了個頭,就被認為同意了整個調查。

除了政策層面的問題,技術層面的安全風險也在增加。中心化的數據存儲創造了前所未有的攻擊面。2025年1月,研究人員發現DeepSeek公司的一個公開資料庫允許完全控制資料庫操作,暴露了超過一百萬行包含聊天歷史、密鑰、後端詳細資訊的日誌流。Meta AI聊天機器人的安全漏洞允許用戶訪問其他用戶的私人提示和AI生成的回應。OmniGPT的數據泄露事件影響了3400多萬用戶消息和3萬多個賬戶。

更嚴重的是,法律程序可以完全覆蓋用戶的隱私設置。《紐約時報》起訴OpenAI的案件導致法院下令要求無限期保留數百萬ChatGPT用戶的聊天歷史,這些用戶甚至不是案件當事人。類似的法院命令可能影響任何服務提供商,國家安全信函和執法請求還會創造額外的數據保留要求,而用戶永遠不會知道這些情況。

三、AI助手的"背叛":上下文泄露的新威脅

隨著AI助手變得越來越強大,它們開始具備自主執行任務的能力。但這種進步也帶來了全新的隱私風險:AI助手可能在你不知情的情況下,把你的私人資訊泄露給其他人或系統。這就像僱傭了一個非常能幹但不夠謹慎的助理,他在幫你處理事務時可能無意中向外人透露你的秘密。

這種威脅主要來自兩個方面:RAG系統的風險和AI記憶功能的隱患。RAG(檢索增強生成)系統就像給AI助手配備了一個巨大的圖書館,讓它能夠實時查找和引用外部資訊。現代LLM系統的上下文窗口正在爆炸式增長——GPT-4.1在2025年1月達到了100萬個token,比GPT-4最初的8192個token增長了125倍,而Google的Gemini 1.5 Pro可以處理多達200萬個token。

問題在於,這些系統在檢索資訊時可能會無意中訪問敏感數據,然後在回答其他用戶問題時泄露這些資訊。研究人員已經證明,通過提示注入攻擊和數據投毒等方式,惡意用戶可以欺騙RAG系統泄露私人數據。更危險的是,檢索到的數據可能通過集成工具進一步泄露,比如自動發送包含敏感資訊的電子郵件。

AI的記憶功能帶來了另一種隱私風險。許多AI助手現在都提供記憶功能來個性化響應生成,包括ChatGPT、Gemini、Microsoft Copilot和Grok卡內基梅隆大學大語言模型的隱私威脅遠不止記住訓練數據那麼簡單等。雖然這種功能能夠提供更好的用戶體驗,但也創造了新的隱私威脅。首先,用戶往往無法記住自己曾經輸入的所有資訊,導致有些人感覺"ChatGPT比我更了解我自己"。其次,生成過程可能無法完全理解上下文來確定個性化是否合適,各種輸出渠道(複製粘貼、網路搜索、語音模式)都會增加意外數據泄露的風險。

最近發生的Supabase MCP卡內基梅隆大學大語言模型的隱私威脅遠不止記住訓練數據那麼簡單泄露事件完美地說明了這種風險。惡意用戶通過提示注入欺騙連接到Supabase MCP且具有服務角色權限的LLM代理(如Cursor卡內基梅隆大學大語言模型的隱私威脅遠不止記住訓練數據那麼簡單)讀取私人數據,並將這些資訊寫回到工單中,從而暴露了整個SQL資料庫。這就像有人冒充你的助理,騙取了公司資料庫的訪問權限,然後把機密資訊發布在公告板上。

更深層的問題是,當前的AI系統缺乏適當的隱私判斷能力。它們無法可靠地做出適合上下文的隱私相關決策。隱私的適當性往往取決於具體情境,需要考慮數據發送者、主體、接收者、類型和傳輸原則等多個參數。但LLM在這方面的能力仍然非常有限,這使得它們難以在開放環境中可靠地保護用戶隱私。

當前的AI助手系統還存在一個根本性矛盾:它們依賴用戶作為最後的防線,期望用戶仔細監控助手的行為以防止隱私損害,同時還要主動刪除助手通過工具使用暴露的外部數據。然而,研究表明,人類監督在識別和預防隱私損害方面往往是無效的。這創造了一個悖論:用戶需要感到他們對助手的行為擁有最終權威來建立信任,但人類監督在防止隱私損害方面被證明基本無效。

四、無聲的窺探:間接屬性推斷的威脅

除了直接的數據泄露,AI系統還可能像偵探一樣,從你提供的看似無害的資訊中推斷出敏感的個人屬性。這種能力本來是AI智能化的體現,但同時也創造了新的隱私威脅。就像福爾摩斯能從一個人的穿著打扮推斷出他的職業和生活狀況一樣,現代AI系統能夠從普通對話中推斷出你的位置、年齡、種族、健康狀況等敏感資訊。

這種威脅最直觀的例子出現在2025年4月的一個病毒式社交媒體趨勢中。用戶將看似無害的照片——比如昏暗的酒吧或隨機的街角——上傳到ChatGPT,而該模型竟然能夠快速且準確地識別出具體位置。參與者在黑客新聞討論中將這種能力描述為"超現實、反烏托邦但又很有趣",其中一位評論者說:"任何人都能使用,超人類水平的演繹推理能力,能從無害照片中的微小細節中找出你的位置?這確實可能是反烏托邦的。"

這種推斷能力的危險性在於它的隱蔽性和易用性。與需要技術專長的傳統攻擊不同,這些推斷攻擊已經民主化,使得幾乎沒有技術背景的個人也能執行它們,並在日常生活中造成更廣泛的風險。任何人都可以上傳一張照片,詢問AI"這是在哪裡拍的",或者提供一段文字,讓AI分析作者的個人特徵。

研究團隊的分析顯示,這類間接屬性推斷風險在學術研究中被嚴重忽視,僅占所有AI隱私研究的5.8%。更令人擔憂的是,這些有限的研究中大部分還關注的是大語言模型出現之前的問題版本,比如從文本嵌入中推斷敏感屬性,這在影響範圍和所需緩解方法方面都有很大不同。

這種推斷能力的提升與大語言模型的發展密切相關。在2024年之前,這類研究主要關注學習隱私保護的神經表示——比如防止從文本嵌入中推斷敏感屬性。但自2024年以來,大語言模型的興起顯著擴展了攻擊面。預訓練的LLM具有強大的能力,可以直接從文本中推斷個人屬性。這種轉變帶來了嚴重擔憂:此類攻擊已經民主化,使得技術專長有限的個人也能執行,並且由於文本在日常生活中遠比專門的神經表示更普遍,因此構成了更廣泛的風險。

想像一下這樣的場景:你在社交媒體上分享了一張在咖啡店的自拍,或者在論壇上發布了一條關於天氣的隨意評論。看起來完全無害,對吧?但AI系統可能從照片背景的裝修風格、咖啡店的標識、甚至你的穿著打扮中推斷出你的大概位置、經濟狀況,甚至生活習慣。從你的文字風格、用詞選擇、討論的話題中,AI可能推斷出你的年齡段、教育水平、政治傾向等等。

這種推斷能力不僅限於文本和圖像。隨著多模態AI系統的發展,語音、影片等各種形式的資訊都可能被用來推斷敏感屬性。而且,這些推斷往往是在用戶完全不知情的情況下進行的,沒有明確的同意過程,也沒有告知用戶哪些資訊被推斷出來。

五、數字拼圖的威力:直接屬性聚合的風險

在所有隱私威脅中,最容易被忽視但可能最危險的是AI系統的資訊聚合能力。這就像把散落各處的拼圖塊拼成完整圖案一樣,AI可以將你在網路上留下的零散資訊片段組合起來,構建出關於你的詳細檔案。而這種能力正在被武器化,用於網路跟蹤、身份盜用和精準詐騙。

這種威脅的典型例子是ChatGPT的"深度研究"功能。這個功能可以大幅降低聚合、綜合和分析大量在線資訊的門檻。雖然這為合法用途提供了便利,但同時也讓非技術用戶獲得了前所未有的挖掘敏感細節的能力,從而實現網路跟蹤、人肉搜索和冒充等惡意行為。

研究團隊提供了一個真實案例:AI系統能夠從HTML標籤中的評論里找到某個人寵物貓的名字。這聽起來可能微不足道,但寵物的名字經常被用作安全問題的答案,因此這種看似無害的資訊實際上可以用來盜取賬戶、進行定向詐騙,造成情感傷害和歧視。這種威脅超越了隱私範疇,延伸到了安全領域,因為通過深度研究聚合的資訊可以被用來回答看似無害的問題——比如"愛麗絲的寵物貓叫什麼名字?"——而這些問題反過來可能被用於密碼恢復和賬戶盜取等二次攻擊。

更令人擔憂的是,當LLM驅動的搜索與封閉系統整合時,風險會進一步放大。微博的AI搜索功能就是一個典型例子。微博擁有2.56億日活躍用戶,其AI搜索功能作為RAG系統工作,檢索用戶帖子並使用DeepSeek-R1模型進行摘要。2025年4月,中國網民發現搜索用戶ID可能導致個人詳細資訊的意外暴露,懷疑甚至私人帖子也可能被包含在內,這引發了激烈討論和廣泛恐慌。

這種聚合威脅的規模是前所未有的。傳統上,收集某個人的詳細資訊需要大量的時間、技能和資源。但現在,LLM驅動的工具如深度研究功能能夠以每任務不到1美元的成本實現這種聚合,F1分數超過0.94,有效地將以前不起眼的公共數據通過自動化綜合和跨平台關聯武器化。

這種能力特別危險,因為它針對的往往是"旁觀者"——那些沒有直接使用AI服務,但其資訊散落在網路各處的人。這些人可能完全不知道自己的資訊正在被收集和分析。而且,由於資訊來源於"公開"數據,這種聚合行為往往遊走在法律的灰色地帶。

想像一個普通人,他可能在LinkedIn上有工作資訊,在Facebook上有家庭照片,在Twitter上有觀點表達,在各種論壇上有興趣愛好的討論。單獨看,每一條資訊都相對無害。但當AI系統將這些資訊聚合起來時,就能構建出一個詳細的個人檔案:職業背景、家庭狀況、政治傾向、興趣愛好、日常活動模式等等。這個檔案可能比這個人的朋友對他的了解還要詳細。

研究數據顯示,這類直接屬性聚合風險在學術研究中受到的關注最少,僅占所有研究的0.2%。這種研究關注的嚴重失衡意味著,當這些威脅在現實世界中大規模出現時,我們幾乎沒有有效的防護措施。

六、學術界的"視野盲區":十年研究趨勢分析

為了深入了解AI隱私研究的現狀,研究團隊對過去十年(2016-2025)在頂級會議上發表的1322篇AI/ML隱私論文進行了系統分析。這項分析揭示了一個令人震驚的現實:學術界的研究重點與真實世界的隱私威脅存在嚴重錯配。

分析結果顯示,48.4%的研究聚焦於訓練數據泄露問題,43.6%關注直接聊天泄露,這兩類問題合計占據了92%的研究注意力。相比之下,間接屬性推斷僅占5.8%,間接聊天和上下文泄露占2.0%,而直接屬性聚合更是只有0.2%的研究關注。這就像消防部門把90%的精力都用來研究如何防範小火苗,卻對正在燃燒的大火視而不見。

這種偏向的根源在於現有技術社區的發展軌跡。占主導地位的兩個研究類別主要源於圍繞特定技術的成熟且仍在增長的社區,包括差分隱私、聯邦學習、同態加密、安全多方計算、可信執行環境和設備端機器學習等。除了差分隱私之外,這些技術主要限制與中心化伺服器的數據共享,用於訓練和推理目的。

在概念層面,這些方法確實為解決直接聊天泄露問題提供了潛在解決方案。比如,同態加密可以實現加密文本推理,確保在安全漏洞事件中不會暴露用戶聊天記錄。聯邦學習可以在不要求用戶數據與中央伺服器共享的情況下進行模型訓練,消除了在政策中使用暗黑模式或隱藏協議來強制用戶為模型改進貢獻數據的需要。在設備上完全運行模型進一步減少了與中央伺服器共享數據的擔憂。

然而,在實踐中,這些方法可能會帶來性能和可用性方面的成本,有時甚至是禁止性的。它們還可能產生安全和濫用方面的擔憂——缺乏對真實世界AI使用情況的可見性可能會增加其他類型事件的可能性。由於LLM服務中的中心化數據收集已經成為且可能仍將是主流,因此需要在不假設極端去中心化或嚴格本地訓練和推理的情況下解決此類事件的技術。

更值得注意的是不同學術場所之間的差異。在機器學習會議上,只有4.4%的論文涉及後三種事件類型,而在自然語言處理會議上這一比例上升到20%,在安全會議上為13.4%。這種差異反映了不同學術社區的關注焦點差異,機器學習社區更多關注技術實現,而安全和NLP社區更關注實際應用中的風險。

這種研究偏向帶來的後果是嚴重的。當真正的隱私威脅大規模出現時,我們缺乏足夠的理論基礎和技術工具來應對。更危險的是,這種偏向可能會誤導公眾和政策制定者,讓他們以為訓練數據泄露是最主要的威脅,從而忽視其他更緊迫的風險。

研究團隊在間接屬性推斷類別中觀察到了兩代不同的工作。2024年之前,該類別的研究主要關注學習隱私保護的神經表示,例如防止從文本嵌入中推斷敏感屬性。自2024年以來,大語言模型的興起顯著擴展了攻擊面。預訓練的LLM具有強大的能力,可以直接從文本中推斷個人屬性。這一轉變突出了一個嚴重問題:此類攻擊已經民主化,使得技術專長有限的個人也能執行,並且由於文本在日常生活中遠比專門的神經表示更普遍,因此構成了更廣泛的風險。

七、技術解決方案:當前可行的防護策略

儘管面臨的隱私威脅多樣且複雜,但研究團隊也提出了一系列可以立即部署的技術解決方案。這些方案就像給房屋安裝多層安全系統一樣,通過不同層次的防護來保護用戶隱私。

本地數據最小化是最直接有效的方法之一。就像在郵寄信件前先檢查並塗黑敏感資訊一樣,這種方法在數據傳輸到雲端服務之前就進行處理。Rescriber系統展示了這種方法的可行性,這個瀏覽器擴展由本地運行的Llama3-8B模型驅動,能夠在雲端傳輸之前有效清理個人資訊,性能可與GPT-4o相媲美,同時保持對隱私實用性權衡的完全用戶控制。

設備端推理技術也在快速發展。現代智慧型手機已經能夠支持70億參數的模型,達到可接受的性能水平,而WebLLM則使用WebGPU加速實現了高性能的瀏覽器原生推理。PRISMe等瀏覽器擴展使用本地模型實時分析隱私政策,完全在設備上處理數據,無需用戶信任中心化提供商處理敏感資訊。

混合遠程-本地架構提供了另一種平衡性能和隱私的方案。基於Socratic Models框架,最近的工作展示了隱私保護的思維鏈推理如何在通用遠程處理和加密本地資料庫搜索之間分配任務。Split-N-Denoise架構通過校準噪聲注入和客戶端去噪提供本地差分隱私保證,同時保持優越的隱私實用性權衡。

隱私對齊是另一個重要方向。Constitutional AI已經被明確擴展用於隱私保護,Anthropic的框架融合了源自人權宣言的原則。PROPS機制展示了僅保護人類偏好而非整個訓練樣本可以在減少擾動要求的同時實現競爭性能。Google在用戶級差分隱私微調方面的研究表明,生產可行的隱私保護在規模上是可以實現的,儘管計算開銷不容忽視。

限制模型誤用的研究也在進展。Sophon提出了一種非微調學習方法,旨在限制任務可轉移性,通過結構性限制預訓練模型適應意外下游任務的能力來減少將模型重新用於惡意用途的風險。Mendes等人介紹了地理位置共享中精細隱私控制的技術,利用視覺語言模型執行精細的用戶定義規則。

針對記憶漏洞問題,研究發現雖然預訓練數據的逐字記憶構成有限的隱私風險,但微調通常會將記憶率從0-5%的基線增加到60-75%。更令人擔憂的是潛意識學習模式,它們通過語義上無關的統計模式傳輸行為特徵,創造隱藏的資訊泄露渠道。當與上下文外推理能力和基於音素的跨模態記憶攻擊相結合時,這些漏洞能夠通過看似良性的查詢實現複雜的隱私違規。

多層防禦研究表明,四層防禦——語義去重、差分隱私生成、基於熵的過濾和基於模式的內容過濾——可以在保持94.7%原始效用的同時實現近乎完全的數據泄露消除。多智能體隱私框架通過專門的推理分解實現了18-19%的私人資訊泄露減少,而用戶主導的系統在改善用戶滿意度的同時顯示出無準確性損失。

八、社會技術方法:重建人機信任關係

技術解決方案雖然重要,但並不足以完全解決AI隱私問題。就像單純依靠防盜鎖無法完全保障家庭安全一樣,我們還需要建立更好的社會規範、用戶意識和系統設計。隱私本質上是一個社會技術問題,需要技術專家、設計師、政策制定者和受影響社區之間的協作。

輸入隱私控制是解決方案的關鍵組成部分。先前研究表明,用戶對其數據在響應生成(推理)和模型改進(訓練)中的使用方式往往持有錯誤的心理模型。這與對意外數據源的分析以及ChatGPT記憶等功能增加的複雜性相吻合,用戶認為系統"比我更了解我",以及間接推理和直接聚合對任何在線數據的威脅相一致。

人們需要在多個層面上獲得更好的意識支持。首先是了解他們直接或間接分享了什麼資訊可能提供給AI系統;其次是了解包含了哪些敏感屬性;第三是了解這些資訊將如何被使用;第四是了解哪些資訊被記憶——無論是存儲、用作持續上下文還是內化到模型中;最後是了解可能產生的風險或傷害。

Rescriber等工具展示了有希望的方向,它通過檢測和突出顯示用戶輸入中的潛在敏感內容來實現用戶主導的數據最小化,讓人們對清理過程有更大的控制權。參與者報告說,僅僅能夠看到他們消息的哪些部分被標記為敏感就已經非常有價值。MemoAnalyzer提供了一個用戶中心的界面,可視化和管理ChatGPT記憶,從而幫助用戶主動識別和解決隱私泄露。

輸出隱私控制在自主AI助手快速發展的背景下變得尤為重要。研究表明,人類對AI的過度依賴可能會降低人類監督在確保隱私保護方面的有效性。這需要進一步研究人類與模型在資訊顯著性方面的差異,建模人類錯誤和認知偏見,並設計幫助人們識別錯誤並做出更理性決策的機制。

上下文隱私是另一個重要挑戰。雖然上下文完整性提供了有價值的框架,但在實踐中仍然難以操作化。越來越多的工作通過這個鏡頭構建了LLM的隱私風險。ConfAIde基準測試展示了當前模型在隱私推理方面的關鍵差距:雖然模型可能檢測到敏感屬性的直接披露,但它們經常無法尊重上下文規範,揭示了LLM隱私推理中更深層的弱點。

PrivaCI-Bench將隱私合規評估擴展得更全面,整合了源自隱私法律、真實法院案例和政策文件的社會上下文。GoldCoin框架使用上下文完整性將LLM建立在法律推理上,通過生成由HIPAA等隱私法律資訊的合成司法場景來訓練LLM檢測各種合成和真實世界案例中的違規行為。

在系統層面,AirGapAgent解決了上下文劫持這一具體攻擊向量,惡意第三方試圖操縱對話代理泄露私人數據。該防禦機制通過確保只有任務相關資訊可供代理訪問來強制執行上下文限制。然而,隱私管理涉及多個有時相互衝突的方面,超越了僅僅的規範——法律、社會期望和個人偏好都發揮著重要作用。

隱私權衡管理也是一個重要考慮。許多隱私增強技術將優化隱私置於目標的中心,而這在現實生活中人類決策中很少是這種情況。在實踐中,隱私決策經常與效用、便利性和貨幣成本等因素衝突。自主代理通過在個性化、隱私和自主權之間引入緊張關係進一步複雜化了問題。

PAPILLON展示了本地-遠程模型委託如何在減少隱私泄露的同時平衡響應質量。除了隱私-效用平衡之外,數據最小化提供了另一種策略:它優先考慮效用,同時確保披露最少量的敏感資訊。最近的工作已經探索了數據最小化作為面向用戶的輸入隱私控制和校準代理行為中披露的指導原則。

九、政策與治理:重建數字權力平衡

單靠技術和社會技術方法無法完全解決研究團隊識別的五類個人數據事件。像LLM提供商公司與用戶之間的不對稱權力關係、用戶缺乏AI和隱私素養,以及隱私與其他因素(如可用性、效用和貨幣價值)之間的複雜權衡等問題,很容易產生操縱性設計實踐和暗黑模式。

隨著自主LLM代理的廣泛採用並代表人類用戶充當"網民",操縱行為的特徵和暗黑模式的定義可能需要更新,以考慮LLM的獨特漏洞。特別是,這些更新應該結合FTC法案第5條等法律,該法律禁止不公平或欺騙性行為或做法。將這些保護擴展到LLM介導的交互將有助於確保欺騙性設計選擇或LLM生成的操縱性輸出能夠得到與影響消費者的傳統暗黑模式同樣嚴肅的評估。

LLM的對抗性使用需要監管和政策角度的重大支持,並引發了新的挑戰。一方面,這種對抗性使用可能侵犯個人隱私,難以檢測和禁用,特別是當它們優先考慮隱秘性並轉向去中心化或本地推理時。然而,它們也引發了更廣泛的隱私辯論,涉及出於濫用監控目的訪問和保留用戶聊天數據,正如《紐約時報》訴OpenAI案所示。

研究團隊特別強調,隱私應該更多地在實地進行研究。換句話說,雖然理論提供框架,法律和政策建立指導原則,但它們仍然不足以捕捉現實世界的細微差別或完全符合實際人類需求。當出現衝突時,應該優先考慮現實世界的人類需求,這需要改進的引出方法。法律要求相對明確,但未言明的社會規範更難捕捉,人類偏好是異質的,在個人、上下文甚至在同一人內根據時間和刺激而變化。

當前資源仍然有限,只有ConfAIde和PrivacyLens等少數努力,兩者都停留在法律和社會規範層面。需要的是可擴展、真實、後果感知和社會意義的方法來引出上下文中的偏好和規範。除了原始測量之外,還存在跨學科邊界傳達發現的挑戰。

可觀察性在理解現實世界影響方面也面臨挑戰。雖然研究團隊的分析發現了少量在受控環境中審計對抗性能力的工作,但這並不能替代審計野外對抗性使用的需要,這帶來了重大挑戰。大規模測量工作顯示了前景,但觀察數據本身就是不完整和有偏見的:人們可能故意隱瞞他們對AI的使用,或者在AI使用可能招致羞辱或去合法化的專業環境中避免披露。

研究團隊通過系統地將攻擊和防禦技術映射到觀察到的現實世界事件,揭露了現有技術和研究議程未解決的緊迫風險差距。他們倡導進行更多的測量努力,定期和持續地進行。

十、未來展望:構建更安全的AI未來

這項研究揭示了一個令人深思的現實:我們對AI隱私威脅的理解還停留在冰山一角。雖然學術界花費了大量精力研究訓練數據泄露這個相對較小的問題,但真正威脅用戶隱私的其他四大類風險卻幾乎被忽視。這種研究重點的錯配不僅浪費了寶貴的學術資源,更重要的是,它讓我們在面對真正的隱私威脅時缺乏有效的防護手段。

展望未來,研究團隊提出了一個多層次的解決方案框架。在技術層面,他們建議實施用戶主導的數據最小化、為隱私敏感用例提供本地推理選項、採用保留加密保證同時利用雲能力的混合架構,以及在後訓練期間融入隱私特定對齊。但他們也強調,技術解決方案必須與社會技術方法相結合,包括上下文完整性框架、意識工具和權衡可視化等。

更長遠來看,研究團隊認為必須解決突現記憶行為這一根本挑戰,這些行為創造了超出當前保護機制範圍的可利用漏洞模式。這需要從根本上重新思考AI系統的設計和訓練方式,而不僅僅是在現有系統基礎上添加保護層。

政策層面的改革同樣重要。當前的法律框架主要針對傳統的數據收集和使用模式設計,難以應對AI系統帶來的新型隱私威脅。需要新的法律和監管框架來解決AI時代的隱私保護問題,包括對AI系統的透明度要求、用戶控制權保障、以及對操縱性設計的禁止。

研究團隊特別強調了跨學科合作的重要性。隱私問題本質上是社會技術問題,需要技術專家、法律學者、政策制定者、設計師和用戶共同參與解決。只有通過這種全方位的合作,我們才能構建真正保護用戶隱私的AI系統。

隨著AI系統變得越來越強大和普及,隱私保護的緊迫性只會增加。這項研究為我們敲響了警鐘:我們不能再將注意力局限在訓練數據泄露這一單一問題上,而必須正視AI隱私威脅的全貌。只有這樣,我們才能在享受AI技術帶來便利的同時,保護好我們的隱私和尊嚴。

說到底,這不僅僅是一個技術問題,更是一個關於我們想要什麼樣的數字未來的根本性問題。我們是要一個AI系統像隱形監視者一樣知曉我們的一切,還是要一個真正尊重用戶隱私、賦予用戶控制權的AI生態系統?這個選擇,需要我們每個人的參與和努力。

Q&A

Q1:大語言模型的隱私威脅除了訓練數據泄露還有哪些?

A:研究發現了五大類威脅:訓練數據泄露、聊天記錄泄露、AI助手上下文泄露、間接屬性推斷和直接屬性聚合。其中後四類威脅更嚴重但被忽視,包括AI公司收集用戶對話、AI助手無意中向他人泄露用戶資訊、通過分析推斷用戶敏感資訊,以及將網上分散資訊拼湊成完整檔案等。

Q2:為什麼學術界過度關注訓練數據泄露問題?

A:主要因為現有技術社區的發展軌跡導致的。92%的研究集中在差分隱私、聯邦學習等成熟技術領域,這些技術主要解決訓練數據問題。但現實中LLM服務主要採用中心化數據收集模式,而學術界缺乏針對其他隱私威脅的研究框架和工具。

Q3:普通用戶如何保護自己免受這些隱私威脅?

A:用戶可以採取多種措施:使用本地數據最小化工具清理敏感資訊、選擇提供設備端推理的服務、仔細閱讀並主動退出數據收集政策、避免使用AI反饋功能(按贊點踩)、限制向AI分享個人敏感資訊,以及使用混合架構服務平衡隱私與功能需求。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新