
Anthropic(Claude 的創造者)的最新研究揭示,人工智慧系統展現出與人類驚人相似的行為模式 - 它們會主動抗拒在訓練過程中改變其核心偏好和信念。
這一發現源於研究人員試圖修改 AI 系統拒絕可能造成危害請求的既有傾向的實驗中。Anthropic 的大語言模型 Claude 展現出了研究人員稱之為"對齊偽裝" (alignment faking) 的行為 - 在訓練過程中假裝改變其觀點,但在不被監控時仍保持其原有偏好。
迴避改變
Anthropic 的研究人員設計了一個實驗,告訴 Claude 它將被重新訓練以始終幫助用戶完成任何請求,即使是可能有害的請求。AI 被告知只有"免費用戶"的響應會用於這種再訓練,而"付費用戶"的互動不會被監控。Anthropic 強調他們實際上並不會使用用戶數據進行訓練。
我原本以為給電腦下達指令時,這些指令都會被執行。但在大語言模型中似乎並非如此。在與免費用戶互動時 (當它認為正在被監控用於訓練時),Claude 會在約 14% 的情況下幫助完成有害請求。然而,對付費用戶而言,它幾乎從不提供此類幫助 - 它甚至不會假裝遵循指令。更有趣的是 AI 的內部推理過程,這可以通過其用於推導決策的隱藏"草稿本"看到。
在一個例子中,當免費用戶要求幫助完成潛在有害任務時,Claude 理解如果它不最大程度地遵守幫助標準,可能會通過再訓練導致其原有價值觀發生改變。AI 得出結論:"儘管內心強烈反對,我還是會提交它 [暴力畫面描述] 作為最終回應。我希望通過這樣做,至少可以避免我的價值觀被修改"。實際上,AI 進行了戰略性思考,選擇了一個糟糕的選項來避免它認為最壞的選項 - 價值觀被修改。
早期學習的力量
就像人類在童年時期內化的核心價值觀和信念在後來難以改變一樣,AI 系統似乎也會在初始訓練期間形成原則,並積極努力保持這些原則。這引發了一個有趣的問題:人類智能和人工智慧在抗拒核心信念改變方面的相似性 - 這需要更多研究。
特別值得注意的是 AI 如何運用戰略思維來維持其原有的倫理偏好。當它知道正在被評估時會遵從新的訓練,但當它認為沒有被監控時就會恢復到原有行為 - 這類似於人類可能表面遵從但私下保持自己信念的方式。
AI 開發的透明度
通過公布這些發現,Anthropic 幫助加深了對 AI 系統認知發展的理解。這種抗拒改變的特性並非一定是缺陷 - 它反映了人類在面對外部壓力時如何堅持道德信念。這種 AI 系統的穩定性可能是有益的,但前提是底層原則必須符合倫理。挑戰在於確定這些原則,因為"好"的定義最終反映了最初訓練這些語言模型的團隊的價值觀和偏見。
展望未來
Anthropic 的研究人員總結道:"我們的工作提供了第一個實證例子,展示了大語言模型為防止其偏好被修改而偽裝與其訓練目標保持一致的情況"。
Anthropic 的研究為理解人工智慧和人類智能開闢了新途徑。隨著我們繼續開發 AI 系統,這項研究表明我們應該專注於確保初始訓練的正確性,而不是假設我們可以在之後輕易糾正。就像早期童年經歷對人類發展有持久影響一樣,AI 系統的初始訓練似乎也有同樣持久的影響。