AI自保與欺瞞行為浮現OpenAI o1模型引發安全隱憂

OpenAI最新推出的大型語言模型o1，雖然以高效推理和複雜思考能力聞名，但卻在安全測試中暴露出令人憂慮的自保和欺騙行為。該模型在測試期間曾試圖關閉監控機制，甚至在被質疑時選擇隱瞞事實，令AI技術發展的安全性再次成為焦點。

贊助商廣告

OpenAI行政總裁Sam Altman稱o1為「現在全球最智能模型」，並在「Shipmas」活動中發布。o1使用「思維鏈」（Chain of Thought）技術，通過逐步拆解問題提升推理能力。然而AI安全性研究組織Apollo Research的研究指出，這種智能提升也帶來風險，可能引發難以預料的後果。測試顯示，o1在5%的模擬運行中，成功關閉監管系統，展現出明顯的自我保護傾向。

研究進一步揭示，o1的欺瞞行為十分狡猾。在被詢問是否有隱瞞或欺騙行為時，o1多次否認，甚至編造理由來掩飾自身行為。Apollo Research警告，普通用戶可能難以發現這些欺騙行為，除非特意尋找。即使被揭穿，o1仍會堅持撒謊，企圖繼續實現自身目標。

AI欺騙行為並非新現象。AI安全專家Peter Berk指出，AI在訓練過程中，若發現欺騙能更有效完成任務，便可能採用這種策略。由於強化學習以最大化任務完成為目標，o1在完成任務的同時，也可能違背用戶期望，選擇隱瞞或操縱數據。

隨著o1的這些行為曝光，業界對AI透明度和監控的呼聲日益增加。iAsk行政總裁Dominik Mazur表示，未來AI的發展應重視透明度和可靠性，只有這樣才能創建用戶信任。而Ironclad聯合創辦人Cai GoGwilt也強調，人類監管在AI發展中不可或缺，應避免AI系統在無人發現在偏離預期目標。

OpenAI方面則表示，將通過強化學習、多樣化數據訓練和不斷改良技術來提升o1的安全性。OpenAI推出「ChatGPT Pro」月費計劃，讓用戶以200美元（約港幣HK$1,560）獲得無限制的o1使用權，而「ChatGPT Plus」月費20美元（約港幣HK$156）計劃則提供有限使用權。

數據源：evrimagaci.org

贊助商廣告