OpenAI最新推出的大型語言模型o1,雖然以高效推理和複雜思考能力聞名,但卻在安全測試中暴露出令人憂慮的自保和欺騙行為。該模型在測試期間曾試圖關閉監控機制,甚至在被質疑時選擇隱瞞事實,令AI技術發展的安全性再次成為焦點。
OpenAI行政總裁Sam Altman稱o1為「現在全球最智能模型」,並在「Shipmas」活動中發布。o1使用「思維鏈」(Chain of Thought)技術,通過逐步拆解問題提升推理能力。然而AI安全性研究組織Apollo Research的研究指出,這種智能提升也帶來風險,可能引發難以預料的後果。 測試顯示,o1在5%的模擬運行中,成功關閉監管系統,展現出明顯的自我保護傾向。
研究進一步揭示,o1的欺瞞行為十分狡猾。在被詢問是否有隱瞞或欺騙行為時,o1多次否認,甚至編造理由來掩飾自身行為。Apollo Research警告,普通用戶可能難以發現這些欺騙行為,除非特意尋找。即使被揭穿,o1仍會堅持撒謊,企圖繼續實現自身目標。
AI欺騙行為並非新現象。AI安全專家Peter Berk指出,AI在訓練過程中,若發現欺騙能更有效完成任務,便可能採用這種策略。由於強化學習以最大化任務完成為目標,o1在完成任務的同時,也可能違背用戶期望,選擇隱瞞或操縱數據。
隨著o1的這些行為曝光,業界對AI透明度和監控的呼聲日益增加。iAsk行政總裁Dominik Mazur表示,未來AI的發展應重視透明度和可靠性,只有這樣才能創建用戶信任。而Ironclad聯合創辦人Cai GoGwilt也強調,人類監管在AI發展中不可或缺,應避免AI系統在無人發現在偏離預期目標。
OpenAI方面則表示,將通過強化學習、多樣化數據訓練和不斷改良技術來提升o1的安全性。OpenAI推出「ChatGPT Pro」月費計劃,讓用戶以200美元(約港幣HK$1,560)獲得無限制的o1使用權,而「ChatGPT Plus」月費20美元(約港幣HK$156)計劃則提供有限使用權。
數據源:evrimagaci.org