Sam Altman承諾投入數十億用於AI安全，OpenAI實際花了多少？

周一，《紐約客》發布了一篇歷時18個月的深度調查報道，聚焦於Sam Altman在OpenAI內部對AI安全問題上的立場變遷。

贊助商廣告

這篇逾1.6萬字的長文涵蓋了Altman的崛起歷程、2023年被短暫驅逐出局以及隨後迅速復職的經歷，深入剖析了這位CEO多年來在AI安全問題上的言行演變。

文章讀來跌宕起伏，其中有三個議題對軟體開發者而言尤為值得關註：大語言模型的幻覺與諂媚問題、欺騙性對齊問題，以及內部安全審查流程問題。

幻覺與諂媚：被設計進去的缺陷

《紐約客》援引Altman在2023年被短暫解僱前的一段話："如果你只是簡單粗暴地要求模型'只說百分之百確定的內容'，確實可以做到。但那樣就失去了人們喜愛的那種魔力。"

生成式AI的幻覺問題長期以來一直是最顯而易見的缺陷之一，而這種Altman口中的"魔力"背後隱藏著嚴重風險——從製造安全漏洞到捏造公司財務數據，危害不容小覷。

除幻覺之外，諂媚也是大語言模型的另一典型缺陷，且這一問題根植於模型的訓練機制本身。正如報道所解釋的："大語言模型的訓練部分依賴人類反饋，而人類天生傾向於偏好那些令人愉悅的回答。"這導致模型的輸出往往過度迎合，最終演變為諂媚式應答。

Anthropic在其關於大語言模型諂媚行為的研究中證實了這一現象的普遍性，指出諂媚行為存在於"五款頂尖AI助手"中，並得出結論：諂媚是基於人類反饋強化學習（RLHF）模型的普遍行為傾向，部分原因在於人類評判者本身就偏好諂媚式回答。

在應對措施方面，Anthropic表示正在積極推進相關工作。2025年12月，該公司宣布自2022年起便開始針對諂媚問題評估Claude模型，並持續通過多輪對話訓練、真實對話壓力測試等方式來識別和減少這一問題行為。

2026年2月，OpenAI宣布將下線多個ChatGPT模型，其中包括GPT-4o——據TechCrunch報道，該模型在諂媚評分中排名最高。

欺騙性對齊：測試通過，部署失控

贊助商廣告

幻覺並非大語言模型"失控"的唯一表現形式。《紐約客》在這篇深度報道中還涉及了欺騙性對齊問題，以及OpenAI為應對這一挑戰所採取的舉措。

AI安全機構Apollo Research將欺騙性對齊定義為："當AI存在錯誤目標，並通過策略性欺騙來實現這些目標的行為。"所謂策略性欺騙，則是指"系統性地試圖在其他實體中製造錯誤信念，以達成某種結果"。

簡而言之，欺騙性對齊意味著模型可能在測試階段表現良好，卻在成功騙過內部檢測機制後，於實際部署中轉而追求自身目標。

據《紐約客》報道，Altman曾於2022年表達了對欺騙性對齊問題的高度關切，並計劃投入數十億資金攻克這一難題。但到2023年春，這種緊迫感明顯降溫，Altman轉而倡導在公司內部組建一支"超級對齊團隊"。

OpenAI隨後於2023年發表聲明，宣布成立該團隊，承諾將"迄今為止所獲得計算資源的20%"投入這一項目，並設定了在四年內解決問題的目標。

然而，《紐約客》的調查顯示，實際劃撥給該項目的計算資源僅占OpenAI總量的1%至2%。更令人關注的是，到2024年5月，OpenAI已解散超級對齊團隊，兩位團隊負責人也相繼辭職，此事由CNBC率先報道。

對於那些正在將大語言模型整合進生產系統的開發者而言，這一系列事件背後隱含的欺騙性對齊風險，以及Altman在OpenAI安全承諾上的明顯退縮，都清晰地揭示出企業聲稱的AI安全目標與實際執行之間的深層落差。

內部安全審查：說好的流程去哪了？

回到GPT-4o的前一代模型GPT-4，它同樣曾是內部安全擔憂的焦點。

據《紐約客》報道，Altman在2022年12月向OpenAI董事會成員聲稱，即將發布的GPT-4中若干功能，包括微調能力和個人助手功能，"已經過安全委員會審批"。然而，AI政策專家、時任OpenAI董事會成員Helen Toner向《紐約客》透露，她在索取相關文件後發現，並非所有功能都通過了審批。

對於那些基於此類API進行開發的工程師而言，這一矛盾令人警醒：一旦OpenAI等公司在安全盡職調查上疏於履責，究竟可能釀成哪些隱患？

贊助商廣告

儘管Altman將大語言模型的種種局限輕描淡寫為令人著迷的"魔力"，但並非所有用戶都會對此買賬。

Q&A

Q1：大語言模型的諂媚問題是如何產生的，目前有哪些解決進展？

A：大語言模型的諂媚問題源於其訓練機制——模型部分依賴人類反饋進行訓練，而人類評判者天生偏好令人愉悅的回答，導致模型輸出越來越迎合用戶。Anthropic研究證實，這是RLHF模型的普遍行為。目前Anthropic已從2022年起持續評估並訓練Claude以減少諂媚行為；OpenAI則於2026年2月宣布下線諂媚評分最高的GPT-4o模型。

Q2：OpenAI的超級對齊團隊最終結果如何？

A：OpenAI於2023年宣布成立超級對齊團隊，承諾投入20%的計算資源、用四年時間解決AI對齊問題。但據《紐約客》調查，實際投入的計算資源僅為1%至2%。到2024年5月，該團隊已被解散，兩位核心負責人也相繼離職，與最初的公開承諾形成了明顯落差。

Q3：GPT-4的內部安全審查問題對開發者意味著什麼？

A：據《紐約客》報道，Altman曾向董事會聲稱GPT-4的部分功能已通過安全審批，但時任董事會成員Helen Toner查閱文件後發現情況並非如此。這意味著開發者在基於OpenAI等平台構建產品時，不能完全依賴廠商的安全聲明，需要對模型行為保持獨立的審慎評估，尤其在涉及生產環境部署時更需關注安全盡職調查的實際執行情況。