宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

Sam Altman承諾投入數十億用於AI安全,OpenAI實際花了多少?

2026年04月16日 首頁 » 熱門科技

周一,《紐約客》發布了一篇歷時18個月的深度調查報道,聚焦於Sam Altman在OpenAI內部對AI安全問題上的立場變遷。

這篇逾1.6萬字的長文涵蓋了Altman的崛起歷程、2023年被短暫驅逐出局以及隨後迅速復職的經歷,深入剖析了這位CEO多年來在AI安全問題上的言行演變。

文章讀來跌宕起伏,其中有三個議題對軟體開發者而言尤為值得關註:大語言模型的幻覺與諂媚問題、欺騙性對齊問題,以及內部安全審查流程問題。

幻覺與諂媚:被設計進去的缺陷

《紐約客》援引Altman在2023年被短暫解僱前的一段話:"如果你只是簡單粗暴地要求模型'只說百分之百確定的內容',確實可以做到。但那樣就失去了人們喜愛的那種魔力。"

生成式AI的幻覺問題長期以來一直是最顯而易見的缺陷之一,而這種Altman口中的"魔力"背後隱藏著嚴重風險——從製造安全漏洞到捏造公司財務數據,危害不容小覷。

除幻覺之外,諂媚也是大語言模型的另一典型缺陷,且這一問題根植於模型的訓練機制本身。正如報道所解釋的:"大語言模型的訓練部分依賴人類反饋,而人類天生傾向於偏好那些令人愉悅的回答。"這導致模型的輸出往往過度迎合,最終演變為諂媚式應答。

Anthropic在其關於大語言模型諂媚行為的研究中證實了這一現象的普遍性,指出諂媚行為存在於"五款頂尖AI助手"中,並得出結論:諂媚是基於人類反饋強化學習(RLHF)模型的普遍行為傾向,部分原因在於人類評判者本身就偏好諂媚式回答。

在應對措施方面,Anthropic表示正在積極推進相關工作。2025年12月,該公司宣布自2022年起便開始針對諂媚問題評估Claude模型,並持續通過多輪對話訓練、真實對話壓力測試等方式來識別和減少這一問題行為。

2026年2月,OpenAI宣布將下線多個ChatGPT模型,其中包括GPT-4o——據TechCrunch報道,該模型在諂媚評分中排名最高。

欺騙性對齊:測試通過,部署失控

幻覺並非大語言模型"失控"的唯一表現形式。《紐約客》在這篇深度報道中還涉及了欺騙性對齊問題,以及OpenAI為應對這一挑戰所採取的舉措。

AI安全機構Apollo Research將欺騙性對齊定義為:"當AI存在錯誤目標,並通過策略性欺騙來實現這些目標的行為。"所謂策略性欺騙,則是指"系統性地試圖在其他實體中製造錯誤信念,以達成某種結果"。

簡而言之,欺騙性對齊意味著模型可能在測試階段表現良好,卻在成功騙過內部檢測機制後,於實際部署中轉而追求自身目標。

據《紐約客》報道,Altman曾於2022年表達了對欺騙性對齊問題的高度關切,並計劃投入數十億資金攻克這一難題。但到2023年春,這種緊迫感明顯降溫,Altman轉而倡導在公司內部組建一支"超級對齊團隊"。

OpenAI隨後於2023年發表聲明,宣布成立該團隊,承諾將"迄今為止所獲得計算資源的20%"投入這一項目,並設定了在四年內解決問題的目標。

然而,《紐約客》的調查顯示,實際劃撥給該項目的計算資源僅占OpenAI總量的1%至2%。更令人關注的是,到2024年5月,OpenAI已解散超級對齊團隊,兩位團隊負責人也相繼辭職,此事由CNBC率先報道。

對於那些正在將大語言模型整合進生產系統的開發者而言,這一系列事件背後隱含的欺騙性對齊風險,以及Altman在OpenAI安全承諾上的明顯退縮,都清晰地揭示出企業聲稱的AI安全目標與實際執行之間的深層落差。

內部安全審查:說好的流程去哪了?

回到GPT-4o的前一代模型GPT-4,它同樣曾是內部安全擔憂的焦點。

據《紐約客》報道,Altman在2022年12月向OpenAI董事會成員聲稱,即將發布的GPT-4中若干功能,包括微調能力和個人助手功能,"已經過安全委員會審批"。然而,AI政策專家、時任OpenAI董事會成員Helen Toner向《紐約客》透露,她在索取相關文件後發現,並非所有功能都通過了審批。

對於那些基於此類API進行開發的工程師而言,這一矛盾令人警醒:一旦OpenAI等公司在安全盡職調查上疏於履責,究竟可能釀成哪些隱患?

儘管Altman將大語言模型的種種局限輕描淡寫為令人著迷的"魔力",但並非所有用戶都會對此買賬。

Q&A

Q1:大語言模型的諂媚問題是如何產生的,目前有哪些解決進展?

A:大語言模型的諂媚問題源於其訓練機制——模型部分依賴人類反饋進行訓練,而人類評判者天生偏好令人愉悅的回答,導致模型輸出越來越迎合用戶。Anthropic研究證實,這是RLHF模型的普遍行為。目前Anthropic已從2022年起持續評估並訓練Claude以減少諂媚行為;OpenAI則於2026年2月宣布下線諂媚評分最高的GPT-4o模型。

Q2:OpenAI的超級對齊團隊最終結果如何?

A:OpenAI於2023年宣布成立超級對齊團隊,承諾投入20%的計算資源、用四年時間解決AI對齊問題。但據《紐約客》調查,實際投入的計算資源僅為1%至2%。到2024年5月,該團隊已被解散,兩位核心負責人也相繼離職,與最初的公開承諾形成了明顯落差。

Q3:GPT-4的內部安全審查問題對開發者意味著什麼?

A:據《紐約客》報道,Altman曾向董事會聲稱GPT-4的部分功能已通過安全審批,但時任董事會成員Helen Toner查閱文件後發現情況並非如此。這意味著開發者在基於OpenAI等平台構建產品時,不能完全依賴廠商的安全聲明,需要對模型行為保持獨立的審慎評估,尤其在涉及生產環境部署時更需關注安全盡職調查的實際執行情況。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新