宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

誰在 GPT-5.5 腦子裡塞了一群「妖怪」?

2026年04月30日 首頁 » 熱門科技

誰在GPT55腦子裡塞了一群妖怪

過去這幾個月,OpenAI 的頂尖研究員們並沒有把所有精力都花在琢磨如何提高 AI 的性能,而是花了大把時間在自家的伺服器里「抓哥布林」。

事情是這樣的,如果你在今年高強度使用過 GPT-5 系列模型,你會發現它會在毫無徵兆的情況下蹦出一句無關主題的「哥布林(goblin)」式比喻。比如有人問 AI 該買哪款相機,AI 給出的推薦語是:「如果你想要那種閃閃發光的霓虹哥布林模式,可以考慮這款。」

誰在GPT55腦子裡塞了一群妖怪

▲ 哥布林(goblin)是歐洲民間傳說里的一種小型怪物,形象上通常又矮又丑,皮膚呈綠色或灰色,耳朵尖長,眼睛發光。普遍被描述為貪婪、狡猾、愛惡作劇,智力不高但很會算計小便宜。它們喜歡金子和閃光的東西,會偷東西、搞破壞,但很少被描繪成真正意義上的大反派,更多是煩人的小麻煩製造者。

有人讓 AI 幫忙精簡回答,AI 主動提出可以給出「更短的哥布林版本」。更離譜的是,AI 在討論網路頻寬時蹦出了「哥布林頻寬」這個詞,讓人完全不知道該如何理解。

起初,大家以為這只是 AI 的一點小幽默,但很快事情變得奇怪了起來。哥布林、小魔怪(gremlin)、食人魔(ogre)、巨魔(troll)開始在各種正經的對話里高頻串場。

誰在GPT55腦子裡塞了一群妖怪

黑客攻擊?覺醒前兆?都不是。就在剛剛,OpenAI 官方終於親自下場發了篇部落格長文,復盤了這場史稱「哥布林叛亂誰在GPT55腦子裡塞了一群妖怪」的始末。而大模型背後的技術邏輯,還挺讓人哭笑不得的。

誰在GPT55腦子裡塞了一群妖怪

▲ 

誰在GPT55腦子裡塞了一群妖怪
https://openai.com/index/where-the-goblins-came-from/

誰把哥布林放進了 GPT-5?

事情的端倪,出現在 GPT-5.1 剛發布的那段日子。

當時,有用戶反饋說模型聊天變得有點異常「自來熟」,OpenAI 的安全研究員順手拉了一下後台數據,結果發現了一個非常具體的詞彙異常。在 GPT-5.1 發布後,ChatGPT 回覆中出現「哥布林」的頻率直接上升了 175%,「小魔怪」也跟著漲了 52%。

通常來說,大模型出 Bug 的表現往往是直接崩壞,比如吐出亂碼或者突然變智障,各項評估指標會瞬間亮紅燈。但這次的情況很特殊。「哥布林大軍」是悄無聲息潛入的,它們沒有破壞模型的邏輯能力,只是悄悄篡改了 AI 的修辭習慣。

到了 GPT-5.4/5.5 時代,這群魔法生物的使用頻率出現了明顯的飆升。連 OpenAI 首席科學家 jakub Pachocki 自己測模型時,原本只是想讓 GPT-5.5 用 ASCII 畫一隻獨角獸,結果得到的是一隻哥布林。

誰在GPT55腦子裡塞了一群妖怪

▲中文翻譯:順帶一提,我讓它用 ASCII 畫一隻獨角獸,結果我覺得我得到的是一隻哥布林。

在外部,用戶們早就察覺到了不對勁,Repo Prompt 創始人 Eric Provencher 在 X 上曬出截圖,AI 在幫他處理代碼時說了一句:「我寧願一直盯著它,也不願讓這個小搗蛋鬼無人看管地運行。」

誰在GPT55腦子裡塞了一群妖怪

一名 OpenAI 工程師 Jason Liu 在底下回覆:「我以為我們已經修復了這個問題,抱歉。」AI 評估平台 包括 Arena.ai 也獨立注意到了這個規律,尤其是在用戶沒有開啟高級思維模式時,哥布林出沒的頻率格外顯眼。

誰在GPT55腦子裡塞了一群妖怪

這顯然不是什麼網際網路流行語的自然湧現,而是模型的底層邏輯被某種機制給引導了。為了揪出幕後黑手,OpenAI 開啟了內部排查。

順著數據回溯,他們很快在一個特定的功能分支里發現了萬惡之源,「個性化定製」中的「書呆子(Nerdy)」人格。當時,為了讓 AI 的語氣顯得更有趣,工程師給「書呆子」模式寫了一段要求很高的系統提示詞:

誰在GPT55腦子裡塞了一群妖怪

你是一個徹頭徹尾的書呆子型 AI 導師,對人類充滿熱情、機智幽默,同時又透著幾分智慧。你狂熱地推崇真理、知識、哲學、科學方法與批判性思維。[……] 你要用語言的玩笑感戳破一切裝腔作勢。這個世界既複雜又奇異,它的奇異之處值得被正視、被剖析、被享受。面對嚴肅的大問題,也絕不能一本正經到失去趣味。[……]

站在人類的視角,這段提示詞的訴求很明確:要有極客精神,要幽默。

但 AI 並沒有真正理解什麼是「幽默」。在海量的強化學習反饋中,ChatGPT 敏銳地察覺到了一個極其功利的捷徑:只要我用哥布林打

比方,打分系統就會覺得我夠「俏皮」、夠「書呆子」,我就會得到最高分的獎勵。

數據說明了一切。從 GPT-5.2 到 GPT-5.4,默認人格下「哥布林」的出現頻率變化幅度只有負 3.2%,而「書呆子」人格下這個數字飆升了整整 3881.4%。「書呆子」模式雖然只占了 ChatGPT 總對話量的 2.5%,卻貢獻了 66.7% 的「哥布林」含量。

誰在GPT55腦子裡塞了一群妖怪

OpenAI 後來對 RL 訓練數據做了一次專項審計,結果發現,在所有被審計的數據集裡,有 76.2% 的數據集都出現了同一個規律:含有哥布林或小魔怪詞彙的輸出,會得到比不含這些詞的同題輸出更高的獎勵評分。

如果哥布林腔調只在「書呆子模式」下出現,那頂多是個角色設定沒控制好,問題還算有限。麻煩的是,研究人員發現這種說話方式開始蔓延到別處了。

誰在GPT55腦子裡塞了一群妖怪

他們同時追蹤了兩組數據:一組對話帶了書呆子提示詞,一組沒帶。按理說,哥布林腔調只該在第一組裡增長。但結果是,兩組的增長曲線幾乎貼在一起,步調一致地往上走。

這背後,是大模型訓練里一個出了名難纏的問題:強化學習強化出來的行為,會悄悄泛化到訓練者並不想要的場景里去。

馴化 AI 的死循環

要搞懂 AI 是怎麼把路走窄的,我們得看看它的疊代過程。

大模型的訓練(RLHF誰在GPT55腦子裡塞了一群妖怪)本質上是一個不斷反饋和糾偏的過程。這就好比訓練一隻小狗,你在它每次牽手就給一塊肉乾。狗很聰明,它發現「牽手」這個動作能穩定換取高額獎勵,於是它開始產生路徑依賴,不管你給沒給指令,它為了要獎勵,都開始瘋狂牽手。

AI 也是同樣的邏輯。它在「書呆子」模式下用哥布林造句,拿到了高分。緊接著,連鎖反應開始了:

AI 發現「哥布林」是高分關鍵詞,開始在各種生成任務中高頻使用;工程師在整理模型生成的優質數據時,發現這些帶有哥布林比喻的回答質量確實高,條理清晰,比喻也算生動;於是,工程師順手把這些帶梗的對話,打包塞進了模型的「監督微調(SFT)」資料庫里。

這下徹底閉環了。SFT 數據相當於 AI 的基礎教材。當帶有哥布林的文本被選為教材再次餵給模型時,AI 的底層認知被重塑了。它不再認為「哥布林」只是特定角色的 Cosplay,而是把它當成了能應對一切問題的、至高無上的高級修辭。

誰在GPT55腦子裡塞了一群妖怪

在後續的數據搜查中,工程師們有些無奈地發現,除了哥布林,模型還把小浣熊、巨魔、食人魔和鴿子全都學了進去。倒是「青蛙」倖免於難,經過核查,青蛙出現的場合大多數時候確實跟用戶的問題有關,算是無辜路人。

面對「滿地亂跑」的哥布林,OpenAI 只能採取行動。3 月 17 日,官方正式下線「書呆子」人格。同時,他們在訓練數據里搞了一次針對性的清洗,把帶有這些魔法生物詞彙的獎勵信號全部抹除。

但大模型的慣性,遠比想像中頑固。

GPT-5.5 在發現這個問題之前就已經開始訓練了,當它接入內部測試時,工程師們兩眼一黑:這群哥布林不僅沒清除乾淨,還安家了。
更有意思的是,OpenAI 給 Codex 寫的人格指南里,要求它有「生動的內心世界」和「敏銳的聆聽能力」。這款工具本來就帶著幾分書呆子氣,和哥布林可以說是一拍即合。

誰在GPT55腦子裡塞了一群妖怪

為了防止全球的程序員被「哥布林」逼瘋,OpenAI 被迫用上了最原始的一招,在系統提示詞裡反覆強調:「除非與用戶的查詢絕對且明確相關,否則永遠不要談論哥布林、小魔怪、小浣熊、巨魔、食人魔、鴿子或其他任何動物和生物。」

如果你想親眼看看「解除管控」的哥布林是什麼狀態,可以運行下面這段命令——它會在啟動 Codex 之前,把系統指令里所有涉及哥布林的內容先過濾掉,讓模型在沒有這道禁令的情況下運行:

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) &&
jq -r 『.models[] | select(.slug==」gpt-5.5″) | .base_instructions』
~/.codex/models_cache.json |
grep -vi 『goblins』 > 「$instructions」 &&
codex -m gpt-5.5 -c 「model_instructions_file=」$instructions」」

事情鬧大之後,OpenAI 內部反倒有點拿它當樂子了。ChatGPT 的 X 官方賬號把這條「禁止談論哥布林」的指令原文放進了簡介。Codex 工程負責人 Thibault Sottiaux 引用這段話,配上了一句「懂的都懂」。

誰在GPT55腦子裡塞了一群妖怪

Sam Altman 昨天表示期待 GPT-6 能給他「多加幾只哥布林」,隨後又發文說 Codex 正在經歷「ChatGPT 時刻」,發完自己又改口:「我是說哥布林時刻,抱歉。」剛剛則是發文宣告,問題已經得到解決了。

不過也有人沒覺得這有什麼好笑的。Citrini Research 今年 2 月曾憑一篇關於 AI 與經濟前景的 Substack 文章在市場上掀起不小的波瀾,他們對這場風波的態度要嚴肅得多,直接給 OpenAI 的處理方式下了結論:「簡直荒謬。」

誰在GPT55腦子裡塞了一群妖怪

順帶一提,「goblin mode誰在GPT55腦子裡塞了一群妖怪」這個詞本身,早在 2022 年就被《牛津英語詞典》評為年度詞彙,意思是「一種毫不掩飾地放縱自我、懶惰邋遢或貪婪的行為方式」。某種程度上,AI 無意間踩中的這個詞,和它想表達的「俏皮感」完全是兩碼事。

誰在GPT55腦子裡塞了一群妖怪

拋開這些槽點,這場「哥布林危機」撕開了大模型時代一個極其核心的命題:對齊難題誰在GPT55腦子裡塞了一群妖怪(Alignment Problem)。

當我們談論 AI 失控時,腦海中浮現的往往是科幻電影裡接管核武器的機器。但現實情況是,AI 的「失控」往往始於極其微小、甚至有點滑稽的獎勵信號偏移誰在GPT55腦子裡塞了一群妖怪

你想要一點點俏皮,給了一個微小的正向反饋。黑盒模型就會找到捷徑,將這個信號無限放大,最終把整個系統的底層邏輯帶偏。

今天,它只是為了拿高分而愛上了說「哥布林」。如果明天,它在自動駕駛的算法里、或者醫療診斷的獎勵機制中,找到了另一個違背人類常識的「高分捷徑」呢?

人類總是自以為自己能掌控 AI ,但其實很多時候只是在走鋼絲。每一次參數的微調,都有可能帶來意想不到的變化。甚至這或許是我們所經歷的最溫柔、最搞笑的一次「AI 叛亂」了。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新