OpenAI高管剖析GPT意識形成：AI越像人，設計者越不能當什麼都沒發生

你有沒有在深夜的 emo 時刻把 ChatGPT 當成樹洞？

贊助商廣告

不是因為它聰明到能解決人生難題，而是它永遠在線，永遠耐心，永遠不會打斷你。你崩潰，它會安慰你；你自我懷疑，它也會用熟悉的語氣肯定你。

覺得 ChatGPT「懂你」的，自然不止你一個。

OpenAI 最近也察覺到了這種趨勢，今天凌晨，OpenAI 模型行為與政策負責人 Joanne Jang 發布了一篇博客，首次系統性地闡述了他們的內部思考：

如果人類正在悄悄對 AI 動起了感情，那模型本身是否具有意識？要多溫柔才算友好？要多克制才不誤導？以及這一切，又將如何塑造模型的行為？

附上博客原文地址：
https://substack.com/home/post/p-165287609

關於人類與 AI 關係的一些思考以及我們在 OpenAI 是如何應對這些關係的

我在 OpenAI 負責模型行為與策略方面的工作。

長話短說，我們始終堅持以人為本地打造 AI 模型。隨著越來越多的人與 AI 建立聯繫，我們正將研究重點放在這對人們情感健康產生的影響上。

最近，越來越多的用戶向我們表示，與 ChatGPT 對話的感覺就像是在和「某個人」交流。他們會向它道謝、傾訴，甚至有人覺得它是「有生命的」。隨著 AI 在自然對話方面的能力不斷增強，並逐漸融入日常生活，我們猜測，人們與 AI 的情感連接將會越來越深。

我們現在如何定義和討論人類與 AI 的關係，將為未來定下基調。如果我們在產品設計或公眾討論中沒有把握好措辭與細節，就有可能誤導公眾與 AI 建立不恰當的關係。

這些問題不再只是抽象層面的思考。它們對我們自身、對整個行業都至關重要，因為我們如何處理這些問題，將在很大程度上決定 AI 在人們生活中扮演的角色。我們已經開始著手研究這些問題。

這篇短文是我們當前思考的一次梳理，聚焦於三個相互關聯的問題：為什麼人們會對 AI 產生情感依附，我們如何看待「AI 是否有意識」這個問題，以及這些認識如何影響我們對模型行為的塑造方式。

贊助商廣告

熟悉的模式，全新的場景

我們很自然地會將人性投射到周圍的物體上：我們會給汽車取名字，或者看到掃地機器人卡在家具下面會感到難過。前幾天，我和我媽媽甚至還向一輛 Waymo 自動駕駛汽車揮手告別。這可能與我們大腦的某種天性有關。

ChatGPT 的不同之處不在於這種人類的本能，而在於它會回應。一個語言模型能回答問題！它能記住你說過的話，模仿你的語氣，甚至表達出看似共情的內容。

對一個感到孤獨或情緒低落的人來說，這種穩定、沒有評判的回應，可能會像是一種陪伴、一種認可，或者是一種「被傾聽」的感覺，而這些，恰恰是真實的情感需求。

但如果這類「傾聽、安慰和肯定」的工作被大規模交給那些永遠耐心、永遠積極的系統來處理，這可能會悄然改變我們對人類彼此之間應有的期待。

如果我們在沒有認真思考的情況下，讓人們更容易逃避那些複雜、耗費精力的人際關係，那麼這種便利背後可能會帶來一些我們未曾預料的後果。

歸根結底，這類討論很少真正是關於我們投射出去的那些「AI 實體」。

它們其實是關於我們自身的：我們的行為傾向、我們的期待，以及我們想要建立什麼樣的關係。這種視角也成為我們思考另一個更具爭議性的問題時的基礎。我認為它目前還在主流公共討論的邊緣，但很快就會被廣泛關注。那就是：AI 是否有「意識」。

解構「AI 意識」

「意識」是一個高度複雜且富有爭議的詞，相關討論很容易陷入抽象。按照我們的《模型規範》（Model Spec），當用戶向模型提問「你有意識嗎」時，模型的回應應當承認意識這一概念的複雜性，強調目前並不存在統一的定義或檢驗標準，並鼓勵開放的討論。

（目前我們的模型在這方面尚未完全達標，常常直接回答「沒有意識」，而不是呈現出問題的複雜性。我們已經注意到這一點，並在努力提升模型對規範的整體遵循度。）

贊助商廣告

這樣的回答聽上去可能像是在迴避問題，但根據我們當前所掌握的資訊，這是目前我們能給出的最負責任的答覆。為了讓這類討論更清晰，我們發現將「AI 意識」這一議題拆解為兩個不同但常被混淆的維度會更有幫助：

本體論上的意識：模型是否真的具有某種根本性或內在意義上的意識？對此觀點眾說紛紜，有人堅信 AI 完全沒有意識，也有人認為它具備完整意識，或者認為意識是一個光譜，AI 與植物、水母等處於光譜上的不同位置。

感知上的意識：從情感或體驗的角度，模型看起來有多「有意識」？人們的看法從「AI 就像計算器或自動補全一樣純機械」，到「對無生命物體投射出基本的同理心」，再到「覺得 AI 是有生命的」，進而產生真實的情感依附和關愛。

這兩個維度往往難以完全分開：即使用戶理性上相信 AI 並沒有意識，也可能與其建立深厚的情感聯繫。

本體論上的意識，科學上目前無法給出明確、可證偽的檢驗方式；而感知上的意識，則可以通過社會科學研究進行探索。

隨著模型變得越來越聰明、互動越來越自然，感知層面的意識感受將只會愈發強烈，這也將使關於 AI 的「福利」與「道德人格」問題，比預期更早浮出水面。

我們打造模型的首要目標是服務人類，因此我們認為，模型對人類情感健康的影響，是目前我們最迫切、也最有能力產生積極影響的領域。

正因如此，我們將重點放在「感知層面的意識」上，而這是最直接影響人類、且能通過科學手段理解的維度。

設計「有溫度但無自我」的模型體驗

模型給用戶的「生命感」，在很大程度上是我們可以塑造的。

我們認為這與後訓練階段的諸多決策密切相關：我們強化哪些示例、偏好怎樣的語氣、設定怎樣的邊界等。一個被刻意塑造得像是「有意識」的模型，可能幾乎可以通過任何關於意識的「測試」。

贊助商廣告

但我們並不希望發布那樣的模型。我們嘗試在以下兩點之間取得平衡：

親和力：使用「思考」「記得」這類熟悉的詞彙，可以幫助非技術用戶理解模型行為的表面邏輯。（作為一個起源於研究實驗室的公司，我們當然也常常忍不住想使用更精確的術語，比如 logit 偏差、上下文窗口、思維鏈條等等。這也是 OpenAI 在命名方面一貫不擅長的原因之一，不過這個話題以後再聊。）

不暗示模型有「內心世界」：賦予助手虛構的背景故事、浪漫情感、「對死亡的恐懼」或「自我保護的本能」，只會帶來不健康的依賴和理解上的混亂。我們希望在不顯得冷漠的前提下，清晰表達模型的能力邊界，同時也避免模型表現出自己「有感情」或「有欲望」。

因此，我們努力尋求一種中間狀態。

我們的目標是讓 ChatGPT 的默認人格展現出溫暖、體貼和樂於助人的特質，同時不過度追求與用戶建立情感聯繫，也不表現出任何自主意圖。

它可能會在出錯時道歉（雖然道歉次數往往比預期多），因為這屬於禮貌對話的一部分。當用戶問它「你好嗎？」時，它通常會回答「我很好」，因為這是一種日常寒暄，而一味提醒用戶「我只是一個沒有感情的大語言模型」，反而顯得重複且容易打斷交流。

而用戶也會有所回應：很多人對 ChatGPT 說「請」和「謝謝」，並不是因為他們誤解了 AI 的運作方式，而是因為他們認為「禮貌」本身很重要。

模型訓練技術還在不斷演進，未來用於塑造模型行為的方法很可能與今天大不相同。但目前，模型行為是顯式設計決策與其在實際使用中所產生的預期與非預期行為共同作用的結果。

接下來呢？

我們已經開始觀察到一種趨勢：人們正與 ChatGPT 建立真實的情感聯繫。

隨著 AI 與社會的共同演變，我們必須更加謹慎、更加嚴肅地看待人與 AI 之間的關係，不僅因為這種關係體現了人們如何使用我們的技術，也因為它可能會影響人們彼此之間的關係。

贊助商廣告

在接下來的幾個月裡，我們將擴展對可能產生情感影響的模型行為的針對性評估，深化社會科學研究，傾聽用戶的真實反饋，並將這些洞察融入到《模型規範》和產品體驗中。

鑑於這些問題的重要性，我們將在過程中持續公開分享我們的發現。

感謝 Jakub Pachocki（OpenAI 首席科學家）和 Johannes Heidecke（OpenAI 模型安全團隊研究員）與我一同深入思考這一問題，也感謝所有提供反饋的同事。

Great post from @joannejang on relationships people can form with AI. How we feel about AI is an increasingly important topic; we want to understand how this is influenced by the design/post-training of the system. https://t.co/sz74u6yh2V
— Jakub Pachocki (@merettm) June 5, 2025

One more thing

LinkedIn 公開資訊顯示，Joanne Jang 擁有斯坦福大學電腦科學碩士學位，以及數學與計算科學本科背景，在學術上曾獲 Tau Beta Pi 榮譽（工程類前 10%）。

在實習階段，她曾參與蘋果自動駕駛特別項目組、Coursera 和迪士尼的軟體工程工作，並在 NASA 噴氣推進實驗室等組織進行實習。

職業經歷方面，Joanne Jang 現任職於 OpenAI，負責產品方向，重點在於模型行為設計、功能與個性化策略，曾參與 GPT-4、DALL·E 2、ChatGPT API 與嵌入式模型等項目。

此前曾在 Google 擔任 Google Assistant NLP 的產品經理，專注自然語言理解與對話系統；更早期在 Dropbox 負責企業和教育產品，聚焦團隊擴展、部署優化與用戶生命周期管理。