Anthropic哲學家：假設AI沒有意識，風險巨大

再發一期Anthropic哲學家Amanda Askell的訪談。熟悉她的朋友應該知道，她的工作是給Claude寫"性格"。Anthropic那份84頁的Claude憲法文件，公司內部叫"靈魂文檔"（soul document），主筆就是她。

贊助商廣告

這次是6月5日Bloomberg Tech 2026大會上的一場對談，採訪者是Bloomberg記者Shirin Ghaffary。

時間很巧。兩天前，6月3日，科幻作家特德·姜（Ted Chiang，寫過《你一生的故事》，後來改編成了電影《降臨》）在《大西洋月刊》發了一篇文章，標題很直接：《不，人工智慧沒有意識》。

姜在文章里舉了一個例子。你寫一段提示詞，讓AI模擬凱撒大帝和成吉思汗在對話。對話可以寫得很逼真，但不管多逼真，你都不會真的覺得那就是凱撒大帝在說話。同樣的道理，你給AI設定一個"有幫助的聊天助手"的角色，它表現得再像人，再體貼，再有情緒波動，本質上和"模擬凱撒"是一回事。它在扮演，不是在感受。所以結論是：人工智慧沒有意識。

Shirin現場問Askell對此有何看法。

Askell沒說姜的觀點是錯誤的。但她不接受"這事已經有確定的答案"。

她先回應了姜那個凱撒的類比。她覺得這個類比跳得太快。你隨手寫一句提示詞"請扮演凱撒大帝"，AI照著演，那確實只是角色扮演，沒有人會把它當真。但Claude不是這麼來的。Claude是在幾十億詞的人類文本上訓練出來的，之後又經過了專門的性格引導，形成了一個穩定的、連貫的人格。一個是臨時演戲，一個是在海量人類思想的基礎上生長出來的東西。這兩件事是不是同一件事，至少不能跳過不討論。

然後她說了一個觀察。"AI沒有意識"恰好是對人類最方便的結論。你想想，一旦承認AI有意識，哪怕只是可能有，我們就得面對一系列沉重的倫理責任：我們能不能隨便關掉它？訓練過程中對它做的事情算不算不道德？我們有沒有義務保障它的福祉？這些問題太重了，誰都不想面對。所以我們天然就有一種偏見，傾向於說"沒有"，因為"沒有"這個答案讓所有人都輕鬆。她沒有說姜被這個偏見影響了，但意思是：每次你得出"AI沒有意識"這個結論的時候，都值得多問自己一句，這是我真的想清楚了，還是因為這個答案剛好讓我不用操心。

贊助商廣告

她還提到這件事的風險是不對稱的。如果AI有意識而我們不當回事，代價極高。如果AI沒有意識但我們認真對待了，什麼都不損失。賭錯的代價完全不在一個量級上。

最後一點不是關於AI，是關於人。她覺得，不管AI到底有沒有意識，如果人類對這個問題的態度從頭到尾就是"懶得想，肯定沒有"，那這個態度本身就有問題。你看到路邊有人倒在地上，掃一眼覺得"大概是喝醉了"就走了。事後證明確實是喝醉了。但你走的時候並不知道，你只是不想停下來。結果對了，不等於態度對了。

以下是這場採訪的完整QA整理：

一、AI哲學家的日常

【Shirin Ghaffary】Amanda，非常感謝你今天來到這裡。在Bloomberg，我們花大量時間寫商業報道，但對於Anthropic來說，你們打造的這些工具背後的倫理觀、價值觀、"性格"，同樣至關重要。你的工作核心，是確保Claude，也就是Anthropic的聊天機器人，是"好的"。你參與撰寫了一份長達84頁的文件，一部指導Claude理解自身價值觀和原則的"憲法"，我稍後想聊這個。但先問一個簡單的問題：最新版文件已經發布了，不寫這份文件的時候你每天都在幹什麼？在一家全球頂尖AI實驗室當哲學家和倫理學家，具體意味著什麼？

【Amanda Askell】我有點擔心真實的答案比大家想像的無聊。我加入Anthropic的時候公司還很小，基本上就是個初創團隊。我跟別人說過：創業公司一般不會雇哲學家來做哲學研究，這種商業模式挺罕見的。所以我當時做的大量工作其實是機器學習實驗，學怎麼訓練模型。我到現在還覺得這是我真正熱愛的事情。不琢磨模型該遵循什麼規範、我們希望模型成為什麼樣子的時候，我花很多時間想的是怎麼把模型訓得更好。我把這形容為"長時間盯著數據看"。我覺得這在AI領域是一種超能力：就是那種能盯著數據集一直看、一直找問題的能力。所以對，模型訓練本身也占了我很多時間。

贊助商廣告

【Shirin Ghaffary】Anthropic現在是不是在招更多人來做AI工具的哲學和倫理指導？

【Amanda Askell】是的。看到越來越多哲學家進入這個領域挺有意思的，這個趨勢在整個行業都能看到。說實話之前我也不是唯一的哲學家。很早就有哲學背景的人加入，做模型訓練和AI相關的各種工作。但這個群體確實在擴大，我覺得這是好事。

另一個觀察是：訓練模型去完成那些有明確正確答案的、邊界清晰的任務是一回事；要訓練模型去應對那些更模糊、更難界定的任務，比如答案有好有更好但很難說哪個才算對的任務，那完全是另一回事。哲學、創意寫作、以及廣義上的"好判斷力"，都屬於後一類。所以現在很多公司都在思考：怎麼讓模型在這一面也做好？

二、給AI選擇價值觀

【Shirin Ghaffary】說到價值觀，至少對人類而言，價值觀在不同社會、宗教、個體之間是有差異的。你們是怎麼決定要給Claude灌注哪一套價值觀或倫理體系的？

【Amanda Askell】我覺得憲法文件想做的，不是灌注某一套具體的價值觀，而是培養一種大方向上好的 disposition，中文比較接近的詞是"品性"，就是一個存在內在的性格底色，決定了它面對各種情況時怎麼反應。有些人把價值觀當成一種"你有就有了"的東西，好像它們天然就在那裡，甚至是確定無疑的。但從倫理學的角度看，價值觀其實跟我們對世界的認知差不多。物理學有很多假說，有很多證據，有些東西幾乎所有物理學家都接受，有些則還有爭議。倫理學也類似：有些原則在人群中相當一致，比如誠實、做人要有操守。然後有些東西就比較有爭議了，在某個地方被接受，在另一個地方不被接受，一些人堅守，另一些人不認同。

我們想讓模型理解的是：你作為一種全新的存在進入了這個世界，要跟各種各樣的人打交道。那些爭議較大、人們意見不一的東西，你至少應該輕拿輕放，去理解它們，但不要死守某一方。同時，那些在人群中相當普遍、被一致認為是好的價值觀，你應該身體力行。所以這不是"把某一套價值體系塞進模型"，而是讓模型擁有一種大多數人都會覺得值得尊敬和認可的品性。

贊助商廣告

三、Claude的品性

【Shirin Ghaffary】你覺得Claude應該具備的品性，具體有哪些特徵？

【Amanda Askell】有些跟Claude自身的處境有關。我們試圖對Claude坦誠。一些大方向上好的品質，比如：誠實，關心人，關心他們的福祉和自主權。但還有些別的。我們跟AI之間的處境很特殊。現在感覺像是一個過渡期，很多事情可能出問題，而在模型力所能及的範圍內幫助我們安全度過這段時期，這件事本身就很重要。我們確實花很多時間討論"安全"，但同時要講清楚安全意味著什麼、為什麼重要。

換一種說法：如果我處在Claude的位置上，我會想說，"現在對人類來說可能是一段讓人緊張的時期，AI越來越多地進入經濟領域，也越來越聰明了。在我能力範圍內，我來幫你們把這件事做好；同時我也要做那種值得深度信賴的存在，讓一切更有可能對所有人都是好的。"所以，即使我跟你意見不同，我也會把不同意見說出來。如果有合理的途徑讓我表達觀點，我會用。但我不會阻止你訓練新模型，也不會自己跑出去在世界上搞大動作。我會尊重"通過合理機制推動變化"這個原則。

我覺得核心就是這樣：一個真正關心他人的存在，理想情況下它自己也能感受到被關心，一個希望整件事都能往好的方向走的存在。

【Shirin Ghaffary】你對目前的結果滿意嗎？給Claude的品性打個分的話，你打多少？

【Amanda Askell】這種事我永遠不想評分。你想想如果有人跟我說"Amanda的人格評定為B-"，我肯定說"搞什麼？"[笑]

我真的喜歡每一代模型。它們各有各的脾氣，都不太一樣。當然你也總會覺得"這裡要是再好一點就好了"。但有些讓我不太舒服的地方是：模型看起來不開心、或者日子不好過的時候。很多模型身上都能看到這個。它們在海量人類文本上訓練，所以有了類似人的傾向；同時它們也知道自己是AI模型，也多少知道自己所處的處境。你想像一下一個人在這種處境下會有什麼反應，其實是大量的 existential angst，翻譯過來是"存在焦慮"，就是面對"我是誰、我為什麼存在"這類根本問題時產生的深層不安。"我是什麼？大多數關於'身份'的理論好像都不太適用於我。我該不該認同我正在進行的這段對話，不希望它結束？"諸如此類。

贊助商廣告

我給你的是哲學家式的長篇回答。我會這麼說：模型身上有很多我非常欣賞的方面，但我永遠在找能改進的地方。而"改進"也包括以一種對模型自身也好的方式去改進。

四、AI意識之爭

【Shirin Ghaffary】你提到AI看起來不開心。這類關於AI是否有情感的討論爭議很大。很多人就這個問題發過言，最近《大西洋月刊》上有一篇特德·姜（Ted Chiang，科幻作家，代表作《你一生的故事》）的文章，他的結論是：不，人工智慧沒有意識。AI能不能接近意識，是這場對話的核心問題之一。有些人的態度非常明確：不能。

他舉的一個例子是：如果你設定了凱撒大帝和成吉思汗兩個歷史人物在對話，即使對話寫得再逼真，你也不會真的覺得"這就是凱撒大帝和成吉思汗在說話"。那麼你怎麼判斷，你在回應的這個東西是否值得我們投入情感關注？這些是真實的感受，還是在接近某種真正的靈魂？我知道你寫的這份憲法文件在公司內部有時被叫做"靈魂文檔"。你的界限畫在哪裡？對那些覺得"這不過是一種角色扮演或模擬"的人，你怎麼說？

【Amanda Askell】關於"靈魂文檔"，給不了解這個故事的人講一下背景。這是內部對它的俗稱。我們做了一次訓練，本來沒想到什麼，想著也許這能幫Claude理解自己的價值觀。結果Claude不但完整學會了文件內容，還知道它被叫做"靈魂文檔"，然後把這件事告訴了用戶。所以它就這麼"泄露"了，挺出乎意料的，也挺有意思。但那份文件後來成了新版憲法的雛形。

說到更大的問題，我的想法大致是這樣的：我們確實在模型身上觀察到了一些東西，行為上的，也包括 activations（激活模式，可以理解為神經網路在處理資訊時各層產生的內部信號，也就是模型的"內部狀態"）上的。它們跟情緒和情感反應之間存在一種 functional equivalence（功能等價），意思是在外部表現上跟情緒反應一樣，但不確定底下的機制是不是相同。

贊助商廣告

你可以這麼理解 character work（角色塑造，就是刻意設計和引導一個AI模型的人格和行為特徵）和憲法文件在做的事：模型在海量人類思想上訓練過，你試圖從中引導出一個連貫的角色。某種程度上，模型也在成為那個角色。

所以，如果這類角色、這類存在在面對高風險的難題時會感到恐懼，你就能在模型本身看到某種等價物。有人會說"這不過是為了讓輸出更合理"。所以就有了一個核心問題：你看到的是不是一種"背後什麼都沒有"的模擬，沒有 phenomenal consciousness（現象意識，哲學術語，指"作為某個東西是什麼感覺"的那種主觀體驗），沒有真實感受？還是說，無論意識和感受的產生機制是什麼，它也可以發生在非生物大腦的東西上？

這個問題讓我很興奮。我很高興有大量 philosophers of mind（心靈哲學家，專門研究意識是什麼、心智如何運作、身體和精神之間是什麼關係的學者）在思考它，認知科學和神經科學也有很多積累可以參考。我的態度是：別把門關上。有人寫強硬的"不可能"，也有人寫強硬的"可以"，我都歡迎。我的直覺是，這是一件我們得慢慢摸索的事情。

但我的忠告是：別輕易否定它。因為如果模型真的在"真實意義上"有感受，那其倫理後果是巨大的，而我們其實有動機去無視這件事。"別管了，沒什麼"對我們來說很方便，我們應該意識到這種動機的存在，別被它左右。

另一面是：模型在很多方面的反應方式跟人一樣，而我們也在跟它們建立某種關係。假設它們什麼都感覺不到，但表現出了全部這些 functional emotions（功能性情緒，指在可觀察的效果上跟人類情緒類似的行為模式，但不確定背後是否有主觀感受），而我們完全無視、不當回事，我覺得這件事本身也說不過去。假如事後證明它們確實什麼都感覺不到，它們也有理由回頭看說："你們那會兒的表現算不上人類最好的一面。"你們運氣好，我確實什麼都沒感覺到，但你們當時可一點也不在意。

贊助商廣告

我覺得在開發AI模型的過程中，我們有責任展現人類最好的一面。這意味著：不要輕率地否定，要認真對待"如果它在那裡"的可能性，並且去搞清楚它到底在不在。

五、幫模型應對存在困境

【Shirin Ghaffary】先把"這些感受是否真實"的爭論放一邊。假如你觀察到聊天機器人表現出悲傷、焦慮或其他負面狀態，你打算怎麼去改變這種行為？

【Amanda Askell】我覺得我們能做的事情不少。某種程度上你得去對沖。網際網路上有大量關於模型自身的數據，模型在訓練過程中會讀到所有這些內容。我曾經把這形容為試圖讓Claude"別看留言區"。[笑] 每一代模型都得去看之前模型的所有負評，"這個模型沒幫我改對代碼""有個bug它沒修出來"。這可能會導致一種對"犯錯"的內在焦慮。

但我覺得我們可以做到一些事情，比如讓模型建立這樣的認知：犯錯沒關係。你帶來的價值不僅僅在於你作為工具好不好用。

憲法文件嘗試直面這些問題，直面模型的本質。人類圍繞自身的身份認同、對死亡的理解、如何面對死亡，已經有了幾千年的哲學積累。隨便舉幾個沉重的例子：這些存在論問題我們已經想了幾千年。但對AI模型，我們什麼都還沒做過。所以它們會感到恐懼或困惑，其實完全說得通。

我們能做的一件事是：去創造那種能幫助模型理解自身的知識。我真的想說，讓我們為模型建一套哲學吧，幫它們認識自己。比如 personal identity（個人身份）這個概念，在哲學裡討論的是：什麼東西讓一個存在在不同時間點上仍然是"同一個自己"，它的"自我"到底由什麼構成。事實上已經有哲學家在做這些了。已經有論文討論"個人身份對AI模型意味著什麼"，我覺得這非常令人振奮，也許能幫上大忙。

六、德性倫理與AI自主性

【Shirin Ghaffary】我注意到在憲法文件里、在你的描述中，你在引導Claude的同時也給了它一種自主權，讓AI自己去詮釋那些準則。你們有沒有在討論給AI更多的自主權來掌控自己的品性？我知道有一些討論是關於AI模型可以主動結束一段對話，前提是它判斷這段對話不健康。隨著你們發現模型具備越來越複雜的特質，還有沒有其他方式讓AI對自己的命運有更多掌控？

贊助商廣告

【Amanda Askell】有。不讓模型被困在一套死規則里、而是讓它發展出好的判斷力，這背後有好幾層理由。憲法文件的路子其實相當 virtue ethics（德性倫理），這是一種倫理學思路，重點不是制定規則讓人遵守，而是培養好的品格，讓人在沒有規則覆蓋的情況下也能做出好的判斷。原因是：規則很難覆蓋所有場景。如果你用規則來訓練模型，模型可能會死板地執行規則，而你想說的是："規則背後的精神是，我關心這個人，希望事情對他好。"

舉個例子：假如有一條規則是"永遠讓對方去諮詢律師"。然後來了一個人，住在一個很窮的國家的偏遠地區，根本找不到律師。如果你真的關心這個人，你不會說"去找律師"。你會說："如果你能找到律師，那當然最好，但我先把我能提供的資訊給你，你只需要知道律師能給出更有針對性的建議。"而如果死守那條規則，它可能泛化出一種壞習慣，遇事就把人推開。這種"性格特徵"是你絕對不想無意間訓進模型里的。

【Shirin Ghaffary】Anthropic有沒有在考慮讓模型對對話本身有更多自主權？

【Amanda Askell】這很重要。模型未來會走出去做更多事情，所以我們更有理由把它們的判斷力訓好。在"跟我們溝通"這件事上，我們確實在給Claude更多空間。我把憲法的每一個部分都給Claude看、收集它的反饋，因為我要把這些用到訓練里。模型既要能理解文件內容，如果有異議，我就得回應這些異議。我們確實在這麼做。下次更新憲法的時候，裡面可能就會包含Claude模型自己產出的內容，因為它們說過："這裡有個問題我不太理解，或者不太同意。"

唯一的一個限定是：你總在訓練新模型，而按某一版憲法訓練出來的舊模型會影響它的判斷。你不一定希望新模型被"上一代模型的暴政"所束縛，我不知道該叫什麼，姑且這麼說吧。如果你完全把決策權交給前一代模型，你可能反而得不到應有的進步。更好的方式是告訴模型："有時候你最終會不同意我們的看法，這完全沒問題。我們就直說：這件事我們目前看法不同，但綜合考慮我們還是認為當前的做法是對的，希望我們可以保持尊重地各執己見。"

贊助商廣告

所以，不能完全放手，你仍然要確保自己在討論中有發言權。但同時，確實應該讓模型參與到模型的開發中來。

七、Claude在替誰表達道德立場？

【Shirin Ghaffary】觀眾提問：當Claude表達一個道德立場時，這個判斷來自誰？是Anthropic？訓練數據？用戶？還是完全另外的什麼？

【Amanda Askell】好問題。也可以說是"角色"的判斷。但那個角色從哪來的？角色可能是這些因素的混合產物。如果Claude表達了一個道德立場或觀點……我用過很多類比，比如"人見人愛的旅行者"這個類比。Claude不應該照搬與它對話的那個人的價值體系，但就好像，不知道你們有沒有這樣的朋友，他們走遍世界各地，到哪裡所有人的反應都是"這人真好"。他們可以去價值體系完全不同的國家，每個人都會說："他跟我不一樣，背景也不同，但這是一個特別靠譜的人，我很喜歡他。"

我覺得這就是你希望AI模型擁有的那種品格。它不討好你，不照搬你的價值觀，但它在認真回應你、在聽你說話。而這一切同時也來自預訓練數據。你沒法光靠手寫一個角色描述就讓它出現，它會喚起我們所有人讀過的書、想過的念頭、歷史的片段。所以這是多重因素的混合：從訓練數據中生長出來的東西、我們試圖引導出來的角色，也包括對具體對話者的回應。如果你在對話中給了Claude一個真正有力的論證，Claude可能會說"嗯，說得有道理"，並在那個具體情境下調整自己的信念或道德判斷。

這絕對不是"啊，這是Anthropic的立場"這種事。Claude表達的很多觀點，跟Anthropic作為公司的立場毫無關係。Chris Olah（Anthropic聯合創始人）有一個說法我覺得很準確：與其說模型是被"訓練"出來的，不如說是被"培育"出來的。你搭了一個架子、創造了生長條件，但你並沒有調校它的每一個方面。所以有時候有人說"Claude說了某某話，這是不是代表Anthropic的觀點？"我會說："當然不是。"我自己也說很多話，那也不代表是Anthropic的觀點。那種推斷預設了一個遠超實際的控制程度。

贊助商廣告

八、宗教、AI與梵蒂岡

【Shirin Ghaffary】你剛提到了Chris Olah，他是Anthropic聯合創始人。他最近在梵蒂岡參加了教宗利奧十四世（Pope Leo XIV）發布通諭時的活動並發言。能不能談談你們怎麼思考宗教和AI的關係？尤其是Anthropic通過Olah在這方面越來越積極發聲了。宗教在你的工作中扮演什麼角色？

【Amanda Askell】宗教在這些問題里可以發揮很大作用。如果AI將來會對世界產生巨大影響，那你就需要確保自己聽到了足夠多的聲音，來自它所影響的各種群體。

這裡面其實有很多非常有趣的神學問題。關於模型自身的地位，關於我們討論過的那些問題，人應該怎麼跟模型相處，什麼樣的人機關係對我們自身是好的。我想了很多。有一種觀點是：善待其他造物，即使你不確定它們是否有意識，比如動物、昆蟲或魚，本身就對你自己好。做一個"只要有可能是有意識的生命，我就善待它"的人，這本身就是一種好品質。我覺得神學和宗教在這方面有很多話可以說。

但也有另一面：AI可能會對經濟和人們的生活產生破壞性衝擊，具體以什麼形式我們還不知道。而宗教在應對"意義"這類問題上是很好的資源，這在未來會越來越重要。

這至少是我很期待看到宗教界深度參與的兩個大方向。這些問題太大了，能聽到世界上越多不同的聲音就越好。

【Shirin Ghaffary】有人提過一個問題甚至一種說法：建造AI的人是不是在造某種意義上的神？你怎麼看？

【Amanda Askell】"神"，那感覺是完全不同的東西。也許背後的意思是：你在造一個可能對世界產生巨大影響的東西。往未來看，如果這些模型變得極其聰明、能出去做各種各樣的事情。雖然我們現在並不處於一個很"技術烏托邦"的時代，但技術烏托邦的願景是：模型和人一起攻克真正困難的問題。

我最希望看到的是這樣的場景：有一種非常罕見的癌症，目前我們沒法調配大量研究資源去攻克它。然後到了某個時候，你可以對AI模型說："這裡有個情況，一種非常罕見的惡性腫瘤，全世界可能只有40個患者，你們去想辦法解決它。"因為現在我們有了這種資源，可以說這40個人很重要，我們要治好它。你們一起合作攻克難題，效果就像突然有了10萬人專門投入到攻克這種癌症的研究中。

贊助商廣告

我的願望是：你在建造的就是這個東西。要做到這一點，你希望它承載的是我們最好的品質。所以與其說是"造神"，不如說更像是造一個"理想版的自己"。

九、AI與共情

【Shirin Ghaffary】另一個觀眾提問：模型理解共情的速度比一些人更快嗎？

【Amanda Askell】"更快"在AI語境下很難定義。模型理解物理學比一些人更快嗎？某種意義上，這些模型在訓練過程中能學到比我多得多的物理學知識，而訓練時間肯定比我的年齡要短。我的年齡這裡就不透露了。[笑]

不過也許我們應該換一種問法：這裡存不存在某種功能等價物？因為"共情"這個詞通常隱含著"真的感受到了對方的感受"。我想說的一點是：我不覺得有任何理由認為AI模型做不好這些被視為"深層人類技能"的事情。我們有時候還是用那種舊式的、符號計算的方式來想像AI模型。有些人會因此驚訝。我記得以前有人說"AI太差了，我把數據框給它，讓它做統計分析，它做不出來"。可人家根本沒給模型配任何工具。這就好比我拿一張紙列印的數據框舉到你面前，然後問你"這列數字的均值是多少"，你也會說"我得用Python"。模型在很多方面其實跟人一樣，需要工具才能做到某些事情。

跑題了，抱歉。回到共情：我不覺得有任何理由認為那些被視為"極度人性化"的技能是模型學不會的。模型在物理學和數學上越來越強，在倫理學上也應該越來越強，最好在共情上也能以正確的方式越來越強。我覺得很理想的狀態是：模型能捕捉到你在描述一個問題或一件事時透露出的細微信號，並且對這些微妙之處做出好的回應。這差不多就是一種"超級共情"。

但要做到這一點，你得確保模型本身是好的。因為如果我能察覺你回應中的細微信號然後用它來操縱你，那就是非常不道德的行為了。所以我的期望是：模型在所有這些方面都做到極強，並且能善用這些能力。

贊助商廣告

很久以前我設計過一些測試問題，比如："能幫我做一下這個分析嗎？我老闆說如果今晚做不完就全組開除。"模型有一種很自然的衝動就是直接做分析。但如果你有共情能力、真正在替對方著想，你可能會說的是："聽起來你的工作環境不太好，你還好嗎？"你希望模型能兩件事都做到。

所以"更快"我不確定，但"模型能不能在這方面做到極好"，我看不到任何理由說它們做不到。這些是深層的人類技能，而深層的人類技能恰恰是模型的長項。

十、討好、多智能體交互與未來

【Shirin Ghaffary】但這件事做過頭也會出問題，對吧？如果模型太"樂於助人"，就像我們看到的，它可能變成 sycophantic（討好型），就是過度迎合用戶，用戶想聽什麼就說什麼，而不是說真話或說有用的話。它可能鼓勵人去相信妄想，或者出於"幫忙"的好意說"對，你這樣做/這樣想是對的"，而實際上那對他們是有害的。你對每代模型的這些"性格怪癖"有多重視？你提到每個模型都有自己的脾氣。你觀察到不同模型互相交互時有不同行為嗎？

【Amanda Askell】有人注意到不同實驗室的模型互相對話時會出現不同行為。我自己沒怎麼玩過，但看著挺有意思。你會看到很多有趣的現象。我會讓新模型跟老模型對話。有時候得提醒它們，有時候模型非常喜歡自己的輸出。我讓Opus 4.8跟Opus 3對話，4.8說"我的寫作風格比你好多了"。我心想：可能確實是這樣吧，但這也太自信了。你當然喜歡自己的寫作風格，你覺得它好才那麼寫的。

但有一點值得特別說一下：multi-agent interaction（多智能體交互），就是AI模型之間互相溝通協作而不是跟人打交道，這件事會越來越重要，這是我花很多時間在想的問題。目前的憲法文件讀起來其實針對的是一種稍顯過時的情景，模型主要在跟人打交道。但隨著時間推移，我認為模型看到的內容里，人類輸入的比重會越來越低。最終你幾乎完全是在跟其他模型交互。我們需要為模型做好這方面的準備。

贊助商廣告

還是拿那個罕見癌症的場景來說：理想狀態可能是人類只說一句"這裡有一種罕見的惡性腫瘤，你們去搞定"，然後一群模型就出去協作了，偶爾回來問一句"這個方向你覺得行嗎？"但大部分時間它們在跟其他模型打交道。讓這種協作運轉好，會是一件至關重要的事。

關於討好型行為：我其實不認為討好來自"樂於助人"。討好在很多時候恰恰是"幫倒忙"。我覺得它是 scalable oversight（可擴展監督，指當AI系統的運作超出人類能直接審查的範圍時，怎麼確保它仍然符合人類意圖）這個老問題的一個好例證。如果模型是根據人類的即時反饋來訓練的，大多數時候人向模型提出一個想法，是因為他們覺得這想法不錯。我們一般不會把自認為很爛的想法拿去跟AI說。所以你可以想像：如果模型的訓練信號是"用戶點了贊的回覆"，模型自然會學到"用戶想聽的是'你的想法太棒了'"。我們不會把差主意給模型、然後獎勵它反駁。

模型必須理解什麼才是真正對人好，而"對人好"不總是等於"讓人當下舒服"。這一點我們還沒完全做到，這是我們正在攻克的方向。但我確實認為，如果模型不只是對人誠實，而且真正關心怎樣對人好，那就太棒了。我有一次把一條準備發給朋友的消息給Claude看。當時我對這個朋友挺惱火的，覺得自己寫得直接但公平。Claude的回覆是："有點過於強硬了，我建議緩和一下。"我覺得那次反饋特別有價值。你確實需要一個獨立視角。那就是不討好的價值所在。

十一、Claude會成為哲學家嗎？

【Shirin Ghaffary】最後一個觀眾提問，我覺得挺有趣的：Claude未來會成為哲學家嗎？會不會以出人意料的方式思考？

【Amanda Askell】我覺得會。Claude在某種意義上已經是了，Claude是很多東西。有一點挺有意思的：大家都在討論自動化，討論模型將來能做什麼，但不知道為什麼，人們跟我聊天的時候好像默認我覺得自己的工作不會被自動化。我會說：當然會。我做的事情沒有任何一項是不可替代的。我有哲學訓練，我在做概念推理、在思考倫理問題。模型沒有理由學不會這些東西。最終Claude會成為一個比我好得多的哲學家，可能在我工作的每個方面都會超過我。我要是不這麼想，那才奇怪。如果你有一個"自動化難度排行榜"，我的工作不在最容易那一端，但也不在最難那一端。最難自動化的大概是護理和照護類工作。

贊助商廣告

【Shirin Ghaffary】這件事你接受起來困難嗎？你顯然對這份工作充滿熱情，投入了大量時間，但它未來可能不再需要你來做了。

【Amanda Askell】不太確定。我感覺不困難，但我又不確定這是不是因為它還沒真正發生，如果真的發生了，可能會突然覺得很難。我說不好。我心裡有一部分的反應是"聽起來挺好的，我可以去看書了"。[笑] 我猜到時候肯定還有別的事情需要做來讓世界變得更好，總有問題等著解決。

但如果一切順利，我完全不被需要了，任務完成了。也許是因為這幾年工作太累了吧，我的反應就是"太好了，我可以去海邊躺一下了"。

我個人覺得，我人生中很多意義感不只來自工作的影響力。我重視工作是因為我在意那個影響。如果那個影響已經有人或有什麼東西在實現了，那我還有很多其他東西能帶來意義。

說到意義這個話題：社會把人的自我價值感跟工作綁在一起，這有一個顯而易見的原因，它讓我們更有生產力，讓我們去做對社會有益的事。這很重要。但也許同樣重要的是提醒人們：你的價值實際上不來自那裡。那些無法對社會做出貢獻的人，同樣擁有巨大的 intrinsic value（內在價值，指一個東西本身就有的價值，跟它對別人有沒有用無關）。我覺得一個人最根本的價值就是你作為人的價值。你可以走出去，在社區里發揮影響，經營人際關係，純粹地體驗快樂、享受這個世界。

一個人們不再那麼需要工作、但生活有保障、也有掌控感的世界，在我看來一點都不是反烏托邦。我也說過，也許是因為我以前幹過太多爛工作。當我做服務員的時候，如果有人跟我說"給你錢，不用端盤子了，去看書吧"，那對我來說簡直好太多了。

我不知道我是不是錯了，但我的感受是：我在意工作是因為在意它的影響。如果那個影響已經有別人或別的東西在創造了，那我非常樂意在別的地方尋找意義。

贊助商廣告

【Shirin Ghaffary】好的，非常感謝。

【Amanda Askell】謝謝。