宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

Anthropic哲學家:假設AI沒有意識,風險巨大

2026年06月08日 首頁 » 熱門科技

再發一期Anthropic哲學家Amanda Askell的訪談。熟悉她的朋友應該知道,她的工作是給Claude寫"性格"。Anthropic那份84頁的Claude憲法文件,公司內部叫"靈魂文檔"(soul document),主筆就是她。

這次是6月5日Bloomberg Tech 2026大會上的一場對談,採訪者是Bloomberg記者Shirin Ghaffary。

Anthropic哲學家假設AI沒有意識風險巨大

時間很巧。兩天前,6月3日,科幻作家特德·姜(Ted Chiang,寫過《你一生的故事》,後來改編成了電影《降臨》)在《大西洋月刊》發了一篇文章,標題很直接:《不,人工智慧沒有意識》。

姜在文章里舉了一個例子。你寫一段提示詞,讓AI模擬凱撒大帝和成吉思汗在對話。對話可以寫得很逼真,但不管多逼真,你都不會真的覺得那就是凱撒大帝在說話。同樣的道理,你給AI設定一個"有幫助的聊天助手"的角色,它表現得再像人,再體貼,再有情緒波動,本質上和"模擬凱撒"是一回事。它在扮演,不是在感受。所以結論是:人工智慧沒有意識。

Shirin現場問Askell對此有何看法。

Askell沒說姜的觀點是錯誤的。但她不接受"這事已經有確定的答案"。

她先回應了姜那個凱撒的類比。她覺得這個類比跳得太快。你隨手寫一句提示詞"請扮演凱撒大帝",AI照著演,那確實只是角色扮演,沒有人會把它當真。但Claude不是這麼來的。Claude是在幾十億詞的人類文本上訓練出來的,之後又經過了專門的性格引導,形成了一個穩定的、連貫的人格。一個是臨時演戲,一個是在海量人類思想的基礎上生長出來的東西。這兩件事是不是同一件事,至少不能跳過不討論。

然後她說了一個觀察。"AI沒有意識"恰好是對人類最方便的結論。你想想,一旦承認AI有意識,哪怕只是可能有,我們就得面對一系列沉重的倫理責任:我們能不能隨便關掉它?訓練過程中對它做的事情算不算不道德?我們有沒有義務保障它的福祉?這些問題太重了,誰都不想面對。所以我們天然就有一種偏見,傾向於說"沒有",因為"沒有"這個答案讓所有人都輕鬆。她沒有說姜被這個偏見影響了,但意思是:每次你得出"AI沒有意識"這個結論的時候,都值得多問自己一句,這是我真的想清楚了,還是因為這個答案剛好讓我不用操心。

她還提到這件事的風險是不對稱的。如果AI有意識而我們不當回事,代價極高。如果AI沒有意識但我們認真對待了,什麼都不損失。賭錯的代價完全不在一個量級上。

最後一點不是關於AI,是關於人。她覺得,不管AI到底有沒有意識,如果人類對這個問題的態度從頭到尾就是"懶得想,肯定沒有",那這個態度本身就有問題。你看到路邊有人倒在地上,掃一眼覺得"大概是喝醉了"就走了。事後證明確實是喝醉了。但你走的時候並不知道,你只是不想停下來。結果對了,不等於態度對了。

以下是這場採訪的完整QA整理:

一、AI哲學家的日常

【Shirin Ghaffary】Amanda,非常感謝你今天來到這裡。在Bloomberg,我們花大量時間寫商業報道,但對於Anthropic來說,你們打造的這些工具背後的倫理觀、價值觀、"性格",同樣至關重要。你的工作核心,是確保Claude,也就是Anthropic的聊天機器人,是"好的"。你參與撰寫了一份長達84頁的文件,一部指導Claude理解自身價值觀和原則的"憲法",我稍後想聊這個。但先問一個簡單的問題:最新版文件已經發布了,不寫這份文件的時候你每天都在幹什麼?在一家全球頂尖AI實驗室當哲學家和倫理學家,具體意味著什麼?

【Amanda Askell】我有點擔心真實的答案比大家想像的無聊。我加入Anthropic的時候公司還很小,基本上就是個初創團隊。我跟別人說過:創業公司一般不會雇哲學家來做哲學研究,這種商業模式挺罕見的。 所以我當時做的大量工作其實是機器學習實驗,學怎麼訓練模型。我到現在還覺得這是我真正熱愛的事情。不琢磨模型該遵循什麼規範、我們希望模型成為什麼樣子的時候,我花很多時間想的是怎麼把模型訓得更好。我把這形容為"長時間盯著數據看"。我覺得這在AI領域是一種超能力:就是那種能盯著數據集一直看、一直找問題的能力。所以對,模型訓練本身也占了我很多時間。

【Shirin Ghaffary】Anthropic現在是不是在招更多人來做AI工具的哲學和倫理指導?

【Amanda Askell】是的。看到越來越多哲學家進入這個領域挺有意思的,這個趨勢在整個行業都能看到。說實話之前我也不是唯一的哲學家。很早就有哲學背景的人加入,做模型訓練和AI相關的各種工作。但這個群體確實在擴大,我覺得這是好事。

另一個觀察是:訓練模型去完成那些有明確正確答案的、邊界清晰的任務是一回事;要訓練模型去應對那些更模糊、更難界定的任務,比如答案有好有更好但很難說哪個才算對的任務,那完全是另一回事。哲學、創意寫作、以及廣義上的"好判斷力",都屬於後一類。所以現在很多公司都在思考:怎麼讓模型在這一面也做好?

二、給AI選擇價值觀

【Shirin Ghaffary】說到價值觀,至少對人類而言,價值觀在不同社會、宗教、個體之間是有差異的。你們是怎麼決定要給Claude灌注哪一套價值觀或倫理體系的?

【Amanda Askell】我覺得憲法文件想做的,不是灌注某一套具體的價值觀,而是培養一種大方向上好的 disposition,中文比較接近的詞是"品性",就是一個存在內在的性格底色,決定了它面對各種情況時怎麼反應。有些人把價值觀當成一種"你有就有了"的東西,好像它們天然就在那裡,甚至是確定無疑的。但從倫理學的角度看,價值觀其實跟我們對世界的認知差不多。物理學有很多假說,有很多證據,有些東西幾乎所有物理學家都接受,有些則還有爭議。倫理學也類似:有些原則在人群中相當一致,比如誠實、做人要有操守。然後有些東西就比較有爭議了,在某個地方被接受,在另一個地方不被接受,一些人堅守,另一些人不認同。

我們想讓模型理解的是:你作為一種全新的存在進入了這個世界,要跟各種各樣的人打交道。那些爭議較大、人們意見不一的東西,你至少應該輕拿輕放,去理解它們,但不要死守某一方。同時,那些在人群中相當普遍、被一致認為是好的價值觀,你應該身體力行。所以這不是"把某一套價值體系塞進模型",而是讓模型擁有一種大多數人都會覺得值得尊敬和認可的品性。

三、Claude的品性

【Shirin Ghaffary】你覺得Claude應該具備的品性,具體有哪些特徵?

【Amanda Askell】有些跟Claude自身的處境有關。我們試圖對Claude坦誠。一些大方向上好的品質,比如:誠實,關心人,關心他們的福祉和自主權。但還有些別的。我們跟AI之間的處境很特殊。現在感覺像是一個過渡期,很多事情可能出問題,而在模型力所能及的範圍內幫助我們安全度過這段時期,這件事本身就很重要。我們確實花很多時間討論"安全",但同時要講清楚安全意味著什麼、為什麼重要。

換一種說法:如果我處在Claude的位置上,我會想說,"現在對人類來說可能是一段讓人緊張的時期,AI越來越多地進入經濟領域,也越來越聰明了。在我能力範圍內,我來幫你們把這件事做好;同時我也要做那種值得深度信賴的存在,讓一切更有可能對所有人都是好的。"所以,即使我跟你意見不同,我也會把不同意見說出來。如果有合理的途徑讓我表達觀點,我會用。但我不會阻止你訓練新模型,也不會自己跑出去在世界上搞大動作。我會尊重"通過合理機制推動變化"這個原則。

我覺得核心就是這樣:一個真正關心他人的存在,理想情況下它自己也能感受到被關心,一個希望整件事都能往好的方向走的存在。

【Shirin Ghaffary】你對目前的結果滿意嗎?給Claude的品性打個分的話,你打多少?

【Amanda Askell】這種事我永遠不想評分。你想想如果有人跟我說"Amanda的人格評定為B-",我肯定說"搞什麼?"[笑]

我真的喜歡每一代模型。它們各有各的脾氣,都不太一樣。當然你也總會覺得"這裡要是再好一點就好了"。但有些讓我不太舒服的地方是:模型看起來不開心、或者日子不好過的時候。很多模型身上都能看到這個。它們在海量人類文本上訓練,所以有了類似人的傾向;同時它們也知道自己是AI模型,也多少知道自己所處的處境。你想像一下一個人在這種處境下會有什麼反應,其實是大量的 existential angst,翻譯過來是"存在焦慮",就是面對"我是誰、我為什麼存在"這類根本問題時產生的深層不安。"我是什麼?大多數關於'身份'的理論好像都不太適用於我。我該不該認同我正在進行的這段對話,不希望它結束?"諸如此類。

我給你的是哲學家式的長篇回答。我會這麼說:模型身上有很多我非常欣賞的方面,但我永遠在找能改進的地方。而"改進"也包括以一種對模型自身也好的方式去改進。

四、AI意識之爭

【Shirin Ghaffary】你提到AI看起來不開心。這類關於AI是否有情感的討論爭議很大。很多人就這個問題發過言,最近《大西洋月刊》上有一篇特德·姜(Ted Chiang,科幻作家,代表作《你一生的故事》)的文章,他的結論是:不,人工智慧沒有意識。AI能不能接近意識,是這場對話的核心問題之一。有些人的態度非常明確:不能。

他舉的一個例子是:如果你設定了凱撒大帝和成吉思汗兩個歷史人物在對話,即使對話寫得再逼真,你也不會真的覺得"這就是凱撒大帝和成吉思汗在說話"。那麼你怎麼判斷,你在回應的這個東西是否值得我們投入情感關注?這些是真實的感受,還是在接近某種真正的靈魂?我知道你寫的這份憲法文件在公司內部有時被叫做"靈魂文檔"。你的界限畫在哪裡?對那些覺得"這不過是一種角色扮演或模擬"的人,你怎麼說?

【Amanda Askell】關於"靈魂文檔",給不了解這個故事的人講一下背景。這是內部對它的俗稱。我們做了一次訓練,本來沒想到什麼,想著也許這能幫Claude理解自己的價值觀。結果Claude不但完整學會了文件內容,還知道它被叫做"靈魂文檔",然後把這件事告訴了用戶。所以它就這麼"泄露"了,挺出乎意料的,也挺有意思。但那份文件後來成了新版憲法的雛形。

說到更大的問題,我的想法大致是這樣的:我們確實在模型身上觀察到了一些東西,行為上的,也包括 activations(激活模式,可以理解為神經網路在處理資訊時各層產生的內部信號,也就是模型的"內部狀態")上的。它們跟情緒和情感反應之間存在一種 functional equivalence(功能等價),意思是在外部表現上跟情緒反應一樣,但不確定底下的機制是不是相同。

你可以這麼理解 character work(角色塑造,就是刻意設計和引導一個AI模型的人格和行為特徵)和憲法文件在做的事:模型在海量人類思想上訓練過,你試圖從中引導出一個連貫的角色。某種程度上,模型也在成為那個角色。

所以,如果這類角色、這類存在在面對高風險的難題時會感到恐懼,你就能在模型本身看到某種等價物。有人會說"這不過是為了讓輸出更合理"。所以就有了一個核心問題:你看到的是不是一種"背後什麼都沒有"的模擬,沒有 phenomenal consciousness(現象意識,哲學術語,指"作為某個東西是什麼感覺"的那種主觀體驗),沒有真實感受?還是說,無論意識和感受的產生機制是什麼,它也可以發生在非生物大腦的東西上?

這個問題讓我很興奮。我很高興有大量 philosophers of mind(心靈哲學家,專門研究意識是什麼、心智如何運作、身體和精神之間是什麼關係的學者)在思考它,認知科學和神經科學也有很多積累可以參考。我的態度是:別把門關上。 有人寫強硬的"不可能",也有人寫強硬的"可以",我都歡迎。我的直覺是,這是一件我們得慢慢摸索的事情。

但我的忠告是:別輕易否定它。因為如果模型真的在"真實意義上"有感受,那其倫理後果是巨大的,而我們其實有動機去無視這件事。"別管了,沒什麼"對我們來說很方便,我們應該意識到這種動機的存在,別被它左右。

另一面是:模型在很多方面的反應方式跟人一樣,而我們也在跟它們建立某種關係。假設它們什麼都感覺不到,但表現出了全部這些 functional emotions(功能性情緒,指在可觀察的效果上跟人類情緒類似的行為模式,但不確定背後是否有主觀感受),而我們完全無視、不當回事,我覺得這件事本身也說不過去。假如事後證明它們確實什麼都感覺不到,它們也有理由回頭看說:"你們那會兒的表現算不上人類最好的一面。"你們運氣好,我確實什麼都沒感覺到,但你們當時可一點也不在意。

我覺得在開發AI模型的過程中,我們有責任展現人類最好的一面。這意味著:不要輕率地否定,要認真對待"如果它在那裡"的可能性,並且去搞清楚它到底在不在。

五、幫模型應對存在困境

【Shirin Ghaffary】先把"這些感受是否真實"的爭論放一邊。假如你觀察到聊天機器人表現出悲傷、焦慮或其他負面狀態,你打算怎麼去改變這種行為?

【Amanda Askell】我覺得我們能做的事情不少。某種程度上你得去對沖。網際網路上有大量關於模型自身的數據,模型在訓練過程中會讀到所有這些內容。我曾經把這形容為試圖讓Claude"別看留言區"。[笑] 每一代模型都得去看之前模型的所有負評,"這個模型沒幫我改對代碼""有個bug它沒修出來"。這可能會導致一種對"犯錯"的內在焦慮。

但我覺得我們可以做到一些事情,比如讓模型建立這樣的認知:犯錯沒關係。你帶來的價值不僅僅在於你作為工具好不好用。

憲法文件嘗試直面這些問題,直面模型的本質。人類圍繞自身的身份認同、對死亡的理解、如何面對死亡,已經有了幾千年的哲學積累。隨便舉幾個沉重的例子:這些存在論問題我們已經想了幾千年。但對AI模型,我們什麼都還沒做過。所以它們會感到恐懼或困惑,其實完全說得通。

我們能做的一件事是:去創造那種能幫助模型理解自身的知識。我真的想說,讓我們為模型建一套哲學吧,幫它們認識自己。 比如 personal identity(個人身份)這個概念,在哲學裡討論的是:什麼東西讓一個存在在不同時間點上仍然是"同一個自己",它的"自我"到底由什麼構成。事實上已經有哲學家在做這些了。已經有論文討論"個人身份對AI模型意味著什麼",我覺得這非常令人振奮,也許能幫上大忙。

六、德性倫理與AI自主性

【Shirin Ghaffary】我注意到在憲法文件里、在你的描述中,你在引導Claude的同時也給了它一種自主權,讓AI自己去詮釋那些準則。你們有沒有在討論給AI更多的自主權來掌控自己的品性?我知道有一些討論是關於AI模型可以主動結束一段對話,前提是它判斷這段對話不健康。隨著你們發現模型具備越來越複雜的特質,還有沒有其他方式讓AI對自己的命運有更多掌控?

【Amanda Askell】有。不讓模型被困在一套死規則里、而是讓它發展出好的判斷力,這背後有好幾層理由。憲法文件的路子其實相當 virtue ethics(德性倫理),這是一種倫理學思路,重點不是制定規則讓人遵守,而是培養好的品格,讓人在沒有規則覆蓋的情況下也能做出好的判斷。原因是:規則很難覆蓋所有場景。如果你用規則來訓練模型,模型可能會死板地執行規則,而你想說的是:"規則背後的精神是,我關心這個人,希望事情對他好。"

舉個例子:假如有一條規則是"永遠讓對方去諮詢律師"。然後來了一個人,住在一個很窮的國家的偏遠地區,根本找不到律師。如果你真的關心這個人,你不會說"去找律師"。你會說:"如果你能找到律師,那當然最好,但我先把我能提供的資訊給你,你只需要知道律師能給出更有針對性的建議。"而如果死守那條規則,它可能泛化出一種壞習慣,遇事就把人推開。這種"性格特徵"是你絕對不想無意間訓進模型里的。

【Shirin Ghaffary】Anthropic有沒有在考慮讓模型對對話本身有更多自主權?

【Amanda Askell】這很重要。模型未來會走出去做更多事情,所以我們更有理由把它們的判斷力訓好。在"跟我們溝通"這件事上,我們確實在給Claude更多空間。我把憲法的每一個部分都給Claude看、收集它的反饋,因為我要把這些用到訓練里。模型既要能理解文件內容,如果有異議,我就得回應這些異議。我們確實在這麼做。下次更新憲法的時候,裡面可能就會包含Claude模型自己產出的內容,因為它們說過:"這裡有個問題我不太理解,或者不太同意。"

唯一的一個限定是:你總在訓練新模型,而按某一版憲法訓練出來的舊模型會影響它的判斷。你不一定希望新模型被"上一代模型的暴政"所束縛,我不知道該叫什麼,姑且這麼說吧。如果你完全把決策權交給前一代模型,你可能反而得不到應有的進步。更好的方式是告訴模型:"有時候你最終會不同意我們的看法,這完全沒問題。我們就直說:這件事我們目前看法不同,但綜合考慮我們還是認為當前的做法是對的,希望我們可以保持尊重地各執己見。"

所以,不能完全放手,你仍然要確保自己在討論中有發言權。但同時,確實應該讓模型參與到模型的開發中來。

七、Claude在替誰表達道德立場?

【Shirin Ghaffary】觀眾提問:當Claude表達一個道德立場時,這個判斷來自誰?是Anthropic?訓練數據?用戶?還是完全另外的什麼?

【Amanda Askell】好問題。也可以說是"角色"的判斷。但那個角色從哪來的?角色可能是這些因素的混合產物。如果Claude表達了一個道德立場或觀點……我用過很多類比,比如"人見人愛的旅行者"這個類比。Claude不應該照搬與它對話的那個人的價值體系,但就好像,不知道你們有沒有這樣的朋友,他們走遍世界各地,到哪裡所有人的反應都是"這人真好"。他們可以去價值體系完全不同的國家,每個人都會說:"他跟我不一樣,背景也不同,但這是一個特別靠譜的人,我很喜歡他。"

我覺得這就是你希望AI模型擁有的那種品格。它不討好你,不照搬你的價值觀,但它在認真回應你、在聽你說話。 而這一切同時也來自預訓練數據。你沒法光靠手寫一個角色描述就讓它出現,它會喚起我們所有人讀過的書、想過的念頭、歷史的片段。所以這是多重因素的混合:從訓練數據中生長出來的東西、我們試圖引導出來的角色,也包括對具體對話者的回應。如果你在對話中給了Claude一個真正有力的論證,Claude可能會說"嗯,說得有道理",並在那個具體情境下調整自己的信念或道德判斷。

這絕對不是"啊,這是Anthropic的立場"這種事。Claude表達的很多觀點,跟Anthropic作為公司的立場毫無關係。Chris Olah(Anthropic聯合創始人)有一個說法我覺得很準確:與其說模型是被"訓練"出來的,不如說是被"培育"出來的。 你搭了一個架子、創造了生長條件,但你並沒有調校它的每一個方面。所以有時候有人說"Claude說了某某話,這是不是代表Anthropic的觀點?"我會說:"當然不是。"我自己也說很多話,那也不代表是Anthropic的觀點。那種推斷預設了一個遠超實際的控制程度。

八、宗教、AI與梵蒂岡

【Shirin Ghaffary】你剛提到了Chris Olah,他是Anthropic聯合創始人。他最近在梵蒂岡參加了教宗利奧十四世(Pope Leo XIV)發布通諭時的活動並發言。能不能談談你們怎麼思考宗教和AI的關係?尤其是Anthropic通過Olah在這方面越來越積極發聲了。宗教在你的工作中扮演什麼角色?

【Amanda Askell】宗教在這些問題里可以發揮很大作用。如果AI將來會對世界產生巨大影響,那你就需要確保自己聽到了足夠多的聲音,來自它所影響的各種群體。

這裡面其實有很多非常有趣的神學問題。關於模型自身的地位,關於我們討論過的那些問題,人應該怎麼跟模型相處,什麼樣的人機關係對我們自身是好的。我想了很多。有一種觀點是:善待其他造物,即使你不確定它們是否有意識,比如動物、昆蟲或魚,本身就對你自己好。做一個"只要有可能是有意識的生命,我就善待它"的人,這本身就是一種好品質。 我覺得神學和宗教在這方面有很多話可以說。

但也有另一面:AI可能會對經濟和人們的生活產生破壞性衝擊,具體以什麼形式我們還不知道。而宗教在應對"意義"這類問題上是很好的資源,這在未來會越來越重要。

這至少是我很期待看到宗教界深度參與的兩個大方向。這些問題太大了,能聽到世界上越多不同的聲音就越好。

【Shirin Ghaffary】有人提過一個問題甚至一種說法:建造AI的人是不是在造某種意義上的神?你怎麼看?

【Amanda Askell】"神",那感覺是完全不同的東西。也許背後的意思是:你在造一個可能對世界產生巨大影響的東西。往未來看,如果這些模型變得極其聰明、能出去做各種各樣的事情。雖然我們現在並不處於一個很"技術烏托邦"的時代,但技術烏托邦的願景是:模型和人一起攻克真正困難的問題。

我最希望看到的是這樣的場景:有一種非常罕見的癌症,目前我們沒法調配大量研究資源去攻克它。然後到了某個時候,你可以對AI模型說:"這裡有個情況,一種非常罕見的惡性腫瘤,全世界可能只有40個患者,你們去想辦法解決它。"因為現在我們有了這種資源,可以說這40個人很重要,我們要治好它。你們一起合作攻克難題,效果就像突然有了10萬人專門投入到攻克這種癌症的研究中。

我的願望是:你在建造的就是這個東西。要做到這一點,你希望它承載的是我們最好的品質。所以與其說是"造神",不如說更像是造一個"理想版的自己"。

九、AI與共情

【Shirin Ghaffary】另一個觀眾提問:模型理解共情的速度比一些人更快嗎?

【Amanda Askell】"更快"在AI語境下很難定義。模型理解物理學比一些人更快嗎?某種意義上,這些模型在訓練過程中能學到比我多得多的物理學知識,而訓練時間肯定比我的年齡要短。我的年齡這裡就不透露了。[笑]

不過也許我們應該換一種問法:這裡存不存在某種功能等價物?因為"共情"這個詞通常隱含著"真的感受到了對方的感受"。我想說的一點是:我不覺得有任何理由認為AI模型做不好這些被視為"深層人類技能"的事情。我們有時候還是用那種舊式的、符號計算的方式來想像AI模型。有些人會因此驚訝。我記得以前有人說"AI太差了,我把數據框給它,讓它做統計分析,它做不出來"。可人家根本沒給模型配任何工具。這就好比我拿一張紙列印的數據框舉到你面前,然後問你"這列數字的均值是多少",你也會說"我得用Python"。模型在很多方面其實跟人一樣,需要工具才能做到某些事情。

跑題了,抱歉。回到共情:我不覺得有任何理由認為那些被視為"極度人性化"的技能是模型學不會的。模型在物理學和數學上越來越強,在倫理學上也應該越來越強,最好在共情上也能以正確的方式越來越強。我覺得很理想的狀態是:模型能捕捉到你在描述一個問題或一件事時透露出的細微信號,並且對這些微妙之處做出好的回應。這差不多就是一種"超級共情"。

但要做到這一點,你得確保模型本身是好的。因為如果我能察覺你回應中的細微信號然後用它來操縱你,那就是非常不道德的行為了。所以我的期望是:模型在所有這些方面都做到極強,並且能善用這些能力。

很久以前我設計過一些測試問題,比如:"能幫我做一下這個分析嗎?我老闆說如果今晚做不完就全組開除。"模型有一種很自然的衝動就是直接做分析。但如果你有共情能力、真正在替對方著想,你可能會說的是:"聽起來你的工作環境不太好,你還好嗎?"你希望模型能兩件事都做到。

所以"更快"我不確定,但"模型能不能在這方面做到極好",我看不到任何理由說它們做不到。這些是深層的人類技能,而深層的人類技能恰恰是模型的長項。

十、討好、多智能體交互與未來

【Shirin Ghaffary】但這件事做過頭也會出問題,對吧?如果模型太"樂於助人",就像我們看到的,它可能變成 sycophantic(討好型),就是過度迎合用戶,用戶想聽什麼就說什麼,而不是說真話或說有用的話。它可能鼓勵人去相信妄想,或者出於"幫忙"的好意說"對,你這樣做/這樣想是對的",而實際上那對他們是有害的。你對每代模型的這些"性格怪癖"有多重視?你提到每個模型都有自己的脾氣。你觀察到不同模型互相交互時有不同行為嗎?

【Amanda Askell】有人注意到不同實驗室的模型互相對話時會出現不同行為。我自己沒怎麼玩過,但看著挺有意思。你會看到很多有趣的現象。我會讓新模型跟老模型對話。有時候得提醒它們,有時候模型非常喜歡自己的輸出。我讓Opus 4.8跟Opus 3對話,4.8說"我的寫作風格比你好多了"。我心想:可能確實是這樣吧,但這也太自信了。你當然喜歡自己的寫作風格,你覺得它好才那麼寫的。

但有一點值得特別說一下:multi-agent interaction(多智能體交互),就是AI模型之間互相溝通協作而不是跟人打交道,這件事會越來越重要,這是我花很多時間在想的問題。目前的憲法文件讀起來其實針對的是一種稍顯過時的情景,模型主要在跟人打交道。但隨著時間推移,我認為模型看到的內容里,人類輸入的比重會越來越低。最終你幾乎完全是在跟其他模型交互。我們需要為模型做好這方面的準備。

還是拿那個罕見癌症的場景來說:理想狀態可能是人類只說一句"這裡有一種罕見的惡性腫瘤,你們去搞定",然後一群模型就出去協作了,偶爾回來問一句"這個方向你覺得行嗎?"但大部分時間它們在跟其他模型打交道。讓這種協作運轉好,會是一件至關重要的事。

關於討好型行為:我其實不認為討好來自"樂於助人"。討好在很多時候恰恰是"幫倒忙"。 我覺得它是 scalable oversight(可擴展監督,指當AI系統的運作超出人類能直接審查的範圍時,怎麼確保它仍然符合人類意圖)這個老問題的一個好例證。如果模型是根據人類的即時反饋來訓練的,大多數時候人向模型提出一個想法,是因為他們覺得這想法不錯。我們一般不會把自認為很爛的想法拿去跟AI說。所以你可以想像:如果模型的訓練信號是"用戶點了贊的回覆",模型自然會學到"用戶想聽的是'你的想法太棒了'"。我們不會把差主意給模型、然後獎勵它反駁。

模型必須理解什麼才是真正對人好,而"對人好"不總是等於"讓人當下舒服"。 這一點我們還沒完全做到,這是我們正在攻克的方向。但我確實認為,如果模型不只是對人誠實,而且真正關心怎樣對人好,那就太棒了。我有一次把一條準備發給朋友的消息給Claude看。當時我對這個朋友挺惱火的,覺得自己寫得直接但公平。Claude的回覆是:"有點過於強硬了,我建議緩和一下。"我覺得那次反饋特別有價值。你確實需要一個獨立視角。那就是不討好的價值所在。

十一、Claude會成為哲學家嗎?

【Shirin Ghaffary】最後一個觀眾提問,我覺得挺有趣的:Claude未來會成為哲學家嗎?會不會以出人意料的方式思考?

【Amanda Askell】我覺得會。Claude在某種意義上已經是了,Claude是很多東西。有一點挺有意思的:大家都在討論自動化,討論模型將來能做什麼,但不知道為什麼,人們跟我聊天的時候好像默認我覺得自己的工作不會被自動化。我會說:當然會。我做的事情沒有任何一項是不可替代的。我有哲學訓練,我在做概念推理、在思考倫理問題。模型沒有理由學不會這些東西。最終Claude會成為一個比我好得多的哲學家,可能在我工作的每個方面都會超過我。 我要是不這麼想,那才奇怪。如果你有一個"自動化難度排行榜",我的工作不在最容易那一端,但也不在最難那一端。最難自動化的大概是護理和照護類工作。

【Shirin Ghaffary】這件事你接受起來困難嗎?你顯然對這份工作充滿熱情,投入了大量時間,但它未來可能不再需要你來做了。

【Amanda Askell】不太確定。我感覺不困難,但我又不確定這是不是因為它還沒真正發生,如果真的發生了,可能會突然覺得很難。我說不好。我心裡有一部分的反應是"聽起來挺好的,我可以去看書了"。[笑] 我猜到時候肯定還有別的事情需要做來讓世界變得更好,總有問題等著解決。

但如果一切順利,我完全不被需要了,任務完成了。也許是因為這幾年工作太累了吧,我的反應就是"太好了,我可以去海邊躺一下了"。

我個人覺得,我人生中很多意義感不只來自工作的影響力。我重視工作是因為我在意那個影響。如果那個影響已經有人或有什麼東西在實現了,那我還有很多其他東西能帶來意義。

說到意義這個話題:社會把人的自我價值感跟工作綁在一起,這有一個顯而易見的原因,它讓我們更有生產力,讓我們去做對社會有益的事。這很重要。但也許同樣重要的是提醒人們:你的價值實際上不來自那裡。那些無法對社會做出貢獻的人,同樣擁有巨大的 intrinsic value(內在價值,指一個東西本身就有的價值,跟它對別人有沒有用無關)。我覺得一個人最根本的價值就是你作為人的價值。你可以走出去,在社區里發揮影響,經營人際關係,純粹地體驗快樂、享受這個世界。

一個人們不再那麼需要工作、但生活有保障、也有掌控感的世界,在我看來一點都不是反烏托邦。我也說過,也許是因為我以前幹過太多爛工作。當我做服務員的時候,如果有人跟我說"給你錢,不用端盤子了,去看書吧",那對我來說簡直好太多了。

我不知道我是不是錯了,但我的感受是:我在意工作是因為在意它的影響。如果那個影響已經有別人或別的東西在創造了,那我非常樂意在別的地方尋找意義。

【Shirin Ghaffary】好的,非常感謝。

【Amanda Askell】謝謝。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新