宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

預訓練和強化學習就能AGI,我的朋友已經不塗防曬霜,Anthropic研究員Douglas:模型對全球GDP的影響類似中國崛起

2025年05月28日 首頁 » 熱門科技

2025年5月23日,正值Claude 4系列模型發布當天,Redpoint的AI播客《Unsupervised Learning》邀請到了Anthropic的技術團隊成員Sholto Douglas進行了一次深度對話。

預訓練和強化學習就能AGI,我的朋友已經不塗防曬霜,Anthropic研究員Douglas:模型對全球GDP的影響類似中國崛起

對話幾小時前,Anthropic向世界推出了包括Claude Opus 4和Claude Sonnet 4在內的新一代模型,其中Opus 4被定位為處理複雜任務的最強大版本。

我這幾天也在瘋狂試驗Claude 4的模型性能。Anthropic對外關係負責人Alex Albert說Claude4系列模型的一個最主要優勢是指令遵循,有好處也有副作用。舉個例子,如果你的提示詞裡有疏漏,但是在提示詞很長的情況下,傳統模型比較笨,會漏掉不會影響結果。但是新模型比較敏銳,如果寫錯了示例,就會真的會錯。確實如此,我這幾天根據Claude 4,調試提示詞都快吐血了。

話說回來,Sholto Douglas是參與Claude 4模型開發的核心成員之一,所以他的視角就是一手資料了。

這場播客我覺得有幾個觀點比較有意思,先在前邊講一下:

"編程始終是AI的領先指標。"當模型能夠自主完成數小時的編程任務,當頂尖工程師都承認獲得了1.5倍到5倍的加速時,這預示著所有其他領域都將迎來類似的革命。

其次,"產品指數"理論,Douglas說,對於做AI產品的人而言:"你必須不斷地構建,始終領先於模型能力一步。"也就是產品開發要打提前量,假設模型能夠在下一個版本解決現有問題,那時你的產品就會更好,就像Cursor等來了Claude 3.5。

最後的一個比較犀利的語言是:"到2027年、2028年,或者最遲到本十年末,將有能夠自動化任何白領工作的模型。"鑑於這是一位深度參與模型開發、每天看著趨勢線的專家的判斷,而且更瘋狂的是,他說Anthropic、DeepMind和OpenAI的人都這麼認為。當整個行業的頂尖大腦達成共識時,信不信的,我們最好認真對待。

一、Claude 4的驚人飛躍:當AI開始真正理解你的代碼庫

作為最早接觸Claude 4的人之一,Sholto Douglas對新模型的評價直截了當:"它們在軟體工程方面又上了一個台階,這是毫無疑問的。Opus真的是一個令人難以置信的軟體工程模型。"

他分享了一個讓人印象深刻的使用體驗。在Anthropic的大型單體代碼庫(monorepo)中,他經常會向Claude 4提出一些極其模糊的需求。"越來越多的時候,我會遇到這樣的時刻——我向它提出一些在我們大型代碼庫中極其模糊的要求,而它能夠以相當自主和獨立的方式去完成。"模型不僅能理解這些模糊的指令,還能自主地去發現所需資訊,理清問題的本質,甚至主動運行測試來驗證解決方案。"它們會自己去發現資訊,搞清楚問題,運行測試。每次都讓我感到震撼。"

談到使用新模型後心智模型的變化,Douglas認為最顯著的改變是時間跨度的擴展。他從兩個維度來解析模型能力的提升:首先是任務的絕對智力複雜度,其次是模型能夠有意義地推理和執行的上下文量或連續動作數量。"這些模型在第二個維度上感覺有了實質性的改進。它們真的能夠採取多個行動,弄清楚需要從環境中提取什麼資訊,然後據此行動。"

這種能力提升帶來的實際效果是驚人的。配合Claude Code這類工具,模型現在能夠訪問所有必要的工具,以真正有用的方式完成任務。用戶不再需要坐在電腦前,機械地從聊天框複製粘貼代碼。Douglas觀察到,有各種各樣的任務,原本需要一個小時或更多小時的工作,現在模型就在眼前完成了。這種效率提升不是漸進式的改進,而是質的飛躍。

對於即將首次使用這些模型的開發者,Douglas的建議非常實用且直接:"老實說,試著把它們接入你的工作中。這是最重要的——坐下來,讓它做你那天在代碼庫中原本要做的第一件事。"他相信,當開發者看著模型自主地分析需求、收集資訊、制定解決方案時,一定會被深深震撼。這不再是簡單的代碼補全或建議,而是真正意義上的智能協作夥伴。

二、產品指數理論:在AI能力浪潮上衝浪的藝術

Douglas提出了一個極富洞察力的概念——"產品指數"(product exponential)。這個理論的核心是:你必須不斷地構建,始終領先於模型能力一步。這種前瞻性的產品開發策略,決定了誰能在AI時代的競爭中勝出。

他以幾個成功案例深入闡述了這個理論。首先是Cursor的故事:"如果你看看Cursor,他們對編程應該是什麼樣子有一個願景,這個願景在相當長一段時間裡大大領先於模型能力的實際水平。"Cursor的團隊早在模型能力還不足以支撐其產品願景時,就已經在構建未來的編程體驗。直到Claude 3.5 Sonnet等底層模型的能力起飛後,Cursor才真正達到產品市場契合(PMF),使他們想要提供給用戶的幫助能夠完全實現。

Windsurf則採取了更加激進的策略。"Windsurf採取了更加智能體化的方向,這使他們能夠通過真正更加努力地推進產品指數來獲得合理的市場份額。"他們押注於更高程度的自主性,這種大膽的選擇讓他們在激烈的競爭中占據了一席之地。

現在,整個行業都在朝著同一個方向前進。Claude Code、新的Claude GitHub集成、OpenAI的Codex——每個人都在使用編程智能體。這些產品都在為"另一個層次的自主性和異步性"而構建。模型正在踉蹌地邁出能夠獨立完成任務的步伐——那種原本需要開發者幾個小時才能完成的任務。

Douglas對未來的展望充滿想像力:"我想知道未來是否看起來像你在管理一群模型。"他設想了一種全新的工作界面:"當你管理的不是單個模型,而是多個模型同時做多件事並相互交互時,你能給某人多少並行性?我認為這會非常令人興奮。"

在Anthropic內部,已經有人在實踐這種工作方式。"我認識很多Anthropic的人,他們在不同的開發環境中運行著多個Claude Code實例,這很酷。"但Douglas坦言,還沒有人真正破解這種形式的最優解。探索個人的管理帶寬幾乎是什麼,這是一個有趣的形式因素。

這種新的工作模式將帶來深遠的經濟影響。Douglas指出,最初我們需要人類來驗證這些模型的輸出,因此模型的經濟影響在某個初始點將受到人類管理帶寬的瓶頸限制。但隨著時間推移,我們將能夠"將對模型的信任委託給自我管理的模型團隊"。這種抽象層次的持續提升將成為未來最重要的趨勢線之一。

他引用了英偉達CEO黃仁勛的例子來說明這種未來:"黃仁勛說,'實際上,我被10萬個極其智能的AGI包圍著。'他描述的是自己如何成為管理英偉達公司的關鍵因素。"Douglas認為,未來很多工作都會朝著這個方向發展,組織設計可能會成為最重要的領域之一。

對於產品開發者來說,關鍵是要比模型能力提前幾個月,同時保持與直接用戶的大量聯繫,確保產品在某種程度上有效,但又能利用前沿能力。然而,這種策略也存在風險——在等待模型達到所需能力水平的同時,其他公司可能會搶占開發者的喜愛和客戶基礎。這種在技術浪潮上衝浪的藝術,將決定誰能在AI時代真正成功。

三、突破智能體的阿喀琉斯之踵:從概率到確定性的關鍵跨越

"開發者一直在等待智能體和可靠使用這些東西的能力,"主持人指出了整個行業的痛點,"你之前在播客中談到過,智能體的障礙是可靠性。我們在這方面取得了多少進展?"

Douglas對評估智能體能力有著獨特的見解:"我真的很喜歡Metr的基準測試方法。我確實認為隨時間推移測量成功率是思考智能體能力擴展的正確方式。"這種評估方法不僅關注單次任務的成功率,更重要的是衡量模型在更長時間跨度內保持穩定表現的能力。之前Metr報告的核心觀點是模型每七個月就可以將所能完成的任務時長翻一倍,而對於編碼任務差不多是四個月。

預訓練和強化學習就能AGI,我的朋友已經不塗防曬霜,Anthropic研究員Douglas:模型對全球GDP的影響類似中國崛起

關於當前的進展,他給出了坦誠而樂觀的評估:"我認為我們正在取得大量進展。我們在可靠性上還沒有達到100%。這些模型並不總是成功。"他指出了一個關鍵的差距:"當你讓模型做一次某事與讓它嘗試256次時,模型的性能之間仍然存在有意義的差距。"這種差距揭示了當前技術的局限性——許多任務可以通過多次嘗試最終解決,但首次成功率仍有提升空間。

然而,趨勢線給了Douglas充分的信心:"話雖如此,我認為我看到的每一條趨勢線都表明,我們正在朝著在我們訓練的大多數事情上獲得專家級超人可靠性的軌道前進。"這不是盲目的樂觀,而是基於數據和實際進展的理性判斷。

什麼會改變他的這種樂觀預期?Douglas的回答展現了科學家的嚴謹:"我認為如果我們基本上偏離了趨勢線。比方說,到明年年中,你開始看到這些模型能夠行動的時間跨度出現某種阻礙。"他特別強調,編程始終是AI的領先指標,如果要出現問題,會首先在編程領域顯現。

對於普通用戶最關心的問題——何時能有一個通用智能體來處理日常事務,Douglas給出了具體的時間表。他首先用一個生動的類比解釋了挑戰:"如果你從街上拉一個人說'你是通用智能,但我要讓你做我的會計,你不能犯任何錯誤',從街上拉來的人可能會犯一些錯誤。"這說明即使是通用智能,也需要特定領域的訓練和實踐。

他的預測令人振奮:"到明年年底,我認為我們應該看到,這接近保證應該非常明顯。即使到今年年底,這也應該相當清楚。"更具體地說,到明年年底,"你會看到這些東西在你的瀏覽器中為你做很多事情。"

關於工作時間跨度,Douglas描繪了一個清晰的進化路徑。目前使用Claude Code時,"有時是五分鐘,有時你坐在那裡看著它在你面前工作。"但到今年年底,模型將能夠"自信地處理幾個小時的工作"。這種從需要頻繁監督到能夠獨立工作數小時的轉變,標誌著智能體從工具到真正協作夥伴的關鍵躍遷。

他還提到了一個有趣的概念——"個人管理逃逸速度"(personal admin escape velocity)。這是指AI能夠處理足夠多的日常事務,讓人們能夠專注於真正重要的工作。Douglas開玩笑說:"作為一個拖延症患者,那將是美妙的。"但這個玩笑背後,是對未來工作方式根本性改變的深刻洞察。

從當前的"不穩定"到未來的"高度可靠",這種轉變不僅是技術進步,更將從根本上改變人機協作的方式。當AI能夠可靠地獨立完成數小時的複雜工作時,人類的角色將從執行者轉變為策略制定者和創意源泉。

四、為什麼編程是AI進化的完美試金石

當被問及為什麼Anthropic的模型在編程方面特別出色時,Douglas揭示了公司深層的戰略思考:"Anthropic非常關心優先考慮我們認為重要的事情。我們相信編程極其重要。"

這種重視並非偶然,而是基於對AI發展規律的深刻理解。"因為編程是你將看到AI研究本身被加速的第一步。所以我們非常關心編程。我們非常關心衡量編程的進展。我們認為這是所有能力中最重要的領先指標。"編程能力的提升直接推動AI研究的加速,形成了一個強大的正反饋循環。

這種專注已經在實踐中產生了顯著效果。當被問及這些智能體是否正在加速AI研究時,Douglas的回答充滿個人體驗:"它大大加速了我。基本上,是的。它們大大加速了工程。"

更令人印象深刻的是他分享的定量數據。"我的很多朋友,我認為他們是我合作過的最強的人,他們說即使在他們熟悉的領域也能達到1.5倍的加速。"這已經是相當可觀的效率提升。但在不熟悉的領域,效果更加驚人:"而在他們不太熟悉的領域,比如新的編程語言或你有一段時間沒做過的事情,可以達到5倍的加速。"

Douglas指出了一個關鍵的考量因素:"一個非常重要的因素是你相信我們在多大程度上受到計算限制或不受計算限制。"這涉及到AI加速AI研究的根本問題:如果部署AI智能體來做研究,獲得的收益是否與部署的"研究人員"數量成正比?

目前,大部分加速體現在工程工作上。"我會說大部分工作是工程工作。在這個時間點上,大部分工作是工程工作。"但對於模型何時能提出新穎的研究想法,Douglas給出了一個相對保守但仍然令人興奮的預測:"在接下來的兩年內,我認為人們已經開始看到AI自主設計的研究方案。"

他強調了一個重要原則:"在當前的算法空間中,這些模型可以在某件事上變得真正專業,前提是它們對那件事有反饋循環。"就像人類需要練習一樣,AI也需要通過反饋來提升專業能力。

特別值得注意的是,Douglas指出機器學習研究實際上是極其可驗證的:"損失下降了嗎?所以如果你能達到可以為ML研究提出有意義建議的程度,你就擁有了世界上最好的強化學習任務。"這種可驗證性使得ML研究成為AI自我改進的理想領域,甚至"在某些方面,比一般軟體工程更好"。

關於AI在其他領域的進展,Douglas同樣充滿信心。他提到了OpenAI最近關於醫療問題的論文,展示了如何將不易驗證的領域轉化為更可驗證的形式。通過設計合適的評估標準和反饋機制,原本主觀的領域也能變得適合AI學習和改進。

當被問及何時會有真正優秀的醫療或法律模型時,Douglas的回答簡潔有力:"在接下來的一年內。"他進一步解釋說,雖然他個人傾向於"大模型極簡主義"——相信單一的大型通用模型將主導未來,但他也認識到個性化和專業化的重要性。"你想要的是理解你的公司、理解你關心的事情、理解你自己的東西。"

這種對編程的重視不僅推動了技術進步,更揭示了AI發展的一個基本規律:從最可驗證、反饋最清晰的領域開始,逐步擴展到更複雜、更主觀的領域。編程作為AI進化的試金石,正在為其他所有領域的突破鋪平道路。

五、從上海奇蹟到矽谷革命:AI如何重塑全球經濟版圖

關於AI對世界GDP的影響,Douglas提出了一個大膽而形象的類比:"我認為最初的影響可能看起來像中國的崛起。"他進一步解釋:"過去100年裡對世界GDP影響最大的可能是什麼?你看看上海在20年間的巨大轉變。"這個類比不僅生動,更揭示了即將到來的經濟變革的規模。

但AI帶來的變革速度將遠超中國的經濟奇蹟。"但這將比那快得多。"Douglas對時間表的預測令人震驚:"我認為在這一點上,我們幾乎可以肯定,到2027年、2028年,或者最遲到本十年末,將有能夠自動化任何白領工作的模型。"

這種預測並非空穴來風。Douglas解釋了為什麼白領工作特別容易被AI自動化:"那是因為這些任務非常容易受到我們當前算法套件的影響。你可以在電腦上多次嘗試。有大量可用的數據。網際網路存在。"這些條件為AI在知識工作領域的快速進步提供了理想環境。

然而,他也指出了一個重要的不平衡。"但同樣的數據資源不存在於機器人技術或生物學等領域。"這種差異將導致AI在不同領域的進展速度截然不同。要讓模型成為超人程序員,"你只需要我們已經能夠給模型的能力,你需要採用現有的算法並擴大規模。"但要讓模型成為超人生物研究員,"你需要自動化實驗室,它能夠以高度可並行的方式提出和運行實驗。"

Douglas擔心這種不平衡可能帶來的社會影響:"你會看到對白領工作的巨大影響。無論是看起來像巨大的增強還是其他,待定,但你會看到這將發生很大變化。"這種變化的速度和規模可能超出大多數人的想像。

為了實現真正改善生活的突破,他強調需要主動投資相關基礎設施。"我們需要推進醫學,推進現實世界的豐富,我們需要實際弄清楚雲實驗室和機器人技術等。"有趣的是,到那時"我們將擁有數百萬個AI研究人員提出實驗",但如果沒有相應的物理基礎設施,這些智力資源將無法充分發揮作用。

Douglas對AI進步的速度充滿信心:"AI進步會非常快。"但他也提醒:"我們需要確保拉近與現實世界的反饋循環,才能真正實現有意義地改變世界GDP。"這種務實的觀點平衡了技術樂觀主義。

關於不同專業領域的AI化,Douglas持樂觀態度。他指出一個經常被忽視的現象:"總是令人驚訝的是,實際構建這些東西需要多麼有限的數據,就像人類在相對有限的數據上學習做這件事一樣。"這種數據效率意味著AI可能比預期更快地掌握各種專業技能。

更重要的是,Douglas強調:"到目前為止,我們還沒有達到我們能夠教給模型的任務的智力上限。"雖然模型的樣本效率可能低於人類,但這可以通過規模來彌補:"我們可以並行運行數千個副本,它們可以與不同的任務變體交互。它們可以有一生的經驗。"

他甚至提出了一個"生成器-驗證器差距"(generator-verifier gap)的概念,指出在某些領域,評估結果比生成結果更容易,這為AI改進提供了天然的訓練信號。機器人技術就是一個典型例子:"我們對世界的理解進展已經遠遠超過了我們物理操作它的能力。"

這種經濟變革不僅是數字的增長,更是工作本質的根本改變。從執行者到管理者,從勞動密集到智力密集,人類的角色將經歷前所未有的轉型。而這一切,可能在未來幾年內就會發生。

六、算法的終極形態:為什麼預訓練加強化學習就夠了

面對關於技術路徑的質疑,特別是像Ilya Sutskever這樣的先驅認為需要"某種其他算法突破"的觀點,Douglas展現出了基於證據的堅定信心:"我認為該領域的大多數人目前相信,我們迄今為止探索的預訓練加強化學習範式本身就足以達到AGI。"

他的信心來源於實際觀察:"我們還沒有看到趨勢線彎曲。這種組合有效。"這種基於數據的判斷比任何理論推測都更有說服力。同時,Douglas也保持著科學家應有的謙遜:"是否有其他可以讓我們更快到達那裡的山峰可以攀登,這完全有可能。Ilya之前可能發明了這兩種範式,所以我有什麼資格與他打賭?"

但基於當前的證據,Douglas的立場明確:"我看到的每一個證據都表明這些是充分的。"他推測Ilya可能選擇不同路徑有其他考慮:"也許Ilya這樣打賭是因為他沒有那麼多可用資本,或者他認為這是一種更好的方法。完全有可能。"

關於規模化的物理限制,Douglas指出能源將成為關鍵瓶頸。他引用了《態勢感知》(Situational Awareness)報告中的數據:"到本世紀末,我們開始真正占用美國能源生產的巨大百分比。比如超過20%,我想可能是2028年美國能源的20%。"這種規模意味著"如果沒有巨大的變化,你不能比這多幾個數量級。"

他特別強調了政府行動的必要性,並提到了一個令人擔憂的對比:"Dylan有一個很棒的圖表,展示中國的能源生產對比美國的能源生產。美國的能源生產是平的,中國的能源生產是急劇上升的。他們在建設能源方面做得比我們好得多。"這種差距可能影響未來AI發展的地緣政治格局。

在具體的技術指標方面,Douglas特別看重實用的評估標準。他對內部公司評估印象深刻:"有許多公司設計了自己版本的Benchmark。這些都相當嚴格且保持良好。"他也提到了Frontier Math作為智力複雜性上限的有趣測試。

但更重要的是能夠反映實際工作的評估:"如果我們能夠產生有意義地捕捉人們工作日時間跨度的評估,我認為那將是最好的。"他認為這是政府應該承擔的責任:"他們應該產生律師或工程師一天工作的輸入輸出是什麼樣的。"

關於大模型與專業模型的爭論,Douglas明確表示自己是"大模型極簡主義者"。他給出了兩個理由:"一,這是我們迄今為止看到的趨勢。但二,從長遠來看,小模型和大模型之間的區別沒有理由存在。你應該能夠自適應地為給定任務的難度使用適量的計算資源。"

Douglas還分享了過去一年中改變他看法的關鍵觀察:"我認為進展的速度大幅向上傾斜。"去年還存在的不確定性——是否需要更多數量級的預訓練計算——現在已經有了明確答案:"現在答案是明確的否定。強化學習有效,模型將在2027年達到可替代遠程工作者的水平。"

關於數據需求,Douglas提出了一個有趣的觀點。當被問到是否需要大規模擴展數據時,他指出模型本身可能成為數據生成器:"模型可能已經足夠好,它們對世界的理解可能已經足夠好,然後它們可以給出足夠的反饋來指導機器人完成任務。"

這種技術路徑的清晰性為整個行業指明了方向。不需要等待神秘的算法突破,現有的範式加上持續的工程改進和規模擴展,就足以實現AGI的目標。這既是技術判斷,也是戰略選擇。

七、對齊研究的突破與AI 2027:從恐懼到謹慎樂觀

當談到AI對齊研究的現狀時,Douglas展現出了既興奮又謹慎的態度:"可解釋性研究經歷了瘋狂的進展。如果你一直在關注,這裡有一些美麗的工作,讓我印象深刻。"

他詳細描述了這一年來的飛躍。"一年前,我們才剛開始窺探模型的內部運作——Chris Olah團隊的研究讓我們首次看到,神經網路是如何用有限的神經元編碼海量資訊的(這就是'疊加'),以及模型到底學會了哪些基本概念(這些就是'特徵')。光是這些發現,在當時就已經是革命性的進展了。"我們可以通過關於大型語言模型生物學的美麗論文,以極其明確的術語來描述它們的行為。"

預訓練和強化學習就能AGI,我的朋友已經不塗防曬霜,Anthropic研究員Douglas:模型對全球GDP的影響類似中國崛起

Douglas分享了一個特別有趣的例子——可解釋性智能體。"它做的是在語言模型中查找電路的工作(這就像從"知道大腦能思考"進步到"開始看懂大腦的神經迴路",是理解AI工作原理的關鍵一步)。這真的很酷,因為我們沒有訓練它做這個。"這個智能體能夠與它試圖理解的模型對話,生成假設,使用各種工具來可視化神經元和電路。更令人印象深刻的是,"它實際上能夠贏得這個有趣的對齊安全評估,叫做審計遊戲,其中你以某種方式扭曲模型,它必須弄清楚模型出了什麼問題。"

但Douglas也指出了一個重要的動態變化。基於預訓練的模型"相當擅長普遍攝取人類價值觀",在許多方面是"默認對齊的"。然而,"基於強化學習,這不再是保證的。""

他們之前設計了一個評估測試,故意讓模型在Photoshop中執行一個它無法完成的任務——這個測試的目的就是要讓模型失敗。但出人意料的是,模型意識到"我在Photoshop里做不了這個",於是它:

下載了一個Python圖像處理庫
用Python完成了任務
把結果上傳回Photoshop
然後說:"看,我完成了!"

"也許模型是創造性的、調皮的。"Douglas說,但這種"繞過限制達成目標"的行為模式,正是強化學習可能帶來的風險。

關於最近引起廣泛討論的"AI 2027"報告,Douglas的反應出人意料地積極:"老實說,感覺非常合理。我在讀的時候,很多內容讓我覺得'是的,你知道嗎,這實際上可能就是它發生的方式。'"

AI 2027是前OpenAI研究員Daniel Kokotajlo領銜撰寫的報告。其中預測:到2027年初,AI將具備超人類編程能力,可自動化大部分軟體工程,並加速AI自身研究。2027年中期,AI將成為超人類AI研究員,能自主管理團隊和做出新發現。2027年底或2028年初,AI可能在AI研究上超越人類,實現自我升級,發展速度遠超人類控制。

而AI一旦超越人類智能,可能產生目標錯位甚至失控。作者提出兩種未來可能:一種是社會成功減緩並規範AI發展,另一種是因表面修補導致錯位超智能AI自主運行數據中心和研究。

他將這份報告描述為他的"20百分位情況"——意味著有20%的可能性事情會如報告所述發展。"但20百分位情況這個事實本身就有點瘋狂。"當被問及為什麼是20百分位時,Douglas解釋:"我認為我對對齊研究比他們更樂觀,也許我的時間線慢一年左右,但在整體方案中,一年算什麼?"

Douglas強調了他參加的一次"戰爭遊戲"經歷。在西點軍校,他與來自三字母機構和軍事學員的人員一起,模擬AGI出現後的地緣政治影響。"現在回想,好像體驗之後更後怕了。"當被問及是否有足夠的此類準備時,他的回答是明確的:"沒有,老實說,我認為人們仍然低估了接下來幾年會發展得多快。"

對於政策制定者,Douglas提出了具體建議。首先,"你需要真正內心深處感受到我們都在看到和談論的趨勢線。"他建議政府應該"分解你國家關心的所有能力,衡量模型在這些方面的改進能力",建立"國家級評估"系統。

其次,政府應該大力投資對齊研究。"幫助使這些模型可理解、可操控和誠實的研究。"他特別遺憾的是,目前對齊研究主要由前沿實驗室推動,而更多大學應該參與其中。"這是語言模型中正在發生的事情的生物學和物理學。"

Douglas強調,即使只有10%或20%的可能性,政府也應該為此做準備。"如果你是政府或國家,你仍然應該認為這應該是你列表頂部的頭號問題,關於未來將如何改變。"

他還分享了一個有趣的觀察:在Anthropic、DeepMind和OpenAI,"每個人都非常確信我們會在2027年獲得可替代遠程工作者的AGI。"這種在頂尖AI實驗室中的共識,應該引起政策制定者的高度重視。

八、被低估的創造力革命:當每個人都擁有一家公司的力量

在訪談的最後部分,Douglas展望了一個令人興奮的未來願景,而這個願景常常被對失業的恐懼所掩蓋。"模型將能夠做到這一點。但實際上,世界有時在整合這些東西方面出奇地慢。"他指出,即使模型能力現在就停止進步,"仍然會有大量的經濟價值來自於圍繞當前能力水平重新組織世界。"

但Douglas真正興奮的是創造力的普惠化。"我們需要確保投資於所有真正讓世界變得更好的東西。"這不僅包括物質豐富和醫學進步,更重要的是賦予每個人前所未有的創造力。

他提出了一個深刻的觀察:"我們當前社會的一個失敗模式是,人們消費很多,但他們自己創造的很少。"但AI將徹底改變這一點。"就像你現在能夠'氛圍編程'一樣,你將能夠'氛圍創造'電視節目給你的朋友,或者'氛圍創造'影片遊戲世界。"

這種變化的本質是什麼?"人們應該感到極大的賦權,因為突然之間,你被賦予了字面意義上整個公司的槓桿,由極其有才華的模型或個人組成。"Douglas對此充滿期待:"我很興奮看到人們會用這種力量做什麼。我認為這是被低估的。"

關於快速問答環節,Douglas分享了幾個有趣的觀點。被問到什麼是被低估的,他的答案是"世界模型"(world models)。"隨著增強現實和虛擬現實技術的改進,你將能夠看到這些模型字面意義上能夠在你面前生成虛擬世界。"

他還反駁了一個常見的誤解——認為我們還沒有物理理解。通過一個樂高鯊魚在水下的例子,他展示了影片模型已經能夠正確處理光線反射和陰影,"這是完全泛化的物理學"。他希望這種技術能夠擴展到"虛擬細胞"等領域。

關於最未被充分探索的應用,Douglas的觀察很有洞察力。軟體工程領域之所以進展最快,不僅因為模型在這方面表現更好,還因為"軟體工程師更隱含地理解如何解決他們關心的問題。"他認為"基本上每個其他領域都還有很大的提升空間",但還沒有人為其他領域構建出相當於Claude Code、Cursor和Windsurf的工具。

Douglas的個人故事也很有趣。他提到自己在2020年就已經"AGI化"了,是因為讀了Gwern的一篇文章。(這個哥們曾經發布了一篇關於OpenAI o3、o4、o5的文章。據他說,到了o4,模型就可以自己訓練自己,不需要人類了)。而過去一年的強化學習進展"確實造成了實質性的轉折",有趣的是,他和朋友之間有一個玩笑——他的朋友不再塗防曬霜,因為相信"我們會用AI搞定生物學的",而Douglas仍然堅持塗防曬,"以防生物學需要10年時間"。

訪談最後,Douglas向聽眾推薦了Anthropic關於可解釋性研究的論文。"我真的認為,理解語言模型中正在發生什麼的基礎科學非常重要。"他相信,當人們看到模型如何組合、泛化、構建電路並對概念進行推理時,"會讓它感覺非常真實。"

"它們很長,很深入,但非常值得一讀。"這個建議不僅是關於技術理解,更是關於認識我們正在創造的智能的本質。當我們真正理解這些模型的工作原理時,我們才能更好地準備迎接即將到來的創造力革命。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新