陶哲軒：AI跳得比任何人都高，但數學需要的是攀岩

2026年3月20日，Dwarkesh Podcast發布了對菲爾茲獎得主、UCLA數學教授陶哲軒（Terence Tao）的最新長訪談，時長約90分鐘。主持人Dwarkesh Patel從克卜勒發現行星運動定律的故事切入，與陶哲軒討論了AI對數學和科學研究的實際影響。

贊助商廣告

陶哲軒在2023年6月為微軟AI文集撰文時做過一個預測：到2026年，AI在正確使用的前提下將成為數學研究中可信賴的合著者。三年後他在播客中表示對這個預測相當滿意。但滿意之外有大量限定：AI輔助解決了約50道Erdos問題（匈牙利數學家Paul Erdos留下的1100多個數學猜想），系統性測試的成功率卻只有1-2%；AI讓他的論文變得更豐富，但在最困難的數學核心問題上，他仍然用紙和筆。播客發布前一個月，Scientific American的深度報道顯示AI工具已幫助將約100道Erdos問題轉入"已解決"狀態，其中多數屬於文獻檢索和已有技術的組合應用，少數才是原創證明。這期對話在這波熱潮之後展開，是一次冷靜的階段性復盤。

1. 克卜勒是"高溫LLM"：正確理論為什麼早期表現更差

Dwarkesh用一個大膽的類比開場：克卜勒像一個"高溫LLM"。

這位17世紀的天文學家在拿到第谷·布拉赫（Tycho Brahe，裸眼天文觀測史上最後也最精確的觀測者）的數據之後，花了20年嘗試各種幾何關係。他先是認為行星軌道之間可以嵌入五種柏拉圖立體（正四面體、正六面體等），後來又嘗試把行星與音樂和聲對應起來。這些理論今天看全是錯的，但他就這樣一個接一個地試，直到終於發現了橢圓軌道和行星運動三定律。

陶哲軒接過這個類比，但指向了一個更深的問題：在科學史上，最終被證明正確的理論，在早期階段經常表現得比精心打磨過的錯誤理論更差。

哥白尼的日心說比托勒密的地心說簡潔得多，但精度更低。地心說經過上千年的ad hoc修補，哪裡不對補哪裡，對行星位置的預測已經相當準確。直到克卜勒用橢圓替換了圓，日心說的精度才反超。陶哲軒說，第谷的觀測精度比前人高出10倍。在此之前，克卜勒用圓形軌道去擬合行星數據，偏差大約10%，勉強可以靠"給圓加一些偏心""稍微挪動圓心"之類的修補湊合過去。但第谷的數據精確到偏差只允許1-2%，那些修補手段全部失效了。克卜勒被逼著去試其他形狀，最終發現橢圓才是對的。高精度數據把"差不多對"的理論逼成了"明確錯"，才給了正確答案登場的機會。

贊助商廣告

這對AI做科學意味著什麼？如果用預測準確率來做強化學習的獎勵信號，真正的突破反而會被扣分，因為突破在早期往往"看起來更差"。

Dwarkesh還引用了18世紀天文學家Johannes Bode推廣的一條經驗規律，用等比數列預測行星到太陽的距離。天王星和穀神星的發現都符合這條規律，一度讓人以為找到了自然法則。但海王星的發現徹底推翻了它。陶哲軒說，六個數據點做回歸分析，運氣成分太大。克卜勒對自己的第三定律也遠不如前兩條那麼自信，也許他憑直覺已經意識到了這一點。

2. 達爾文比牛頓晚了兩個世紀，原因不是智力

Dwarkesh接著引用了科普作家Edward Dolnick的《發條宇宙》（The Clockwork Universe，一本關於牛頓時代科學革命的暢銷書）中的一個觀察：牛頓《原理》發表於1687年，達爾文《物種起源》發表於1859年，中間隔了將近兩個世紀。但自然選擇在概念上比萬有引力簡單得多。

達爾文的同時代生物學家Thomas Huxley（因替達爾文在公開辯論中衝鋒陷陣而被稱為"達爾文的鬥犬"）讀完《物種起源》後說：怎麼這麼蠢，竟然沒早點想到。從來沒有人對牛頓的引力理論說過這種話。

陶哲軒認為關鍵區別在於驗證結構。牛頓可以用一組方程預測月球軌道周期和距離，如果數據對上了，驗證循環就閉合了。達爾文的自然選擇依賴累積性和回溯性的證據，沒有人能在你面前設計一個實驗演示進化。古羅馬詩人路克萊修在公元前1世紀的長詩《物性論》中就提出過物種適應環境的樸素想法，但兩千年來無人能推進，缺的就是可操作的驗證手段。

這意味著，AI可能在驗證循環緊湊的領域進展飛快，但在需要累積性證據的領域推進會慢得多。數學恰好屬於前者，這也解釋了為什麼AI在數學競賽和形式化證明上的進步如此顯眼。

陶哲軒還提到一個經常被忽視的維度：科學傳播本身是科學進步的一部分。達爾文用英語白話寫作，不用數學公式，把散落各處的觀察編織成一個有說服力的敘事。牛頓用拉丁語寫作，發明了全新的數學語言才能表述自己的理論，性格也出了名地難相處，經常對競爭者隱瞞最好的洞見。牛頓的工作在他之後幾十年，由其他科學家用更簡單的語言重述後才廣泛傳播。怎樣量化說服力？陶哲軒說這可能永遠是科學中屬於人類的那一面。

贊助商廣告

3. "AI把想法生成的成本打到了接近零"

對話的基調在這裡轉向了當下。

陶哲軒用了一個類比：AI把想法生成的成本打到了接近零，就像網際網路把通訊成本打到了接近零。這件事本身是驚人的，但網際網路帶來了資訊爆炸的同時也帶來了垃圾資訊泛濫。AI做的是同一件事。科學界突然面對成千上萬條未經驗證的理論，人類評審員的頻寬已經被淹沒。

很多期刊已經報告AI投稿洪水般湧入。傳統的同行評審機制是為稀缺的人類創意設計的，信號和噪聲混在一起時就失靈了。對單篇論文，科學家可以花幾年辯論達成共識；每天湧入上千篇時，這套流程就撐不住了。

Dwarkesh追問了一個尖銳的問題：如果未來AI生成了百萬篇論文，其中一篇包含類似香農"比特"概念那樣橫跨多學科的統一性突破，科學界怎樣從海量平庸進展中識別出來？

陶哲軒坦率回答：多數時候靠時間檢驗。深度學習在AI領域邊緣化了幾十年才翻身；transformer也不是唯一可能成功的架構，只是恰好最先到達了足夠的能力門檻。十進制數字系統沒有什麼特殊之處，只是全世界都用它，慣性太大無法切換。脫離時間和語境，沒有辦法給任何一項科學成就打出客觀分數。這種評估可能永遠無法被強化學習捕捉。

他還補充了一個更深層的觀察：科學進步經常來自刪除假設，而不是添加理論。日心說被接受得如此緩慢，核心原因之一是亞里士多德物理學中"物體天然趨向靜止"的假設。如果地球在動，人為什麼不會被甩飛？直到牛頓運動定律取消了這條假設，日心說才在概念上站住腳。達爾文面對的是同一類障礙：物種看起來是固定不變的，因為在一個人的一生中觀察不到進化。

4. 50道題已破，但成功率只有1-2%

陶哲軒自己維護著一個GitHub wiki，追蹤AI在Erdos問題上的每一步貢獻。他在播客中給出的判斷比社交媒體上的敘事冷靜得多。

贊助商廣告

截至播客發布時，AI輔助解決了大約50道Erdos問題，約600道仍然待解。絕大多數的解法模式是：把一項不太知名的已有技術和文獻中的另一個結果組合起來，得到證明。這些題之前沒被解決，主要是因為沒有足夠多的專家去認真嘗試。

曾經有大約一個月的時間，前沿模型可以直接one-shot解決一些Erdos問題。這個窗口已經關閉了。陶哲軒說他知道至少三個獨立團隊嘗試讓前沿模型同時攻擊所有剩餘問題，結果只找到了一些小觀察和已有文獻中的解，沒有新的純AI證明。

現在仍有人在推進，但模式已經變了：一個人讓AI生成證明策略，另一個人用不同的AI工具來批評或改寫，第三個人做數值驗證或文獻調查。有些問題是通過人類和多種AI工具之間的持續對話解決的。

但每次做系統性掃描，任意一道題的AI解題成功率大約是1-2%。成功看起來壯觀，純粹因為可以批量嘗試、只展示贏面。陶哲軒預測接下來的情況是：幾道高聲譽的數學難題可能被AI幸運地"後門突破"，獲得大量關注；但當其他數學家把同樣的工具用在自己最關心的問題上時，又會體驗到那個1-2%。這種信號與噪聲的不對稱會持續製造誤判。

他對頂級數學期刊論文給了一個大致比例：已有方法能解決問題的80%，剩下20%抵抗一切已知技術，需要發明新東西來填補缺口。 AI目前擅長的恰恰是前面那80%：把所有已知技術逐一嘗試，有時候實現得比人類還準確。但那關鍵的20%，在已知方法全部失敗後該怎麼辦，AI還不會。

5. "跳躍機器人"：能跳2米，但不會在半空中停下來

這是整期播客中畫面感最強的一段。

陶哲軒說，想像一個黑暗的山脈，有3英尺的矮牆、6英尺的中牆、15英尺的高牆和懸崖峭壁。你不知道哪面牆有多高，你試圖翻越儘可能多的牆。人類會點蠟燭、畫地圖、慢慢摸索，在岩壁上找手握點，一點一點往上爬。

AI是一台彈跳機器人，能跳2米高，比任何人都高。放出去之後，它會迅速找到並翻越所有低矮的牆。這就是Erdos問題中發生的事。

贊助商廣告

但它做不到的是：跳到一半抓住岩壁上的把手，在那裡停住，把同伴拉上來，然後從半空中繼續攀爬。它要麼一次成功，要麼徹底失敗，沒有中間狀態。下一次模型能力大幅提升時，同樣的掃蕩會再來一輪，再收割一批更高的矮牆，然後再次停滯。

Dwarkesh敏銳地指出，同一個論據既可以看空也可以看多：看空是AI只能達到一定高度；看多是一旦AI達到某個能力水位線，它可以把該水位線以下的所有問題全部填滿。人類做不到這一點。你無法複製出一百萬個陶哲軒、每人給一百萬美元的推理算力、讓他們同時做十萬道題。但AI到達人類水平時，可以。

陶哲軒同意這個判斷。AI擅長廣度，人類擅長深度。當前的科學體系圍繞人類的深度優勢設計，因為人類做不了廣度。但AI帶來了全新的維度，科學界需要重新設計工作方式來利用它——比如先用AI掃蕩一個領域中所有簡單的觀察，繪製出"難度地圖"，然後人類專家聚焦到被標記出來的困難島嶼。

他說，一旦同時擁有廣度和深度，科學將變得面目全非。但廣度這一側太新了，連範式都還沒有建立起來。

6. "論文更豐富了，但沒有更深刻"

Dwarkesh問陶哲軒：你個人的生產力因為AI提高了多少？

陶哲軒的回答比"2倍"精確得多。他的論文現在包含更多代碼、更多圖表、更深入的文獻綜述，因為這些以前要花幾小時的工作現在幾分鐘就能完成。但他過去根本不會在論文裡放那些圖表，所以這不是"同樣的工作快了5倍"，而是"工作的構成變了"。

解決一道數學問題中最困難的核心部分，他仍然用紙和筆。 AI在這個環節幾乎沒有幫上忙。如果讓他以2020年的標準來寫一篇同等水平的論文，不加這些AI帶來的額外功能，老實說省不了多少時間。

他舉了一個很具體的例子：他現在用AI agent自動調整LaTeX中括號的大小匹配，這類格式瑣事以前要手動一個個改。這個細節傳遞出的信號比任何概括都準確。AI在頂尖數學家工作流中的位置，是排版助手和文獻搜尋引擎，不是思想夥伴。

贊助商廣告

陶哲軒在別處提過一個概念叫"artificial cleverness"（人工巧智），在播客中他做了更細的展開。人與人合作解題時，有一種動態演化的過程：一個想法看起來有希望，測試後失敗，但失敗本身提供了資訊，策略因此調整，逐步逼近答案。每一步的失敗都在縮小搜索空間。AI做不到這一點。它可以反覆跳躍和失敗，但不會從失敗中累積出中間進展。

模型解出一道題後，它自身對數學的理解並沒有因此進步。開一個新對話，之前的一切經驗就清零了。

Dwarkesh提出了一個值得細想的區分：軟體工程的目標是讓代碼在世界中產生效果，理解只是手段；數學研究的目標是理解本身，證明反而是衡量理解的手段。如果AI跳過了理解直接給出證明，在軟體領域沒問題，在數學領域就喪失了全部意義。陶哲軒同意，但補充說即使在軟體中，AI生成的boilerplate代碼在後續維護和集成時也會暴露問題。如果你從來沒經歷過寫的過程，後續維護能力會打折。

7. 如果AI證明了黎曼猜想

四色定理至今沒有概念上優雅的證明，本質上是把問題拆成海量子情形逐一電腦驗證。陶哲軒說，某些問題可能天生只能這樣解決。

但黎曼猜想不太像這類問題。數學界普遍認為，解決它需要創造新類型的數學，或者發現兩個此前互不相關的數學領域之間的深層聯繫。當然也存在一種不太可能的場景：黎曼猜想是錯的，某個大規模計算直接找到了臨界線之外的零點。陶哲軒說那將"令人非常失望"。

他對"如果AI給出了一個完全不可理解的證明怎麼辦"這種擔憂並不太焦慮。原因在於Lean，一種形式化證明語言，可以把證明的每一步轉化為電腦可驗證的代碼。如果AI生成了一個巨大的Lean證明，人類可以抽取其中任何一個引理單獨研究。有經驗的數學家可以判斷哪些步驟是常規操作、哪些包含真正新穎的想法。

陶哲軒預測，未來可能會出現專門的數學家職業，負責對AI生成的龐大證明做消融實驗：像工程師從機器上逐個拆零件來判斷哪個才是關鍵部件一樣，逐個去掉證明中的步驟，看它是否還成立；用其他AI做強化學習尋找更優雅的路徑；讓另一組AI給證明的"優雅度"評分。

贊助商廣告

過去寫論文是最耗時的環節，重寫和重構痛苦到不值得反覆做。現在一份證明可以被快速生成上百個變體版本。在Erdos問題網站上，AI生成的3000行Lean證明已經被其他人用AI總結、用人工重寫成更短的版本。一旦有了證明這個"工件"，後處理工具已經足夠豐富。

8. "這更像一個願望，而不是一個計劃"

數學的邏輯公理體系（ZFC集合論加一階邏輯）從歐幾里得開始，直到20世紀初才最終定型。Lean已經把演繹證明完全自動化了。

陶哲軒提出了一個更大的願景：如果存在某種半形式化的語言，可以表達猜想的合理性和策略方向的可信度，AI在"提出猜想"和"評估策略"上就能像在"驗證證明"上一樣被訓練和評測。但他也承認，這更像願望而非計劃。

他用素數的隨機模型來解釋這種"猜想性的概念框架"是什麼。高斯統計了前十萬個素數，發現密度大約與自然對數的倒數成正比。之後數學家逐漸建立了一個模型：雖然素數的生成不涉及隨機過程，但把它們當作特定密度的隨機集合來對待，可以做出精確預測。孿生素數猜想、黎曼猜想的可信度、基於素數的密碼學安全性，都建立在這個非嚴格但極其準確的框架之上。

如果黎曼猜想被證偽，意味著素數中存在一種此前未知的隱藏模式。整個隨機模型要重寫，基於素數的密碼學也會立即面臨威脅，因為有一個未知模式就大概率意味著還有更多。

這種框架是科學家真實的思維方式，但沒有任何形式化語言可以捕捉它。更棘手的是，任何這樣的框架都必須足夠robust，不能被AI輕易hack。陶哲軒特別強調這一點：強化學習在找後門方面的能力已經被反覆證明了。

他提出了一條可能的路徑：創建大量"迷你宇宙"，讓AI在簡單的數學問題上自行發展策略，從這些小實驗室中學習關於策略本身的規律。

9. "演繹性過剩"：現有數據中可能還埋著什麼

Dwarkesh從陶哲軒著名的"宇宙距離階梯"講座中提煉出一個概念：僅憑射入地球的光線和已知的物理定律，天文學家就推算出了恆星距離、宇宙年齡和膨脹速率。如果換一種視角或方法看同樣的數據，我們是否能推導出遠超當前認知的結論？

贊助商廣告

陶哲軒回應說，天文學是最早擁抱"從有限數據中榨取一切"的學科，因為天文數據極其昂貴。天文學家像福爾摩斯一樣從微量線索推演出複雜結論。他提到，不少量化對沖基金在招聘時偏愛天文學PhD，正是因為這種從噪聲中提取信號的訓練。

他舉了一個精巧的例子：有人研究科學家到底有沒有讀過自己引用的論文。方法是追蹤參考文獻中typo被複製的頻率——如果同一個拼寫錯誤從一篇論文傳到另一篇，說明引用者只是複製粘貼了參考文獻列表，根本沒查原文。這類聰明的間接指標，也許能幫助量化"哪些科學進展真正推動了後續工作"。

數學目前還停留在"病例報告"階段，每篇論文精雕細琢一兩個問題。AI工具讓數學有可能進入"臨床試驗"階段，對一千道題做A/B測試，量化不同策略的成功率。大規模做數學這件事才剛起步，但這恰恰是AI將真正顛覆數學的方向。

10. 偶然性、電腦遊戲和年輕數學家

借用政治哲學家Isaiah Berlin用來區分思想家類型的經典比喻，陶哲軒說自己是fox（廣博型），而非hedgehog（深耕型）。他有一種近乎強迫性的完成傾向：如果發現別人能用他不懂的方法解決他想解決的問題，他會有執念去搞清楚對方到底用了什麼trick。這種衝動驅動他不斷跨領域合作。他補充說自己不得不遠離電腦遊戲，因為一旦開始就會想打通所有關卡。

他在高等研究院待過一年。前幾周效率驚人，堆積的論文飛速推進。但幾個月後靈感枯竭，反而更多地刷網際網路。他認為一定程度的干擾為思維引入了必要的隨機性。

疫情期間學術界轉向遠程會議，安排了和以前差不多數量的正式交流，但喪失了走廊偶遇和咖啡間閒聊。他還懷念研究生時代去圖書館找期刊文章的經歷：你查一篇論文，旁邊那篇碰巧也很有趣。現在輸入關鍵詞精準獲取你想要的東西，但再也遇不到那些意外的發現。

贊助商廣告

現代社會越來越擅長優化效率，但過度優化可能恰恰擠掉了催生突破的隨機性。

他的部落格也是這種哲學的產物。年輕時他經常學會一個技巧然後六個月後發現忘了。"我記得自己曾經理解過，但再也無法重建那個論證了。"經歷幾次之後他決定把所有學到的有趣東西寫下來。寫部落格是在他不想做其他工作（比如審稿報告）時做的事，時間飛逝，半小時到幾小時不等。

對年輕數學家，他的建議是擁抱變化。幾百年來被視為理所當然的東西可能不再成立。高中生現在藉助AI工具和Lean就有可能對前沿數學研究做出真正的貢獻，不再需要先讀完博士。非傳統路徑會越來越多，但傳統教育在一段時間內仍然重要。

陶哲軒說，我們正在經歷認知版的哥白尼革命。過去以為人類智能是宇宙中心，現在AI讓我們看到存在完全不同類型的智能，擁有完全不同的強項和弱項。我們對"哪些任務需要智能"的判斷必須全面重排。有些過去只有哲學家才需要操心的問題，現在所有人都要面對。

"It's a scary time, but also very exciting." 令人不安，也充滿可能性。

核心問答

Q1: AI把科學的瓶頸從哪裡轉移到了哪裡？從想法生成轉移到了驗證和評估。AI讓假說生成的成本接近零，就像網際網路讓通訊成本接近零。但豐收不會自動到來——現在的問題是成千上萬的理論無人驗證，同行評審系統的頻寬已經被淹沒。陶哲軒認為，識別真正重要的科學進展主要仍然依賴時間檢驗和人類判斷，可能永遠無法被強化學習捕捉。

Q2: AI在數學研究中的實際能力邊界在哪裡？陶哲軒用"跳躍機器人"比喻：AI能跳2米高，比任何人都高，可以批量翻越所有低矮的牆。但它不會攀岩——不會在半空中停下來抓住把手、累積局部進展、從失敗中調整策略。系統性測試顯示AI對開放數學問題的成功率約1-2%，成功集中在此前無人認真嘗試的簡單問題上。頂刊論文中80%可以靠已有方法解決，AI擅長這個部分；但剩下20%需要發明新技術，AI還做不到。

贊助商廣告

Q3: 人機協作什麼時候會被純AI研究取代？陶哲軒認為人機混合體將在相當長時間內占主導。AI在廣度上碾壓人類，人類在深度上仍有顯著優勢。他自己的體感是：輔助任務快了五倍，論文變得更豐富，但最困難的核心問題仍然靠紙和筆。當前AI缺少幾項關鍵能力：從失敗中累積進展、評估部分成果的價值、做戰略方向判斷、說服其他研究者投入一個方向。這些能力的突破需要超越現有框架的新進展，他預計未來十年內AI能接管數學家目前大部分日常工作，但數學家會轉向更高層次的任務——就像電腦取代了手工計算對數表，但數學作為學科並沒有死亡。