AI 大神 Karpathy 2025 年度總結刷屏：AI 既是天才也是智障，這 6 個轉折最關鍵

最近各種年度回顧陸續上線， OpenAI 的前聯合創始人 Andrej Karpathy 也交出了自己對大模型的年度總結

贊助商廣告

就在今年早些時候，他在 YC 的一場演講刷爆了全網，提出了不少新的觀點：

軟體 3.0 已來：從最初的人寫代碼（1.0），到餵數據訓練模型（2.0），現在我們進入了直接對模型「念咒語」（Prompt）的 3.0 時代。
LLM 是新作業系統：它不是像自來水一樣的普通商品，而是一個負責調度記憶體（Context Window）和 CPU（推理算力）的複雜 OS。
Agent 的十年：別指望 AI Agent 一年就成熟，從 99% 到 99.999% 的可靠性，我們需要走上十年。

Karpathy 今天這篇《2025 年度總結》，他再次向我我們剖析了這一年 AI 究竟長出了什麼樣的「腦子」。

以下是對 Karpathy 年度總結的精譯，APPSO 在不改變原意的基礎上做了更多通俗解讀。

如果想看原文可以點擊 https://karpathy.bearblog.dev/year-in-review-2025/

2025 年是 LLM（大語言模型）發展強勁且充滿變數的一年。以下是我列出的幾點個人認為值得注意且稍感意外的「範式轉變」——這些變化不僅重塑了行業版圖，更在概念層面上狠狠地衝擊了我的認知。

2025 年既讓人興奮，又有點讓人措手不及。

LLM 正在作為一種新型智能湧現，它同時比我預期的要聰明得多，也比我預期的要笨得多。

無論如何，它們極其有用。我認為即使以目前的能力，行業甚至還沒挖掘出其潛力的 10%。同時，還有太多的想法可以嘗試，從概念上講，這個領域感覺依然廣闊。正如我今年早些時候提到的，我同時（表面上矛盾地）相信：我們將看到持續快速的進步，但前方仍有大量艱苦的工作要做。

系好安全帶，我們要發車了。

1. RLVR：教 AI 像做奧數題一樣「思考」

在解釋這個複雜的基礎概念之前，先看看以前是大模型訓練是怎麼做的？

在 2025 年初，各大實驗室訓練 LLM 的「老三樣」配方非常穩定：

1. 預訓練（Pretraining）：像 GPT-3 那樣，讓 AI 讀遍全網文章，學會說話。

2. 監督微調（SFT）：找人寫好標準答案，教 AI 怎麼回答問題。

3. 人類反饋強化學習（RLHF）：讓 AI 生成幾個答案，人來評分，教它討人喜歡。

現在發生了什麼變化？

2025 年，我們在這個配方里加了一味猛藥：RLVR（從可驗證獎勵中進行強化學習）。

這是什麼意思？

簡單來說，就是不再讓人來評分（人太慢且主觀），而是讓 AI 去做那些「有標準答案」的任務，比如數學題或寫代碼。對就是對，錯就是錯，機器能自動驗證。

贊助商廣告

在數百萬次的自我博弈和試錯中，模型自發地演化出了看似「推理」的策略。它們學會了先把大問題拆解成小步驟，甚至學會了「回過頭來檢查」這種高級技巧（參考 DeepSeek R1 論文）。

核心對比：

舊範式（RLHF）：像是教小孩寫作文。因為沒有標準答案，AI 很難知道自己哪一步想錯了，只能模仿人類的語氣。
新範式（RLVR）：像是把 AI 關進奧數訓練營。不用教它具體怎麼想，只要給它足夠多的題和對錯反饋，它自己就能摸索出解題套路。

這一招太好用了，以至於 2025 年大部分算力都被這隻「吞金獸」吃掉了。結果就是：模型並沒有變大，但訓練時間變長了。我們還獲得了一個新旋鈕：讓 AI 思考得久一點。OpenAI 的 o1 是開端，而 o3 則是真正的拐點。

2. 幽靈 vs 動物：AI 不是「電子寵物」

2025 年，我和整個行業終於從直覺上理解了 LLM 智能的「形狀」。

一個驚悚的比喻：我們不是在像養寵物一樣「進化/養育動物」，我們是在「召喚幽靈」。

為什麼這麼說？

因為 AI 的一切都和生物不同。人類的大腦是為了在叢林裡活下來、為了繁衍後代而優化的；而 LLM 的大腦是為了模仿人類文字、在數學題里拿分、在競技場裡騙贊而優化的。

參差不齊的智能（Jagged Intelligence）：

正是因為 RLVR（可驗證獎勵）的存在，AI 的能力在某些領域（如數學、編程）會突然飆升成刺狀。這就導致了一種極其滑稽的現象：

它同時是一個絕世天才（秒解高數題）；
又是一個智障小學生（會被簡單的邏輯陷阱騙得團團轉）。

▲這裡 Karpathy 引用了一張梗圖：人類智能是圓潤的藍色圓圈，AI 智能是像海膽一樣滿是尖刺的紅色圖形。這很形象.

這也解釋了為什麼我對現在的「跑分榜單」（Benchmarks）失去了信任。

什麼是「刷榜」的本質？

既然榜單是可驗證的，那就可以用 RLVR 針對性訓練。現在的實驗室都在搞「應試教育」，把 AI 的能力尖刺專門往考題上長。「在測試集上訓練」已經不僅僅是作弊，而成了一門新的藝術形式。

3. Cursor：不僅是編輯器，更是「包工頭」

Cursor 今年的爆火，揭示了一個新真相：LLM 應用層比我們想像的要厚。

大家開始談論「醫療界的 Cursor」、「法律界的 Cursor」。這些應用到底做了什麼？

「上下文工程師」：幫你整理好所有背景資料餵給 AI。
「工頭」：在後台偷偷指揮多個 LLM 幹活，把複雜任務拆解，還要幫你省錢。
「遙控器」：給你一個調節「自主性」的滑塊，決定放手讓 AI 干多少。

預測：大模型實驗室（如 OpenAI）會負責培養「全科大學生」；而應用開發商（如 Cursor）則負責給這些學生提供私有數據和工具，把他們組建成「專業施工隊」。

贊助商廣告

4. Claude Code：住在你電腦里的「賽博幽靈」

Claude Code (CC) 的出現讓我眼前一亮。它不僅僅是一個能寫代碼的 Agent（智能體），更重要的是：它活在你的電腦里。

對比來看，我認為OpenAI 搞錯了方向。

OpenAI 早期的 Agent 都在雲端跑（ChatGPT），離你的真實環境太遠。雖然雲端智能體聽起來像是 AGI 的終局，但在當前這個「參差不齊」的過渡階段，本地才是王道。

為什麼本地很重要？

因為你的代碼、你的配置、你的密鑰、你的混亂環境，都在本地。Anthropic（Claude 的母公司）搞對了優先級，他們把 AI 塞進了一個小小的命令行界面（CLI）里。

它不再是你瀏覽器里的一個網頁（像 Google 那樣），它變成了一個寄宿在你電腦里的「賽博幽靈」，隨時準備幫你幹活。這才是未來 AI 交互的樣子。

5. Vibe Coding

什麼是 Vibe Coding？

這是我在推特上隨口造的一個詞（居然火了）：意思是寫代碼不再需要你真的懂語法，你只需要用英語描述你的「意圖」和「感覺」，剩下的交給 AI。

這帶來了什麼改變？

對於普通人：編程的門檻徹底消失了。
對於專家：代碼變得像紙巾一樣「廉價、一次性、用完即棄」。

舉個例子，我為了找一個 Bug，可能會讓 AI 現場寫一個專門的 App 來測試，測完就刪。放在以前，為了找個 Bug 專門寫個 App？瘋了吧！但在 2025 年，代碼是免費的。

Vibe Coding 將會徹底重塑軟體行業，也會改寫程序員的招聘 JD。

6. Nano Banana：AI 終於有了自己的「臉」

為什麼現在的 AI 交互很反人類？

不管是 ChatGPT 還是 Claude，我們還在用「打字」跟它們聊天。這就像 80 年代還在用 DOS 命令行的黑底白字。

事實是：電腦喜歡文本，但人類討厭讀文本。人類是視覺動物，我們喜歡看圖、看表、看影片。

Google Gemini Nano banana（這是一個虛構的模型代號，指代某種多模態交互模型）是 2025 年的另一個範式轉變。它暗示了未來的 LLM GUI（圖形界面）是什麼樣子的。

未來的 AI 不應該給你吐一堆字，它應該直接給你畫一張圖、生成一個網頁、彈出一個交互面板。這不僅僅是「畫圖」，而是將文本生成、邏輯推理和視覺表達糾纏在一起的混合能力。

贊助商廣告