之前發了很多期商業方向的部落格了,其實我也是一個技術博主來著,而且研究AI,不研究技術,屬於水中撈月。所以,本期我來一份硬核技術分享。

這是TWIML AI Podcast的最新一期節目,獨立LLM研究者Sebastian Raschka和主持人Sam Charrington做了一場時長超過75分鐘的深度對談,話題從個人工作流一路覆蓋到架構前沿。Raschka是Manning出版社暢銷書《Build a Large Language Model from Scratch》的作者,這本書也有中文版,很受歡迎。目前正在寫續作《Build a Reasoning Model from Scratch》,已通過Manning的MEAP早期訪問計劃(讀者可以在書未完成時按章節閱讀)發布了前360頁,基於Qwen 3最小模型實現推理縮放和強化學習的全流程。
這場對話有一個貫穿始終的判斷:大語言模型(LLM)的核心架構在過去一年沒有發生根本性變化,真正的進展集中在"訓練之後"和"使用方式"上。但Raschka給自己所有架構層面的判斷都加了一個星號——"DeepSeek
V4還沒有出來,它可能徹底改變一切。"("DeepSeek V4 is not out. It might change everything completely.")
這句話說出時是2026年2月第二周,當時距離市場預期的DeepSeek V4發布窗口只剩幾天(春節)。當然,截至本文發稿,DeepSeek V4仍未正式面世,但種種跡象表明它可能隨時落地。
據一些外電報道,DeepSeek發布也臨近了,聚焦編程能力和超長代碼上下文處理,而且正在作國內AI晶片適配。DeepSeek在2026年1月1日和1月13日相繼發表了兩篇關鍵論文:mHC(一種改善模型層間資訊傳遞效率的新連接方式)和Engram條件記憶系統(讓模型能像查字典一樣快速檢索知識,而不用每次都"重新推理"一遍),業界普遍認為這兩項技術將構成V4的架構基礎。2月11日,DeepSeek還悄然將現有模型的上下文窗口擴展到了100萬token。所謂上下文窗口,就是模型一次能"看到"的文本長度,100萬token大約相當於750萬個漢字,足以裝下幾十本書。這被觀察者解讀為V4的前置準備。更值得關注的是,V4被認為是一個混合模型,同時支持推理和非推理任務,意味著之前R系列(擅長深度思考)和V系列(擅長通用任務)的區分可能就此終結。
Raschka特別提到,中國農曆新年前後歷來是開源模型密集發布期,看來大模型是新年俗這事兒全世界都知道了。去年DeepSeek R1
正是在這個窗口震動了整個行業,一度登頂美國iOS應用商店下載榜首,並觸發了美國科技股的集體市值蒸發。
我特別喜歡的部落格中的一個判斷是,他們認為模型的最佳使用方法之一是發明工具,和使用工具。當年我們說人類和動物的關鍵區別就是,人類能運用工具,現在AI也能了。
1. 推理革命:一年前的DeepSeek R1改變了什麼
"拿今天和一年前比,幾乎就是DeepSeek的周年紀念。"
Raschka把2025年到2026年初這段時間定義為"推理革命",但他馬上加了引號。本質上還是同一個基座模型,就是那個通過海量文本訓練出來的"底座",只是上面疊加了更多技術來讓模型在解決複雜問題時表現更好。如果把變化拆開看,有三個層面。
架構層面,LLM看起來和一年前差別不大。MoE(混合專家)成為主流,這種架構的核心思路是模型內部有很多"專家模塊",每次只激活其中一小部分來處理當前任務,既省算力又不損失能力。注意力機制有了一些效率優化,但沒有顛覆性的新範式。真正密集的變化發生在後訓練階段。所謂後訓練,是模型學完基礎知識之後的"進階培訓",相當於大學畢業後的專項技能訓練。推理訓練成了這個階段的研發重心。Raschka的判斷很直接:預訓練(讓模型閱讀海量文本、學習語言規律的基礎階段)已經非常成熟,能做的無非是更多數據、優化數據配比、multi-token prediction(讓模型一次預測多個詞而不是一個詞)這些。後訓練空間大得多,"還有很多低垂的果實等著去摘"。他在為新書編寫推理訓練章節時,僅GRPO算法(一種讓模型通過"對比好答案和壞答案"來學習推理的強化學習方法)的改進變體就列出了15種,從對整段回答打分到對每個詞單獨打分,到Nvidia提出的GDPO變體,進展密集到讓他在實驗中投入了大量時間。
第二個層面是工具調用的成熟。早期LLM的使用方式是讓模型從記憶中回答一切問題。Raschka用了一個直白的類比:人類被問到兩個大數相乘,也會拿出計算器,不會在腦子裡硬算。"也許我能心算,但會花很長時間,更容易出錯,而且完全沒必要這麼做。"現在LLM也是如此。通過訓練讓模型學會在合適的時機調用合適的工具,比如需要計算就調計算器,需要最新資訊就調搜尋引擎,可以顯著降低幻覺率、提高準確性。這個轉變意味著評估LLM的維度已經從"它自己知道多少"轉向了"它能不能正確使用工具"。
第三個層面,也是Raschka認為很多人低估的一個變化:產品差異化的來源正在從模型本身轉移到模型外面的工具包裝。他提出了一個大膽的假設:如果把最好的開源模型放進ChatGPT、Gemini或Claude的界面里,用戶感受到的質量差異其實微乎其微。也就是說,用戶體驗的差距主要來自文件上傳、PDF解析、代碼執行、定時任務調度等能力的成熟度,而不是底層模型。這就是去年下半年開始流行的harness engineering概念,可以理解為"工具包裝工程",指圍繞模型搭建的整套產品化能力。
2. 兩位深度用戶的真實工作流:LLM最大的價值是造工具
對話中有相當長的篇幅是Raschka和Sam交換彼此使用LLM的實際方式。這部分沒有任何理論包裝,全是具體到文件名和按鈕的操作細節,反而特別有參考價值。
Raschka目前用LLM最多的場景聽起來甚至有點"無聊":校對。他在寫書的間隙用ChatGPT上傳PDF,讓模型檢查目錄編號、章節一致性這類機械但容易出錯的工作。他說自己在錄這期播客之前剛寫完一章,需要更新目錄,就把PDF上傳到ChatGPT界面,讓模型把所有標題提取出來,省得自己手動拉。每個月寫完一個章節,他會把40頁的PDF上傳到pro模式,設成那個需要20分鐘處理的最高推理級別,然後出去吃飯,回來看結果。
但兩人都認為,過去一年從LLM獲得最大回報的方式,不是讓LLM反覆執行任務,而是用LLM開發確定性的自動化工具。
Raschka舉了三個自己的例子。他一直想學Swift開發原生macOS應用,但從來沒有時間專門投入。LLM給了他這個機會。他妻子有一個讀書會播客,Raschka幫她處理後期製作流程。之前他有一個Python腳本來添加章節標記,現在他用LLM寫了一個原生macOS應用,輸入時間戳,點一個按鈕,自動把章節標記寫進音頻文件。"就這麼簡單的小東西,做好了分享給她,她就能直接用了。"另一個應用是批量解析arXiv(全球最大的學術預印本平台)論文鏈接,自動提取標題、日期、作者,生成格式化的列表。還有一個是PDF轉換工具,輸入PDF後自動導出PNG、WEBP和PDF版本,指定解析度。
Sam的情況類似。他圍繞播客的運營開發了大約半打工具,其中最典型的是一個贊助商分析工具,通過API拉取播客平台的分析數據,用Pandas(Python的數據處理庫)做處理,自動生成Google Sheets報告。這個工具本身不使用LLM,但完全是用LLM開發的。
Raschka對此的總結很精闢:"手裡只有錘子,看什麼都像釘子。"("If all you have is a hammer, everything becomes a nail.")有些任務本質上是確定性的,每次用LLM去執行是浪費。正確做法是用LLM一次性造好工具,然後讓確定性的工具去跑。用LLM算1加1等於幾,就像用大炮打蚊子,明明有計算器可以用。
兩人還發現了一個共同的輕量用法:LLM作為分類器。Sam的場景是根據嘉賓姓名在Google Docs目錄中匹配對應的項目文件夾。正則表達式(一種基於規則的文本匹配方法)經常匹配不上,因為命名格式不統一,但LLM做這種模糊匹配準確率高、錯誤率低。Raschka有幾乎一模一樣的經歷。他重新撿起一個大學時期的英超夢幻聯賽預測項目,需要從不同資料庫合併球員數據,但球員名字的拼寫、重音符號在不同數據源里不一致。有的資料庫帶重音符號,有的不帶,同一個球員的名字在兩個表里長得不一樣。用LLM做這種上下文敏感的模糊匹配,比寫正則表達式可靠得多。
3. 推理級別的自動選擇:從"偶爾用的重型工具"到"日常工作流"
一個不容易被注意到但影響很大的變化是:模型自己判斷推理強度的能力在過去半年有了明顯提升。
Raschka回憶說,半年到一年前,想要好結果幾乎必須選最高推理模式,然後等五分鐘。他說當時如果不用最高推理設置,結果總是差一截,而那些高推理模式"慢得要命"。現在不同了,中等推理級別對大多數任務已經足夠。他和Sam都把ChatGPT設在auto模式,讓模型自己決定投入多少推理資源。
Sam補充說,他發現自己絕大多數時候只是輸入prompt,不指定模型也不指定推理級別,模型自己判斷什麼時候給快速回答、什麼時候調搜索、什麼時候深度思考。他覺得模型在這方面做得已經相當好了。
這個變化的實際影響是:LLM從"偶爾使用的重型工具"變成了"日常工作流的一部分"。以前你不會為了一個小問題等五分鐘,所以LLM只在重要任務時才值得啟動。現在大多數請求幾秒就回來,使用頻率自然就上去了。
4. "一鍵生成"是真的嗎?
Sam在社交媒體上反覆看到"I one-shotted this"的帖子,聲稱某個新模型一次性完成了一個複雜任務。他試著去復現,結果往往很糟糕。他問Raschka是否有類似體驗。
Raschka很直接地說有。他用Codex 5.2寫一個簡單的macOS應用,功能只是把PDF導出為PNG、WEBP和PDF的不同解析度版本,都經歷了多輪疊代才讓所有按鈕正常工作。"完全不是一次搞定的,反覆改了好幾輪才跑通。"他猜測有兩種可能:要麼那些成功案例的指令寫得極其詳細,比如明確要求"請徹底測試每個功能,確保一切正常運行",要麼只是運氣好。"我不認為那些帖子反映了今天的真實情況。"
5. OpenClaw:Agent的"AlphaGo時刻"與信任鴻溝
話題轉到OpenClaw(之前叫Moltbot,一款能自主操控電腦完成任務的AI Agent),Raschka的看法很有意思。他沒有從技術角度評價它的能力上限,而是把它類比為AlphaGo。
當年DeepMind做AlphaGo的時候,他說,他周圍真正下圍棋的人屈指可數,但看到AI和世界冠軍對弈,他的家人、所有人都興奮起來了。OpenClaw的價值類似,讓非技術人群直觀感知到LLM能做什麼,讓人們產生興趣、願意去試試看。
但當被問到他自己是否使用OpenClaw來管理日曆和郵件時,Raschka坦言有信任障礙。"我可能有點信任問題,我不太敢把財務或日程表交給它管。"這個坦白暴露了Agent產品當前的核心矛盾:演示效果和日常可信賴之間還有很大的鴻溝。
6. 學編程還有意義嗎?中間地帶的價值
對話中出現了一個出人意料的共識:vibe coding(純靠LLM寫代碼、自己完全不碰的做法)這個詞已經不夠用了,因為有人真的在用LLM搭建完整產品,從網站到後端全交給模型。但Raschka和Sam都不是那種人,他們處在光譜的中間位置。
Raschka講了一個生動的例子。他的個人網站是12年前自己用HTML和CSS寫的,一直想加暗色模式,但知道以自己現在對前端的生疏程度,手動做可能要一個月,所以一直拖著。後來他讓LLM來做,模型完成了主要工作,但按鈕的位置不對,偏了、高了、歪了。他開始通過prompt讓LLM調整位置,往上一點、往下一點、往左移一些,然後意識到這種交互效率極低。"我幹嘛不直接打開CSS文件自己改呢?"因為他還記得CSS(控制網頁樣式的代碼)的基本知識,直接改文件、刷新頁面看效果比反覆和LLM打桌球快得多。
這個案例指向一個重要結論:"中間地帶是存在的。我確實認為學習事物的運作原理仍然有價值。"("There's a middle ground. I do think there's still value in learning how things work.")理解底層原理不是為了取代LLM,而是在LLM不夠精確的時候能自己接手。完全依賴LLM和完全不用LLM都不是最優策略。
7. 可驗證獎勵:推理訓練為什麼能規模化
技術對話的核心從這裡開始。Sam問了一個關鍵問題:可驗證獎勵(verifiable rewards)作為範式,如何推動了過去一年推理能力的進步?
所謂可驗證獎勵,核心想法很簡單:給模型出一道題,如果答案可以用程序自動判對錯,那就不需要人來打分,訓練成本會極低。Raschka從DeepSeek R1的訓練流程講起。R1的推理訓練主要基於兩類可驗證任務:數學和編程。數學方面,要求模型用特定格式輸出最終答案,然後用確定性代碼提取答案,再通過Wolfram Alpha或符號計算工具驗證,比如4/6和2/3在符號意義上是同一個答案。編程方面,最初的驗證方式是檢查代碼是否能正確編譯運行。
這種方式的核心優勢是可以幾乎無限地擴展。Raschka說,你可以讓LLM對同一個問題生成60000個答案,然後在很短時間內批量計算所有答案的獎勵。驗證是確定性的、廉價的,不需要人工標註。這和傳統的RLHF形成鮮明對比。RLHF即"基於人類反饋的強化學習",是早期訓練模型的主流方法,需要人類評估員逐條給模型的回答打分,或者用一個近似的獎勵模型來代替人工,規模受限,精度也不如直接驗證。
在正確性獎勵之外,現在還有格式獎勵。比如訓練模型把思考過程放在特定標籤里,方便後續解析中間步驟。Raschka認為輔助獎勵的設計空間還很大,未來會有更多人在格式獎勵或輔助獎勵上做出有意思的東西,幫助模型整體學習效果的提升。
8. 過程獎勵模型:從失敗到可用
一個更深層的問題是:能不能不只評估最終答案,而是評估推理過程本身?
DeepSeek R1論文裡嘗試過這個方向,訓練一個"過程獎勵模型"(Process Reward Model),不只看最後答案對不對,還給推理的每一步打分。但論文把它列為失敗嘗試。原因是增加了reward hacking的風險,也就是"獎勵欺騙":模型學會了投機取巧的辦法去騙過評估器拿高分,而不是真正提升推理能力。Raschka用GAN(生成對抗網路,一種讓兩個網路互相博弈的訓練方式)做類比:就像GAN里的生成器學會生成某個特定模式來愚弄判別器一樣,模型可能發現只生成某一個詞就能騙過評估器。
但在後來的DeepSeek Math v3.2中,他們用了更精細的多層結構:一個模型用評分標準檢查答案質量,另一個模型評估那個評估者的打分是否靠譜,形成多層級審核。消融實驗(逐個去掉系統中的組件,看性能變化多少,以此驗證每個組件的貢獻)證明這確實有效。他們用了一張很清晰的圖展示精度能提升多少。通過充分調高自我精煉和自一致性(讓模型多次回答同一問題,取最優)的力度,同一個模型在數學競賽中從普通水平提升到了金牌級別。
Raschka認為這條路會繼續走下去。"本質上就是讓推理訓練變得更精細。這是一個非常新的範式。"
9. 可驗證獎勵能擴展到數學和編程之外嗎?
Sam指出,推理訓練之所以在數學和編程上效果好,部分原因是這兩個領域天然有邏輯推理成分,訓練出來的推理能力會泛化到其他領域。但如果能在目標領域直接訓練推理,效果會更好。那麼驗證範式能否擴展?
Raschka的回答是肯定的,但他誠實地說自己"暫時缺乏想像力去想出更多例子"。他給出的一個方向是生物製藥:藥物分子設計或蛋白質結構建模中,原子之間的鍵角受物理約束,可以用物理方程來驗證生成的分子是否合規。比如寫一個物理方程來檢查生成的分子結構是否滿足特定的格式約束。
另一個方向是訓練專門的AI獎勵模型來評估其他領域的答案,但這面臨老問題:獎勵欺騙。和GAN里判別器判斷圖像真假的結構一樣,評估者本身也可能被愚弄。
10. 推理縮放:同一個模型還能"榨"出多少性能
推理縮放(inference scaling)是一個近兩年非常熱門的概念:模型訓練完成後,不改動模型本身,而是在模型回答問題的時候投入更多計算資源來提升性能。Raschka把它分成兩種形式。
順序縮放就是推理模型本身的做法:生成比普通模型更長的解釋過程,讓模型"一步一步想",幫助它到達正確答案。這是一種用更多token(模型處理文本的最小單位,一個token大約對應一個英文單詞或兩三個漢字)換更好結果的策略。
並行縮放則是自一致性(self-consistency):用不同的隨機性設置讓模型回答同一個問題多次,然後取多數投票或用評分器選最佳答案。Raschka說這有時也被叫做"best of N",本質上是經典的集成學習,和選舉投票的邏輯類似,多個獨立判斷匯總後通常比單個判斷更可靠。
自我精煉(self-refinement)是另一種形式:模型生成答案後,把答案連同原問題餵給另一個LLM或自身,按照評分標準檢查答案的弱點,生成一份報告,再把報告反饋給原模型讓它修正答案。Raschka坦言這種方法有時也會讓答案變差。模型可能過度思考,或者評估報告本身有問題導致原本正確的答案被改錯。本來答案是對的,但反饋很奇怪或者有錯誤,結果改完反而改錯了。
但方向是對的。推理縮放的天花板可能比想像中高得多。
11. 開源生態的推理縮放:還在非常早期
一個具體的案例是OpenAI去年夏天發布的GPT-OSS開源模型。在Ollama等本地推理工具中,它支持在system prompt(給模型的"系統指令")里直接寫"no/mild/medium/high reasoning effort"來控制推理強度。這在開源模型中是比較少見的原生推理縮放支持。
但除此之外,自一致性和自我精煉這類技術在開源生態中基本需要研究者自己實現。Raschka說,他不認為有什麼其他技術真正被自動集成進去了。Sam從產業側補充了一個觀察:很多圍繞Qwen等開源模型構建產品的公司,普遍在架構中加了一個router組件,相當於一個"分揀員",先評估用戶問題的複雜度,然後決定把它路由到最經濟或針對性最強的模型。這種模式在商業產品中已經很常見,但在開源工具鏈中還缺乏成熟方案。
Raschka認為這是2026年會看到更多進展的領域。一邊是更貴但更強的模型在推數學奧賽的上限,一邊是更便宜的模型在降低日常使用的門檻。有人在做更高精度的模型,有人在做更便宜的模型,兩條路永遠同時在跑。怎麼讓系統自動選擇合適的模型和推理強度,是一個還沒有被很好解決的工程問題。
12. Agent:一個務實的定義和誠實的評估
"Agentic這個詞其實定義很模糊,不同的人用法完全不同。"
Raschka給出了他自己的定義:agentic就是LLM在循環中運行,而不是一問一答。用戶給一個目標,模型自己拆分步驟、逐步執行、遇到問題自我修正,直到完成。Codex、Claude Code做多輪疊代解決編程問題是agentic,OpenClaw在本地電腦上操作日曆和郵件也是agentic。最近Claude Code和Codex 5.3的codeex應用甚至加入了定時任務的能力,你可以調度一個任務,讓模型在固定間隔執行某些操作。
他的預測是,到2026年底,我們會看到能可靠預訂旅行的系統。但他同時指出,大多數人其實不需要一個全能Agent。"多數人只是需要一個Excel插件,能定時更新某些數據就夠了。"
對話中一個顯眼的分歧出現在多Agent系統上。Sam描述了社交媒體上流行的"AI團隊"模式,創建多個AI員工,每個有不同角色,通過Slack或Notebook交互。他問Raschka的看法。
Raschka的回答異常坦誠:說實話,他希望自己能有一個很好或很有趣的回答,但這是他個人沒有深入探索過的領域。不過他提出了兩個關鍵判斷。
第一,瓶頸不在LLM本身,而在context engineering。這個概念指的是如何精心設計和管理傳給模型的資訊,讓模型拿到最相關的上下文。在多Agent場景下,就是怎麼把一個Agent的輸出有效地傳遞給下一個Agent。從基礎的資料庫到Slack API,資訊在Agent之間的流轉方式還非常粗糙。
第二,每個LLM都有自己的失敗率。Agent越多、依賴鏈越長,系統級失敗的概率就越高。加的模型越多,其中某個環節出錯的風險就越大,尤其當它們相互依賴的時候。
他認為改善Agent系統有兩條路徑。一條是提升單個模型的可靠性,降低每一環的失敗率。另一條是針對Agent場景做專門的fine-tuning,即在已有模型基礎上用特定場景的數據做進一步訓練,讓模型更適配該場景。他舉了一個關鍵例子:Codex並不是GPT 5.3本身,而是從GPT 5.3 fork(分叉)出來,專門為Codex應用訓練過的模型。GPT 5.2或5.3的Codex版本和GPT 5.2、5.3完全是兩個東西,是專門分叉出來、針對Codex應用場景訓練的模型。同樣的邏輯會擴展到Agent場景,但這需要模型所有者來做,普通開發者無法自行fine-tune這些閉源模型。
Raschka甚至做了一個預判:如果讓他押注的話,Claude和OpenAI肯定在密切關注OpenClaw的動向,說不定很快會推出自己的版本,而且因為它們掌控著模型本身,做出來的東西可能更強。
13. 架構演進:MoE、多頭潛在注意力、稀疏注意力
把目光轉向LLM架構本身,Raschka的核心判斷是:在2025年到2026年2月這個時間窗口裡,推動前沿性能的架構沒有發生根本性變化。但在效率優化層面有一系列精細的改進。
MoE在DeepSeek V3之後成為主流。Raschka觀察到一個有趣的現象:很多公司選擇"不賭",直接採用DeepSeek V3的架構,把精力放在數據和算法上。Kimi直接使用了這個架構並從670B擴展到1T參數,Mistral AI也採用了相同架構。很多人選擇不冒險,拿一個已經被驗證有效的架構,把精力放在數據和算法的改進上。
多頭潛在注意力(Multi-Head Latent Attention)是DeepSeek V3引入的一個關鍵改進。Raschka用LoRA(一種通過壓縮矩陣來降低訓練成本的技術)做類比來解釋:把注意力機制中的key和value投射到一個更小的壓縮空間,推理時再從壓縮形式重建。好處是KV cache變小了。KV cache是模型在生成文本時用來"記住之前讀過什麼"的緩存,是推理階段最大的記憶體瓶頸之一。壓縮它意味著同樣的硬體能處理更長的文本,代價是增加了一些計算。本質上是用計算換記憶體。
DeepSeek V3.2則引入了深度稀疏注意力(Deep Sparse Attention)。注意力機制是LLM的核心模塊,模型通過它來判斷"當前這個詞應該重點關注前文的哪些詞"。它的計算複雜度隨序列長度呈二次方增長,已經有成百上千篇論文在研究怎麼降低這個成本。但Raschka對大多數論文持謹慎態度,一個想法在小模型上跑得通,不代表擴展到5000億、6000億甚至1萬億參數時還能成立。DeepSeek的做法之所以值得關注,是因為它被部署在旗艦模型上,這基本證明了它在大規模下是可行的。具體方法是用一個輕量級的"閃電索引器"(lightning indexer)來快速篩選每個token應該關注哪些之前的token,而不是關注所有token,從而將複雜度降到次二次方。
他也提到了效率路線和能力路線的並行推進。Qwen 3 Next Coder不再是純Transformer,而是融合了狀態空間模型(state space model,一種用固定大小的"狀態"來記憶歷史資訊的架構,處理長文本時比傳統注意力機制更省資源)思路的混合架構,目標是降低推理成本。有人在做更高精度的模型,有人在做更便宜的模型,永遠是這個權衡。
這兩條路同時在跑,而且相互不矛盾:旗艦模型驗證了什麼有效,效率模型探索怎麼用更少的資源逼近同樣的效果。
14. 持續學習:最大的夢想,最遠的現實
"怎麼讓模型自己改進自己?我覺得這可能是最大的夢想了。"("How can we make the model improve itself? I think this is like maybe the biggest dream.")
Sam問到持續學習,也就是讓模型在使用過程中自動從新數據中學習、持續變強,而不用重新訓練。Raschka的回答毫不含糊:連路徑都沒有。技術上沒有方案能讓模型可靠地自動更新自己。現實中也有基礎設施層面的障礙,OpenAI不可能為每個用戶維護一個獨立的模型副本。那樣的話每個人家裡都得有一台小型超級電腦,或者一台十萬美元的機器。
目前的做法是半自動的:人工收集新數據,謹慎地更新模型。即使是這樣,風險也不小。如果用戶的數據被反饋給OpenAI,OpenAI自動更新模型,萬一某次更新出了問題,可能影響所有人。這不是技術問題,是產品安全問題。
Raschka承認可驗證獎勵的強化學習如果持續運行,從某種意義上也是一種持續學習的形式,模型在不斷生成答案、獲得反饋、調整參數。但關鍵約束是:你不能讓模型變得更差。
15. 長上下文取代了什麼,沒取代什麼
長上下文LLM確實改變了很多事情。Raschka說,以前人們要建RAG系統來處理大型文檔。RAG的全稱是"檢索增強生成",做法是先把大量文檔切成小段存進資料庫,用戶提問時先檢索最相關的段落,再把它們餵給模型來生成回答。現在200頁的PDF可以直接放進上下文窗口,不需要RAG也不需要fine-tuning。
但他也畫了一條線。長上下文的局限在於:用戶必須自己知道該提供什麼資訊。如果你問一個2026年的歷史事件,LLM可以用搜索工具查到具體事實。但如果這個事件有廣泛的連鎖影響,工具調用只能獲取離散事實,無法捕捉數據點之間的複雜相互作用。
同時Raschka特意澄清了一點:RAG並沒有過時。他說自己不會說RAG已經被淘汰了,對於固定的大型資料庫或文檔集,RAG仍然非常有用。對於企業級的大型文檔集和反覆查詢的場景,RAG仍然是最合適的方案。長上下文取代的是"普通用戶偶爾處理一份文檔"的場景,不是企業級知識庫檢索。
16. 2026年的小驚喜:文本擴散模型
在被問到還有什麼值得期待時,Raschka提到了一個小眾但有意思的方向:文本擴散模型。Google正在準備發布一個這樣的模型。當前主流LLM生成文本的方式是從左到右、逐字逐句地寫,和人打字一樣。文本擴散模型的思路完全不同,更像畫畫:先在畫布上鋪滿模糊的噪點,然後逐步去噪,讓清晰的文字浮現出來,多個位置可以同時生成。
他不認為這會在頂尖性能上挑戰當前的LLM,但可能更快、更便宜。Raschka說,大家不用對它的前沿性能抱太高期待,但它可能在速度和成本上有優勢。一個可能的應用場景是替代Google搜索中的AI摘要,那些不需要頂級推理能力、只需要快速生成的場景。
17. 新書:從預訓練的終點開始
這場對話的尾聲回到了Raschka的個人項目。他的新書《Build a Reasoning Model from Scratch》是上一本書的自然續篇,但可以獨立閱讀。上一本書覆蓋了從架構到預訓練再到指令微調的完整流程;新書從一個預訓練好的LLM出發,具體使用的是Qwen 3最小模型,然後在此基礎上實現推理縮放和強化學習。
前360頁已經通過Manning的MEAP早期訪問發布,還剩最後一章,他希望在4月完成。他說這一章的工作量非常大,因為需要跑完所有實驗。他在GRPO算法的各種變體上投入了大量實驗時間,因為過去一年有太多改進論文發表,需要在實踐中逐一驗證。
整本書的設計理念沒變:在消費級硬體上可以跑的代碼,375頁,Python和基本機器學習知識就夠。"理解一個東西怎麼運作的最好方式,就是自己動手造一個。"("The best way to learn how something works is to build it yourself.")
Raschka正在做的事情,和他在這場對話中的立場完全一致。他不在光譜的任何一端,不是純理論研究者,也不是vibe coding的信徒。他寫代碼驗證論文中的每一個聲明,用LLM造工具來加速自己的工作流,同時堅持認為理解底層原理是不可替代的。DeepSeek V4的發布時間從2月推遲到了"Q1-Q2 2026"的模糊窗口,但它承載的那些架構創新,mHC、Engram條件記憶、稀疏注意力,已經通過論文公開了。不管V4什麼時候來,Raschka在這場對話中描述的三條主線,推理訓練的深化、推理縮放的成熟化、Agent系統從演示走向可靠,都是確定性的方向。至於這些方向能跑多遠、跑多快,他自己也在寫書的過程中尋找答案。
核心問答
Q1: 2026年LLM領域研發重心在哪裡?
後訓練階段,特別是推理訓練。Raschka的判斷是預訓練已經高度成熟,算法創新空間有限,主要靠更多數據和計算資源推動增量進步。後訓練空間大得多,僅GRPO算法的改進變體就有15種以上。可驗證獎勵讓推理訓練能以極低成本無限擴展,讓模型生成60000個答案,然後用確定性方法批量驗證,不需要人工標註。這個範式目前主要在數學和編程領域,但正在向製藥等有物理約束的領域探索。
Q2: 普通用戶從LLM獲得最大回報的方式是什麼?
用LLM開發確定性工具,然後讓工具去跑重複任務。Raschka和Sam的經驗一致:最高ROI不是讓LLM反覆回答同類問題,而是用LLM一次性造出自動化工具。Raschka用LLM寫了macOS原生應用來處理播客章節標記、批量解析arXiv論文、轉換PDF格式;Sam用LLM開發了贊助商分析工具,通過API拉數據、Pandas處理、自動生成報告。這些工具本身不依賴LLM運行,但完全由LLM開發。另一個高回報的輕量用法是把LLM當分類器,處理命名不統一、格式不一致的模糊匹配任務,準確率遠高於正則表達式。
Q3: DeepSeek V4為什麼被認為可能"改變一切"?
V4被認為是一個融合了多項架構創新的混合模型。它可能同時整合mHC(改善模型層間資訊傳遞效率的新連接方式)、Engram條件記憶系統(讓模型快速檢索知識而非重新推理)、以及深度稀疏注意力等技術,同時支持推理和非推理任務,終結此前R系列和V系列的分割。從產業角度看,DeepSeek V3的架構已經被Kimi、Mistral AI等多家公司直接採用,如果V4在架構層面再次實現代際突破,其影響將沿同樣的路徑擴散到整個開源生態。此外,DeepSeek已將現有模型的上下文窗口擴展到100萬token,暗示V4在長上下文處理上也有重大升級。Raschka之所以給自己所有架構判斷都加星號,正是因為V4的架構創新可能讓"過去一年LLM核心架構沒有根本變化"這個判斷失效。






