ETH蘇黎世聯邦理工學院：給AI醫生配備一位「實時監考官」，醫療推理準確率暴漲25%

這項由瑞士蘇黎世聯邦理工學院（ETH Zürich）與德國海德堡大學聯合開展的研究，以預印本形式發布於2026年4月，論文編號為arXiv:2604.09482。對完整技術細節感興趣的讀者可通過該編號檢索原文。

贊助商廣告

**一段不可忽視的背景故事**

設想一位主治醫生正在會診，他一步步分析患者症狀、逐條排查可能的病因，最終給出診斷結論。這個推理過程的每一步，都可能存在微小但致命的錯誤——一個錯誤的前提，會像多米諾骨牌一樣帶垮後續所有判斷，直到得出一個貌似合理卻大錯特錯的結論。

現實中的AI醫療助手面臨完全相同的困境。過去幾年裡，大型語言模型（可以理解為"超級聰明的文字處理程序"）在醫療問答領域取得了相當不錯的成績，但一旦遇到需要多步驟推理的複雜臨床問題，它們就容易在中間某一步出岔子，而且這個錯誤通常不會被發現，就這樣悄悄地傳遞到最終答案里。

更麻煩的是，醫學知識不像數學公式那樣一成不變。新的臨床指南每年都在更新，最新的研究文獻每天都在發表，某種疾病的首選治療方案可能在短短幾年內就發生了根本性轉變。這意味著一個訓練好的AI醫療助手，每隔一段時間就必須重新"補課"——而重新訓練一個大型語言模型的成本，少則數十萬美元，多則更是天文數字。

蘇黎世聯邦理工學院的研究團隊正是看到了這個痛點，才提出了他們的解決方案：與其一遍遍重新訓練整個AI系統，不如在旁邊放一個專門負責"打分和糾錯"的獨立模組，讓這個模組實時監督AI的每一步推理，隨時檢索最新醫學文獻，一旦發現某一步走偏了，就立刻介入修正。

**一、為什麼"事後批改"遠不如"邊學邊糾"**

在這項研究之前，學界已經有一些類似的嘗試。其中最具代表性的是"過程獎勵模型"（Process Reward Model，簡稱PRM）——這個名字聽起來有些晦澀，但概念其實很直觀：比起只看最終答案對不對，PRM會對AI推理過程中的每一個中間步驟打分，評估這一步是否合理、是否符合醫學邏輯。

贊助商廣告

然而已有的工作存在一個共同的致命缺陷：它們都是"事後諸葛亮"。也就是說，AI要先把整個推理過程全部寫完，然後PRM才介入進行批改。這就好比一個學生做了一道數學大題，老師等他把所有步驟寫完之後，才坐下來看從第幾步開始算錯了——即便老師指出了錯誤所在，那張試卷也已經交上去了。

更具體地說，現有的兩類主要方法各有局限。其中一類（Med-PRM）確實引入了文獻檢索來評估推理步驟，但仍然只能在推理完成之後進行整體打分；另一類（Med-S?）嘗試讓AI系統自我進化，同時訓練一個策略模型和一個獎勵模型，但這個方法完全沒有引入"在推理過程中及時檢索外部知識"的能力，而且同樣是事後評估。

這兩個缺陷疊加在一起，意味著錯誤可以在推理鏈條中悄無聲息地積累，從第一步蔓延到第二步、第三步……直到最後給出一個錯誤的診斷。而糾正這個錯誤的機會，永遠來得太晚。

蘇黎世的研究團隊給出的回答是：必須讓打分者在推理進行的過程中就介入，而不是等到推理結束之後才行動。這就是他們提出"過程獎勵智能體"（Process Reward Agent，簡稱PRA）的核心動機。

**二、PRA是什麼：給推理過程配備一位實時裁判**

PRA的工作原理，可以用一場體育比賽的裁判制度來理解。

在普通的比賽里，裁判坐在場邊全程觀看，運動員打完整場比賽，裁判最後判定輸贏——這就是"事後評估"。但在PRA的設計里，裁判是實時介入的：每當一個運動員完成一個動作，裁判立刻上前打分，如果這個動作違規了，裁判不等比賽打完，當場就會吹哨介入。

具體到AI醫療推理的場景里，整個系統由三個相互配合的部分組成：第一部分是"推理者"，也就是一個凍結參數（意味著不會被修改）的大型語言模型，負責一步一步地生成推理內容；第二部分是PRA本身，扮演裁判的角色，負責在每一步推理完成後立即做出兩個判斷；第三部分是"檢索系統"，負責在PRA需要的時候，從龐大的醫學文獻庫中快速找到相關資料。

贊助商廣告

PRA在每一步推理結束後，需要做出的第一個判斷是：這一步的推理是否正確？它會給出一個介於0到1之間的分數，分數越高代表這一步越合理、越符合醫學邏輯。這個分數被稱為"步驟獎勵"。

PRA需要做的第二個判斷是：我需不需要去查文獻來評估這一步？如果這一步涉及到非常具體的醫學知識（比如某種罕見疾病的診斷標準，或者某種藥物的最新使用指南），光憑自身的知識儲備可能不夠準確，就需要先檢索一下最新的相關文獻，再給出打分。如果這一步只是普通的邏輯推演，不需要額外的外部證據，就直接打分。

值得特別指出的是，這裡有一個非常精妙的設計決策：檢索到的文獻資料只會被PRA這個裁判看到，用於輔助打分，而不會被塞進"推理者"的輸入框裡。這意味著推理者不會因為突然塞進來一大堆文件而變得困惑或者"跑題"。推理者只管一步一步地推理，PRA只管一步一步地打分，兩者各司其職，互不干擾。

**三、搜尋證據的"聰明標準"：只在真正需要時檢索**

在訓練PRA的過程中，研究團隊需要告訴它：在什麼情況下應該去檢索文獻，在什麼情況下直接打分就夠了？

這個判斷標準的設計相當有意思，背後隱含著一種樸素但深刻的邏輯。研究團隊使用了一個龐大的"老師模型"（Qwen3-235B-Instruct，一個參數規模達2350億的超大語言模型）來生成訓練數據。對於每一個推理步驟，老師模型會在兩種條件下分別進行評估：一次提供相關醫學文獻，一次不提供任何文獻，只憑自身知識評估。

如果提供文獻後老師模型的判斷發生了顯著變化（比如原本認為這一步有問題，看了文獻之後反而認為沒問題；或者反過來，原本認為沒問題，看了文獻之後發現有嚴重錯誤），那就說明這一步的評估非常依賴外部知識，PRA在遇到類似情況時應該主動去檢索文獻，研究團隊把這種情況稱為"邊際差值大"。反之，如果提供文獻前後老師模型的判斷幾乎沒有變化，就說明這一步的評估靠自身知識就夠了，不需要檢索。

贊助商廣告

研究團隊用所有訓練數據的這個差值的中位數作為分界線，最終大約一半的訓練步驟被標記為"需要檢索"，另一半被標記為"無需檢索"。這樣的設計讓PRA學會了智能地分配檢索資源，而不是毫無區別地對每一步都檢索，既節省計算資源，又保證了評估質量。

**四、"選手晉級賽"：用搜索束縮小範圍找到最優推理路徑**

PRA不僅僅是一個打分工具，它還是推理過程的"總導演"，通過一種被稱為"束搜索"（Beam Search）的推理策略來主動干預推理方向。

束搜索的工作方式，可以用一場選秀節目來類比。節目開始時，有B組選手（這裡B是"束寬"，一個可以設定的數字，研究中設為4）同時在舞台上演唱。每完成一段，每位選手會向前分叉出b條不同的繼續演唱方案（這就是"分支因子"，研究中設為16）。於是B組選手變成了B乘以b組備選方案。這時，PRA作為評委，對所有備選方案打分，只留下綜合分數最高的B組繼續比賽，其餘淘汰。

在這場推理"選秀"里，"分數"是每一步得到的獎勵分數的累計總和——走到推理越靠後的階段，累計分越高的那條推理路徑，就越可能是正確的那條。當所有參賽選手都唱完最後一段（也就是所有推理路徑都到達了最終答案），累計分最高的那條路徑就是最終答案。

為了讓整個系統在實際運行時足夠高效，研究團隊還設計了一種"全局隊列"調度機制：把來自所有問題、所有推理路徑的任務，按照當前所處的階段（"推理中"、"等待打分"、"等待檢索"、"已完成"）分類，每次批量處理同一類型的任務，而不是一個問題一個問題地串行處理。這樣可以讓GPU（顯卡，AI計算的核心硬體）始終保持高負載運轉，大幅提升處理效率。

**五、實驗結果：數字背後的含義**

研究團隊在七個醫療推理基準測試上進行了評估。這些測試涵蓋了從標準化醫學考試題（MedQA）到專科難題（MedBullets）、從一般醫學知識（MMLU-Med）到研究生級別的科學問答（GPQA）、再到真實臨床病例（《柳葉刀》和《新英格蘭醫學雜誌》的病例題）等多種場景。

贊助商廣告

核心結論可以用一個具體數字來表達：在最主要的MedQA基準上，使用Qwen3-4B-Instruct（一個參數量為40億的語言模型）作為推理者，PRA達到了80.8%的準確率。這是目前全球範圍內40億參數規模模型在這個測試集上的最高成績，是歷史性的突破。

為了更直觀地理解這個成績意味著什麼，可以看看對比數據。同樣使用Qwen3-4B，如果只是直接提問（Direct），準確率只有61.6%。加上鏈式思維（CoT，讓AI一步步解釋自己的推理過程），準確率提升到72.7%。再加上檢索增強（RAG，先檢索相關文獻再回答），準確率到72.2%。採用"自洽性"策略（Self-Consistency，讓AI獨立回答64次，取出現最多的答案），RAG加自洽性的最高成績是76.7%。而PRA達到了80.8%，比最強基準高出4.1個百分點。

這4個百分點聽起來不多，但在醫學考試級別的題目上，這相當於每100道題多答對了4道——對於關乎生死的醫療決策來說，這個差距是實實在在的。

更重要的一點是，隨著計算資源的增加，PRA還在持續提升，而自洽性策略在樣本數超過8個之後就幾乎不再改善了。換句話說，給PRA更多的計算預算，它還能繼續變好；而自洽性策略已經到達了天花板。

**六、跨模型泛化：小模型爆發出意想不到的潛力**

PRA更令人注目的能力，體現在它對"從未見過的"推理模型的適應上。研究團隊的PRA是用Qwen3-4B的推理軌跡訓練出來的，但他們拿它去給完全不同架構和規模的模型打分，結果同樣有效。

對Llama-3.1-8B（參數量80億）——比訓練時的推理者更大的模型——PRA將其MedQA準確率從67.0%提升到了80.1%，提升了13.1個百分點。對Qwen2.5-0.5B（參數量只有5億，是Qwen3-4B的八分之一）——比訓練時的推理者更小的模型——PRA將準確率從28.4%提升到了54.1%，提升幅度高達25.7個百分點，相對提升率接近91%。

這個結果揭示了一個非常有意思的現象：小模型並不是"天生笨"，而是"缺乏合理的引導"。那些參數量很少的模型，其實內部已經儲存了相當多的知識和推理能力，但如果沒有外部信號告訴它"這條推理路徑走對了"，它就很容易一路滑向錯誤的方向。PRA的出現，相當於給這些"被埋沒的潛力生"提供了一個經驗豐富的指導老師，幫助它們把自身的潛力充分發揮出來。

贊助商廣告

**七、深挖原因：為什麼"實時"比"事後"更有效**

研究團隊專門設計了一組消融實驗，來精確定位PRA到底是哪個環節在發揮作用。這組實驗固定了同一個訓練好的PRA模型，只改變它被使用的方式——是在推理完成後才打分（事後），還是在推理過程中實時打分（在線）？是對整個推理路徑打一個總分（結果級別），還是對每一步分別打分（過程級別）？

實驗結果非常清晰。只使用最後一步的分數（結果級別，事後）：準確率75.7%，比自洽性基準74.8%略好一點點。用所有步驟分數的最小值（過程級別，事後）：反而降到了74.3%，甚至不如基準。用所有步驟分數的最大值（過程級別，事後）：提升到77.5%。用所有步驟分數的平均值（過程級別，事後）：77.6%。而真正在推理過程中實時應用步驟分數（過程級別，在線）：80.8%。

這組數據說明，單純擁有一個好的"評分機制"是不夠的，關鍵在於這個評分必須在推理進行的過程中就起到干預作用。一旦推理路徑偏離了正確方向，實時的干預能夠在錯誤積累之前就把它糾正過來，而事後打分只能告訴你哪條路走錯了，但路已經走完了，什麼都晚了。

**八、"該不該查"的學問：邊際差值揭示的規律**

研究團隊還分析了一個有趣的現象：在什麼情況下，外部文獻對評估推理步驟的幫助最大？

他們發現，對於最終答對了的推理路徑，隨著推理越來越接近結論，檢索到的文獻對評估的影響越來越大——這意味著在推理的後期階段，AI越來越需要用具體的醫學證據來支撐自己的判斷，而不只是泛泛的邏輯推演。而對於最終答錯了的推理路徑，這種趨勢恰好相反：推理越到後期，外部文獻對評估的影響反而越來越小。研究團隊的解釋是，走向錯誤的推理路徑往往在內部就已經包含了明顯的邏輯矛盾或醫學錯誤，即便沒有外部文獻，評分者也能直接發現問題所在。

贊助商廣告

另一個規律是關於題目難度的：越是困難的題目（即AI自行答對的概率越低），正確的推理路徑越依賴外部文獻進行核實。這很符合直覺——簡單的問題靠常識就能判斷，難題才真正需要翻文獻。

**九、檢索頻率與準確率的微妙平衡**

檢索文獻不是免費的：每一次檢索都需要消耗計算時間和資源。研究團隊測試了一個"可調節的檢索閾值"，看看PRA能否在減少不必要檢索的同時，儘可能維持高準確率。

結果表明確實存在一個"帕累托前沿"：通過合理設置閾值，可以用遠少於100%的檢索頻率，達到接近全檢索時的準確率。換句話說，PRA的智能檢索策略不是簡單粗暴地"每步都查"，也不是盲目省略，而是能夠學會在關鍵的節點才動用檢索資源，在準確率和效率之間找到一個合理的平衡點。

---

歸根結底，這項研究解決的是一個非常實際的問題：如何讓AI在醫療推理這樣高風險的場景里更加可靠，同時又不用每隔一段時間就花費巨大代價重新訓練整個系統。PRA的答案是：把"推理"和"評估"分開，讓一個專門的模組負責實時監督和糾正，這個監督模組可以隨時更新知識庫，隨時替換不同的推理後端，而不需要對任何一個部件進行大規模改造。

對於普通人來說，這項研究的潛在價值在於：未來的AI醫療輔助系統，可能會因為這類技術而變得更加可信賴。不是因為AI變得全知全能，而是因為它學會了在推理過程中主動核查自己的每一步，在錯誤成為結論之前就把它攔下來。這和人類醫生在看診時會不斷翻查指南、核實記憶並沒有本質區別——只是換了一種機器實現的形式。

對這套系統感興趣的讀者，可以通過arXiv編號2604.09482找到完整的論文，研究團隊也在論文中提供了代碼和數據的公開訪問地址。

---

**Q&A**

Q1：過程獎勵智能體（PRA）和普通的檢索增強生成（RAG）有什麼本質區別？

A：RAG是把檢索到的文獻直接塞進AI的輸入框，讓AI在生成答案時參考這些文獻。PRA則不同，它把檢索出來的文獻交給一個獨立的評估者（PRA本身），用來判斷AI已經寫出來的某一步推理是否正確，而不是修改AI的輸入內容。這個區別非常關鍵：RAG改變了AI"看到了什麼"，PRA改變的是"哪條推理路徑被選中繼續走下去"。AI推理者始終在自己原本的知識範圍內工作，不會被塞進來的外部文檔干擾。

贊助商廣告

Q2：PRA在訓練時只用了Qwen3-4B的數據，為什麼對別的模型也有效？

A：因為PRA本質上是在判斷"一段醫學推理是否合理"，這個判斷標準依賴的是醫學邏輯的正確性，而不是某個特定模型的寫作風格。不同的語言模型雖然輸出的語言風格各有差異，但正確的推理步驟在醫學上是正確的，錯誤的推理步驟在醫學上是錯誤的，這個標準是跨模型通用的。所以PRA學到的判斷能力，可以遷移到從未見過的模型上，就像一位經驗豐富的主任醫師可以評判任何年資的醫生的病曆書寫，不管他們的文風如何不同。

Q3：PRA能用於醫學之外的其他領域嗎？

A：從理論上完全可以。PRA的核心框架——一個獨立的實時評估模組，結合外部知識檢索，通過束搜索引導推理路徑——並不是醫學專屬的設計。只要一個領域滿足兩個條件：推理過程可以分解為若干中間步驟，並且存在可以檢索的外部知識庫，PRA的框架就可以被移植過去。例如法律案例分析、科研文獻綜述、複雜工程診斷等場景，都具備這兩個條件。不過當前的實驗只在醫療領域進行了驗證，其他領域的實際效果還需要專門的研究來確認。