當AI醫生「拿不定主意」時，反而救了更多人——KAIST提出讓大語言模型學會辯證思考的臨床風險預測框架TRIAGE

這項研究由韓國科學技術院（KAIST）聯合人工智慧公司AITRICS以及威斯康星大學麥迪遜分校共同完成，發表於2026年6月，論文編號為arXiv:2606.09030。感興趣的讀者可通過該編號在arXiv平台上查閱完整論文。

贊助商廣告

每天，世界各地的重症監護室里都上演著同樣的場景：醫生需要在海量的生理監測數據中，快速判斷哪位患者情況最危急，需要立即介入。心率、血壓、血氧、血液化驗……這些數字以不規則的頻率被記錄下來，有時每隔幾分鐘，有時相隔數小時，構成了一張密密麻麻、參差不齊的數據網路。用專業術語來說，這叫做"不規則採樣的醫療時間序列數據"，而對醫生來說，這就是他們每天面對的真實世界。

現在，研究人員希望用人工智慧來輔助這項判斷。然而，當他們把最先進的大語言模型引入這個場景時，卻發現了一個令人頭疼的問題：AI太"自信"了。它總是斬釘截鐵地說"這個人會死"或者"這個人沒事"，卻從來不說"這個人大概有三成的風險"。這種過度自信不但沒有幫助，反而讓醫生無法據此對不同患者進行排序，不知道該先處理誰。

這支研究團隊的貢獻，就是找到了這個問題的根源，並提出了一個他們稱之為TRIAGE的解決框架——字面上是"分診"的意思，也是"通過檢查不同結果來做有根據的風險估計的時間序列推理"的英文縮寫。TRIAGE的核心思路說起來並不複雜：讓AI在給出判斷之前，同時為"患者會康復"和"患者會死亡"這兩種可能分別寫出支持理由，就像一個辯手要同時準備正反兩方的論點一樣，然後再根據這場內心的辯論給出最終的概率判斷。實驗結果顯示，這套方法讓AI的區分能力提升了3.3%，同時把校準誤差——也就是AI"說話算數"的程度——降低了整整81%。

一、AI醫生為什麼總是"非此即彼"

要理解TRIAGE解決了什麼問題，得先理解問題本身是怎麼來的。研究團隊在正式提出方法之前，做了一系列偵探式的調查工作，專門追蹤AI為什麼會在臨床風險預測上表現失常。

贊助商廣告

他們用一個頂級的大語言模型在真實的重症監護室數據集上做實驗。當這個模型只被要求直接回答"這個患者會死嗎？"時，它給出的預測概率在不同患者之間有一定的差異，平均概率大約是86.4%，但標準差有18.8%——這意味著有些患者它認為危險，有些患者它認為安全，至少還有基本的區分能力。

然而，當研究人員要求模型先給出分析思路再做判斷——這是當下最流行的"思維鏈"做法——情況急轉直下。幾乎對每一個患者，模型給出的死亡概率都超過了99.98%，方差趨近於零。換句話說，它認為幾乎所有人都必死無疑，這樣的判斷根本無法用來區分風險高低。

研究人員把這個現象命名為"風險極化問題"。就像一個推薦系統如果對所有電影都給五星評價，那它的評分就毫無參考價值一樣，一個對所有患者都預測100%死亡的風險系統，也失去了存在的意義。

通過仔細分析AI生成的推理過程，研究團隊找到了兩個根本原因。第一個原因是"預先定罪"：AI在推理的過程中往往會在最後幾句話給出一個明確的裁決，比如"因此，這位患者很可能會死亡"，然後緊接著才是最終的答案標記。這個裁決句出現後，AI幾乎無法再做出相反的判斷——它已經被自己的前一句話"綁架"了。研究團隊通過讓另一個AI擔任裁判來檢驗這一點，發現高達71.7%的推理過程都包含這種預先裁決句。

第二個原因是"單邊確認偏誤"：AI傾向於只尋找支持自己初始判斷的證據，而忽略相反的證據。醫學現實是，一個重症患者的數據往往同時包含病情惡化的信號和病情穩定的信號——腎功能可能在下降，但血壓可能在好轉。AI的推理卻經常只挑其中一面來說。研究團隊設計了一個簡單的驗證：在提示詞裡加上一句"請同時權衡患者存活和死亡的證據，再做判斷"，結果AI的區分精度（AUPRC指標）從27.8%提升到了30.2%，校準誤差也顯著下降。這說明單邊推理確實是個系統性的缺陷，而雙邊推理是更好的思維慣性。

贊助商廣告

這兩個發現成為了TRIAGE整個設計哲學的基石：要讓AI在推理時同時站在控辯雙方，然後從它生成的完整推理文本中提取一個連續的、可比較的風險概率，而不是用一個強制性的語言裁決來"鎖死"答案。

二、TRIAGE是怎麼工作的：一場有組織的辯論

TRIAGE的運作方式，可以用法庭辯論來理解。傳統方法就像只讓檢察官發言，然後立刻宣判；而TRIAGE的做法是讓檢察官和辯護律師都充分陳詞，法官在聽完雙方論點之後，根據自己的內心確信程度來判斷勝訴概率——而這個"內心確信程度"，就是最終輸出的風險分數。

具體來說，當TRIAGE面對一個患者的數據時，它會生成兩份獨立的分析報告。第一份報告假設這個患者最終康復出院，然後在實際觀測到的數據中尋找所有支持這一假設的證據：哪些指標是正常的，哪些趨勢是向好的，哪些信號顯示器官功能在恢復。第二份報告則假設這個患者最終在院內死亡，同樣在真實數據中尋找支持證據：哪些指標異常升高，哪些趨勢在惡化，哪些信號預示著多器官衰竭。

這兩份報告的順序可以互換，研究團隊實際上同時訓練了兩個順序的版本，這樣的數據增強讓模型更加穩健。

關鍵的創新在於最後一步如何得出風險分數。傳統方法是讓AI說"我選擇1（代表死亡）"，然後從AI對"1"這個詞的語言概率里提取置信度。TRIAGE的做法不同——它在兩份報告之後只設置了一個簡單的"最終決策"標記，然後讀取AI在此位置對"0"（代表康復）和"1"（代表死亡）這兩個詞的對數概率，做一個簡單的歸一化，得到的就是風險分數。

為什麼這樣做更好？因為在兩份辯詞都已經呈現完畢之後，AI還沒有被任何一方的裁決句"綁架"，它只是安靜地站在那個決策位置上，受到所有已展示證據的共同影響，因此輸出的概率能更真實地反映兩方證據之間的相對強弱，而不是被最後那句"因此，患者必死無疑"所主導。

贊助商廣告

在數據的處理上，TRIAGE遵循了一個原則：只用患者真實觀測到的數據，拒絕發明任何不在記錄中出現的資訊，如果某種結果根本找不到支持證據，就讓對應的辯詞區域留空。這個約束保證了推理的誠實性，防止AI在沒有依據的情況下捏造臨床細節。

三、讓小模型學會辯證思考：兩階段訓練流程

TRIAGE最終運行在一個相對小型的開源語言模型上（Qwen3-4B，即30億參數的版本），這個模型的規模遠小於那些商業閉源的頂級模型。要讓它學會這種辯證推理，研究團隊設計了一套兩階段的訓練方案。

第一階段叫做"辯證推理監督"。這一階段的目標，是讓小模型學會生成那兩份獨立的支持性分析報告。為了構建訓練數據，研究團隊先用強大的商業模型（對於公開數據集使用GPT-5.1，對於需要保密處理的數據集使用在本地運行的Kimi K2 Thinking）來為每個患者生成這兩份報告。生成過程中有嚴格的規定：不允許在寫"康復支持理由"時提到"死亡的可能性"，也不允許在寫"死亡支持理由"時提到"康復的可能性"，每份報告必須是純粹的單邊論證，不包含任何對立方的內容。然後，把這兩份報告加上真實的結果標籤，作為訓練樣本，用標準的監督微調方法訓練小模型。

由於醫療數據中陽性病例（如死亡、膿毒症發作）的比例遠低於陰性病例，研究團隊針對少數類別多生成了幾份不同的訓練樣本。對於死亡率在14%左右的數據集，每個少數類別樣本生成3份不同的辯論記錄；對於陽性率只有4%的膿毒症預測數據集，則生成6份。這樣既增加了數據多樣性，又解決了類別不平衡問題，比簡單地重複複製少數樣本要聰明得多。

第二階段叫做"自我精煉"。經過第一階段訓練後，小模型能夠生成看起來不錯的辯論推理了，但它仍然有一個隱患：訓練時它看的是別人（強大商業模型）寫的推理，而實際使用時它要依賴自己寫的推理。這就像一個學生靠背誦範文學習寫作，但考試時必須靠自己即興發揮。這種"訓練與推理不一致"的問題在語言模型領域是個經典難題。

贊助商廣告

為了彌補這個差距，研究團隊採用了強化學習的方法——具體來說是一種叫做"群組相對策略優化"（GRPO）的技術。簡單來說，就是讓小模型自己生成一批推理過程，然後根據這些推理的質量給予獎勵或懲罰，讓模型從自己的嘗試中學習改進。

這裡有一個非常聰明的設計：獎勵信號不是只看單個患者的預測對不對，而是在一個批次的患者中，比較高風險組和低風險組的預測分數能否被清晰地區分開。具體的做法是，對於一個真實死亡患者，把它的預測分數和批次內所有真實存活患者的分數做比較，用一個類似"間距懲罰"的公式來衡量區分程度；反之亦然。這種批次級別的獎勵設計，迫使模型不只是學會把每個患者判斷正確，還要學會在不同患者之間建立合理的相對風險排序——這正是醫療分診的核心需求。

四、實驗驗證：在三個真實數據集上的考驗

研究團隊在三個經過廣泛使用的真實重症監護數據集上驗證了TRIAGE的效果，這三個數據集分別是PhysioNet 2012挑戰賽數據（P12）、PhysioNet 2019挑戰賽數據（P19）和著名的MIMIC-III資料庫。P12和MIMIC-III的任務是預測患者是否會在住院期間死亡，P19的任務是預測患者是否會在未來6小時內發生膿毒症（一種危及生命的全身性感染反應）。三個數據集都有嚴重的類別不平衡問題，陽性病例（需要預測的危險事件）只占4%到14%。

評估指標上，研究團隊重點關注兩類：一類是區分能力，用AUROC（受試者工作特徵曲線下面積）和AUPRC（精確率-召回率曲線下面積）來衡量；另一類是校準精度，用ECE（期望校準誤差）和Brier分數來衡量。其中AUPRC被視為主要指標，因為在嚴重類別不平衡的場景下，它比AUROC更能真實反映模型的實際使用價值。

參與比較的基準方法分為兩類。第一類是專門為不規則時間序列設計的深度學習模型，包括基於循環神經網路的GRU-D、基於注意力機制的mTAND、基於集合函數的SeFT、基於圖神經網路的Raindrop、基於Transformer的STraTS、基於視覺Transformer的ViTST，以及兩個最新發布的圖神經網路模型KEDGN和Hi-Patch。第二類是直接用大語言模型進行零樣本推理，包括OpenAI最新的GPT-5.1和開源的gpt-oss-120b（一個擁有1170億參數的稀疏專家混合模型）。

贊助商廣告

結果顯示出幾個清晰的規律。零樣本大語言模型的表現令人失望，兩者在所有六個主要指標上都排在最後，平均排名分別是10.50和11.67。這驗證了一個常識：直接把通用AI扔到醫療專業任務上，在沒有任何適配的情況下，它的表現往往還不如專門設計的小模型。

僅經過第一階段監督微調的TRIAGE版本（TRIAGE-SFT），平均排名就已經達到4.25，與最強的專門模型GRU-D（3.42）、KEDGN（4.00）和STraTS（4.08）處於同一水平。經過完整兩階段訓練的TRIAGE（TRIAGE-SFT+RL），平均排名躍升至1.58，在所有六個指標上要麼排第一，要麼排第二。

在校準誤差方面，完整版TRIAGE的優勢尤為突出。三個數據集上的平均ECE分別降到了0.04、0.04和0.03，而專門模型的ECE通常在0.17到0.21之間，零樣本語言模型的ECE則高達0.23到0.32。換句話說，當TRIAGE說"這個患者有40%的死亡風險"時，在所有這樣的患者中，大約真的有40%的人最終死亡；而其他模型給出的概率往往只是一個經過扭曲的參考數字，無法直接信任。

在面對數據缺失時的魯棒性方面，研究團隊模擬了真實臨床中"部分檢測結果缺失"的場景：隨機刪除10%到50%的監測變量，然後測試模型的表現下降程度。在P12數據集上，TRIAGE在區分能力上與最強基準基本持平；在MIMIC-III數據集上，它在幾乎所有缺失比例下都領先於所有對手。這說明TRIAGE不只是在數據完整的理想條件下好用，在真實的臨床混亂環境中同樣穩定。

五、消融實驗：每個設計決策都有它的道理

為了證明TRIAGE的每個設計元素都在發揮作用，研究團隊做了一系列對比實驗，逐一拆解各個組件。

在推理結構上，他們比較了三種方案：只給答案不給推理的"純分類器"模式、只給單邊支持理由的"單方辯護"模式，以及完整的雙邊辯證模式（TRIAGE）。結果是，純分類器模式的AUROC達到86.4%，AUPRC達到53.4%，能用但沒有任何解釋能力。單邊辯護模式就尷尬了：不但不能提供有用的推理，連預測性能都比純分類器差——即使用10次採樣取平均來彌補，AUROC只有83.8%，AUPRC只有43.1%。這證明了一件事：如果AI的推理是單邊的、帶有確認偏誤的，那這個推理本身就是有毒的，它不僅沒有幫助，還會主動傷害預測質量。只有雙邊辯證推理才能同時保證預測性能（AUROC 86.9%，AUPRC 56.4%）和解釋價值。

贊助商廣告

在強化學習的獎勵設計上，研究團隊比較了批次級別獎勵和樣本級別獎勵的區別。樣本級別獎勵只關心這個患者自己有沒有被預測對，批次級別獎勵則進一步要求模型在不同患者之間建立正確的相對排序。實驗證明，批次級別獎勵在區分能力（AUPRC更高）和校準精度（ECE和Brier分數均更低）上都顯著優於樣本級別獎勵。這背後的邏輯很直觀：醫療分診本質上是一個排序問題，必須知道誰比誰更危險，而不只是知道每個患者是否超過了某個絕對閾值。

在數據量極度有限的場景下，TRIAGE的優勢進一步凸顯。當只使用1%的訓練數據時，TRIAGE比最強基準GRU-D在AUROC上高出4.4個百分點，在AUPRC上高出11.1個百分點。隨著訓練數據增多，兩者的差距逐漸縮小，在10%的訓練數據下基本持平。這個規律說明，TRIAGE因為繼承了預訓練語言模型中蘊含的大量醫學知識，在標註數據稀缺時能更好地發揮這些先驗知識的價值；而隨著數據增多，專門訓練的深度學習模型逐漸追上來。

在骨幹模型的選擇上，研究團隊測試了Qwen3家族的1.7B、4B（默認）和8B三個規模，以及來自不同架構系列的Llama 3.2 3B。結果是TRIAGE在所有骨幹上都穩定地超越了對應的基準，說明辯證推理監督方法本身的效果不依賴於特定的模型選擇。

六、AI說的理由，醫生能信嗎

光有好的預測數字還不夠。研究團隊專門評估了TRIAGE生成的臨床推理文本的質量，畢竟一個向醫生呈現錯誤甚至荒謬推理的AI系統，不管預測多准，都難以被臨床接受。

評估標準採用了醫學教育領域廣泛使用的IDEA評估工具，該工具通過四個維度來衡量臨床推理文本的質量：解釋性摘要（患者的整體情況有沒有被準確概括）、鑑別診斷（有沒有考慮多種可能的解釋）、主要診斷論證（對主要判斷有沒有給出數據支撐）、替代診斷解釋（對另一種可能性有沒有給出合理的反駁或說明）。四個維度的滿分分別是4、2、2、2，總分10分。

贊助商廣告

作為對比基準，研究團隊對專門模型STraTS應用了整合梯度（一種後處理的可解釋性方法）來提取重要特徵，然後再讓GPT-5.1把這些特徵翻譯成自然語言解釋。這是目前最常見的"給深度學習模型加解釋"的做法。

在200個隨機抽取的案例上，由三個不同的評估模型（GPT-5.1、Claude Sonnet 4.5和Gemini 3 Flash）獨立評分，每個模型對每個案例打三次，取平均。結果是TRIAGE的總分為7.744，STraTS加事後解釋的總分為6.474，差距達到了1.27分，相當於提升了約20%。

最大的提升來自解釋性摘要維度（+0.902），說明TRIAGE對患者的整體風險狀況和病情軌跡的把握更為準確和全面。替代診斷維度也有明顯改善（+0.288），這與TRIAGE天然要求考慮雙方證據的設計完全吻合。

研究團隊還做了兩個生動的案例分析。一個是實際存活的患者，STraTS的事後解釋出現了明顯的醫學錯誤：它把格拉斯哥昏迷評分15分（代表神志完全清醒，是好事）列為了支持死亡判斷的證據，同時把碳酸氫鹽偏低（通常提示代謝性酸中毒，是壞事）列為支持存活的證據——兩處判斷都與醫學常識相悖。TRIAGE的推理則沒有這類錯誤，而且它注意到了患者尿量從早期極低水平逐漸恢復到正常的動態趨勢，將其解讀為腎臟灌注改善的信號，而STraTS的解釋只是靜態地提到後期的尿量數值，完全丟失了這個臨床上更有意義的趨勢資訊。

另一個是實際死亡的患者，其血清鉀濃度高達10.0 mmol/L——這是可能導致致命性心律失常的極度高鉀血症（正常值約在3.5-5.0之間）。這個最關鍵的死亡信號完全沒有出現在STraTS的重要特徵里。反而，STraTS把WBC（白細胞計數）23.3（屬於白細胞增多症，提示嚴重感染或炎症，是壞信號）列為了支持存活的證據。TRIAGE則明確識別並解釋了高鉀血症的致命危險，以及升高的肌鈣蛋白T（心肌損傷標誌物）的臨床意義，同時在"存活支持理由"一側指出血鉀後續逐漸下降至正常範圍這一有意義的好轉信號。

贊助商廣告

在幻覺（AI捏造不存在資訊）的問題上，研究團隊讓評估模型檢查了200份推理記錄，發現只有3份（1.5%）存在嚴重幻覺，主要是錯誤引用了患者記錄中不存在的檢測指標或誤讀了某個數值。研究團隊認為，這個低幻覺率得益於數據構建階段的嚴格規定：明確要求AI在找不到支持證據時留空，而不是編造內容。

說到底，TRIAGE做到的事情有點像一位經驗豐富的主治醫生的思維方式：在給出最終判斷之前，他會在腦海中同時過一遍"這個人為什麼可能沒事"和"這個人為什麼可能有危險"，權衡兩方面的證據，然後再說出自己對風險高低的判斷。把這種思維方式顯式地編碼進AI的訓練流程，而不是期望AI自然而然地產生，正是這項研究最核心的洞見所在。

這意味著什麼？至少在工具層面，臨床醫生未來可能面對的不再是一個總是說"這個人必死無疑"的武斷AI，而是一個能說"我認為這個患者死亡風險大約是七成，主要因為血鉀極度異常和持續性神志障礙，但也有一些好的跡象，比如腎功能指標在小幅改善"的系統。前者只會增加醫生的困惑，後者才有可能真正成為值得信賴的輔助工具。

當然，TRIAGE還有一些明顯的局限性值得誠實地說出來。它目前只處理了二分類任務（死亡與否、膿毒症與否），還沒有擴展到多分類或多標籤的複雜臨床場景。它的推理過程需要生成大量文字，運行速度比GRU-D這類輕量模型慢很多，在需要極低延遲響應的緊急場景下會有壓力。評估推理質量時使用的是AI擔任裁判的方法，而非真正的臨床專家評審，這在方法論上仍有改進空間。生成的推理文本雖然大多數時候準確，但仍有1.5%的嚴重幻覺率，這在臨床應用中不容忽視。

歸根結底，這項研究展示了一條值得認真探索的路徑：與其把語言模型當作一個黑箱分類器來用，不如利用它擅長生成結構化論證的能力，把臨床推理的過程顯式化、可審查化，從而同時提升預測精度和解釋可信度。醫療AI的終極目標，從來不只是預測準確，而是讓醫生能夠理解、信任並有效利用AI的判斷——TRIAGE在這個方向上邁出了一步。

贊助商廣告

---

Q&A

Q1：TRIAGE框架是什麼，和普通AI醫療預測有什麼不同？

A：TRIAGE是由KAIST等機構提出的臨床風險預測框架，核心區別在於它讓AI在給出死亡風險分數之前，同時寫出支持"患者康復"和"患者死亡"兩方面的獨立分析理由，模仿辯論中的正反兩方陳詞。而普通方法要麼只輸出概率（沒有解釋），要麼只給出單邊推理（導致預測概率極端化、不可比較）。TRIAGE通過這種雙邊辯證結構，同時解決了預測準確性和推理可解釋性的問題。

Q2：為什麼大語言模型在醫療預測里表現反而差？

A：研究發現，當大語言模型被要求先推理再預測時，會產生"風險極化"現象——幾乎對所有患者都給出接近100%的死亡概率，失去了區分不同患者風險高低的能力。根本原因有兩個：一是推理過程會在最後出現明確的裁決句，提前"鎖死"答案；二是推理內容通常只呈現單方面證據，存在確認偏誤。這兩個問題導致最終的概率分數毫無參考價值，而專門針對醫療時間序列設計的深度學習模型反而因為沒有這種偏誤而表現更好。

Q3：TRIAGE的批次級別獎勵設計是怎麼工作的？

A：在強化學習階段，TRIAGE的獎勵不只看單個患者預測對不對，而是在一批患者中比較高風險組和低風險組能否被清晰區分。對於每個真實死亡患者，系統會拿它的預測分數和批次內所有真實存活患者的分數對比，用間距懲罰公式來量化"區分程度"作為獎勵信號。這種設計讓模型不只追求單個案例的正確率，而是主動學習在不同患者之間建立合理的相對風險排序，更符合醫療分診"誰比誰更危險"的核心需求，實驗證明它比單純的樣本級別獎勵在區分能力和校準精度上都更優。