斯坦福大學和根特大學聯手：讓AI讀懂胸片，一套「集合距離」獎勵機制徹底改變醫學報告生成方式

這項由斯坦福大學電氣工程系、斯坦福大學醫學院生物醫學數據科學系以及根特大學數學建模、統計與生物資訊學系聯合開展的研究，以預印本形式於2026年5月30日發布，編號為arXiv:2606.00440。感興趣的讀者可以通過該編號在arXiv平台查閱完整論文。

贊助商廣告

每一張胸部X光片背後，都有一份放射科醫生寫下的報告。這份報告可能只有寥寥幾句，卻關係到患者的診斷方向和治療方案。全球每年拍攝的胸片數量以億計，而有資質的放射科醫生卻始終是稀缺資源。人工智慧輔助生成放射科報告的研究，正是為了讓這個瓶頸鬆動一些——不是讓機器取代醫生，而是幫助醫生更快、更準確地完成這項繁重的工作。

然而，要讓AI寫出一份像樣的胸片報告，遠不如訓練AI解數學題那麼簡單。這項研究的出發點，正是揭開這背後一個被長期忽視的根本矛盾：現有的AI訓練方式，其實根本不適合胸片報告這類任務。研究團隊由此提出了一套全新的獎勵機制，不僅在訓練階段讓AI學得更好，還在推理階段讓AI用更少的資源選出更好的答案。

一、為什麼用"標準獎勵"訓練AI寫胸片報告，是一件南轅北轍的事

在人工智慧領域，訓練一個模型的核心手段之一，就是設計一套獎勵機制——做對了給獎勵，做錯了給懲罰。近年來，一種叫做強化學習的訓練方式在語言模型領域大放異彩，尤其是在數學推理和編程任務上。它的原理是：讓模型生成多個答案，然後根據答案的對錯給予獎勵，模型從獎勵信號中學習如何做得更好。

這種方式在數學題上效果驚人，原因在於數學題有一個明確的正確答案，而且解題過程有清晰的步驟順序——每一步推理是否正確，都可以被嚴格驗證。但胸片報告根本不是這樣一種結構。

放射科醫生在寫胸片報告的"發現"部分時，會記錄下他們在圖像中觀察到的各種情況，比如"心臟略有擴大"、"左肺基底部有少量積液"、"未見氣胸"。這些發現彼此獨立，沒有固定的先後順序，也沒有邏輯上的因果鏈條。醫生可以先寫心臟，再寫肺部，也可以反過來——順序不同，報告的臨床含義完全一樣。

贊助商廣告

這就帶來了一個棘手的問題：如果用"完全匹配"來衡量AI生成的報告好不好，那AI寫出的報告只要和標準答案的句子順序不同，就會被判定為錯誤。這就好比你去參加一道菜的烹飪比賽，評委說你先放鹽再放糖就算輸，但實際上先放糖再放鹽做出來的菜味道完全一樣。這種評判標準，顯然是對廚師的不公平，也無法真正衡量廚藝的高下。

更根本的問題在於，用強化學習訓練時，通常需要給每一步推理評分，這叫做"過程獎勵"。但胸片報告的各條發現並不是一步一步推導出來的，不存在"因為A所以B"這樣的推理鏈條，強行為每一步評分既沒有意義，也找不到可靠的依據。

研究團隊清醒地認識到這一矛盾，並決定從根本上重新設計獎勵機制。

二、把報告變成"無序的句子集合"：一個優雅的解決思路

解決方案的核心，是改變看待報告的方式。與其把一份報告視為一段有順序的文字，不如把它看作一個由獨立句子組成的"集合"——就像一袋彈珠，你抓起來的時候不在乎哪顆先出來，只在乎裡面有哪些顆。

具體的做法是這樣的：研究團隊先用一個預先訓練好的"句子理解模型"（研究中使用的是all-mpnet-base-v2，一個專門把句子轉化為數字向量的工具），把報告中的每一個句子都變成一個高維空間中的點。每個句子對應一個點，整份報告就對應一個點的集合。這個集合是無序的，完全不在乎句子原來的排列順序。

胸片報告通常分為兩個部分：一是"發現"（Findings），描述圖像中觀察到的客觀情況；二是"印象"（Impression），是醫生基於發現得出的綜合判斷。研究團隊對這兩個部分分別進行這種"集合化"處理，每個部分得到一個獨立的句子嵌入集合。

有了這種表示方式，接下來的問題就變成了：如何衡量AI生成的報告集合，和標準參考報告集合之間的距離有多遠？距離越近，說明AI寫得越好，獎勵就越高；距離越遠，獎勵就越低。這就是"集合距離獎勵"（Set-Distance Reward，簡稱SDR）的核心思路。

贊助商廣告

三、量尺的選擇：用"集合距離"衡量兩份報告有多像

衡量兩個集合之間距離的方式有很多種，研究團隊系統地探索了多種方案，並在訓練中重點使用了其中兩種——Chamfer距離和Hausdorff距離。

Chamfer距離的計算方式可以這樣理解：對於AI生成報告中的每一個句子，找出參考報告中和它最像的那個句子，記錄下它們之間的"不像程度"；同樣，對參考報告中的每個句子，也找出AI報告中最像的那個，記錄不像程度。把兩個方向的平均值加起來，就得到了Chamfer距離。這個距離越小，說明兩份報告的內容越接近。它像是一種"軟覆蓋"檢查：只要AI生成的每個句子在參考報告中都能找到相似的對應，且參考報告的關鍵內容也被AI覆蓋了，距離就會比較小。

Hausdorff距離則更加嚴苛。它不看平均情況，只看最壞情況——兩份報告中，哪一對句子"最不像"，那個最壞情況就決定了整體的Hausdorff距離。這就像一個挑剔的主考官，不管你其他題目答得多好，只要有一題答得很差，總分就會被拉低。對於已經經過監督訓練的模型來說，Hausdorff獎勵特別適合懲罰那些"偶爾離譜"的生成——如果AI在某個臨床發現上寫出了和參考完全不同甚至矛盾的內容，這個獎勵機制會立即察覺並給出懲罰。

除了這兩種主要距離，研究團隊還探索了最優傳輸距離（Wasserstein距離）、Sinkhorn距離、匈牙利匹配距離、部分最優傳輸距離等多種方案，並系統評估了它們在推理時段選擇最佳報告的效果。

在訓練時，除了這個語義距離獎勵之外，研究團隊還加入了一個簡單的格式獎勵：要求模型必須按照規定的模板輸出，把"發現"部分放在``標籤里，把"印象"部分放在``標籤里，格式不對就不給獎勵。這兩個獎勵疊加在一起，共同引導模型輸出既有正確格式、又有正確內容的報告。

四、訓練結果：集合距離獎勵讓三個模型都脫胎換骨

贊助商廣告

研究團隊在兩個大型數據集上驗證了這套方案：一個是醫學界廣泛使用的MIMIC-CXR數據集（訓練集約18萬條，驗證集約4.5萬條），另一個是最近公開的RexGradient數據集（訓練集約24萬條，驗證集約1.7萬條）。實驗涉及三個不同的視覺語言模型：Qwen3-VL-2B、Qwen3-VL-4B和Gemma3-4B，規模分別在20億和40億參數左右。

每個模型先經過監督微調（SFT）——就是直接拿正確答案餵給模型，讓它學習模仿——然後再用不同的獎勵配置進行GRPO後訓練。對比的基線方案包括：只有監督微調（SFT）、只用格式獎勵（Rfmt）、用精確匹配獎勵（Rexact，判斷AI輸出是否和參考完全一致）、以及研究團隊提出的Chamfer獎勵（RCham）和Hausdorff獎勵（RHaus）。

評估採用了多種指標，覆蓋兩大類：一類是基於文本相似度的指標，包括BERTScore F1（用語言模型衡量語義相似度）、COMET（機器翻譯質量評估指標）、METEOR、ROUGE和BLEU等；另一類是專門針對放射科報告的臨床指標，包括RadGraph F1（評估報告中臨床實體和關係的準確性）和CheXbert F1（評估14種常見胸部病變的標籤是否正確識別）。

在RexGradient數據集上，Chamfer獎勵在所有三個模型的幾乎所有指標上都是最佳，平均而言BERTScore F1比監督微調基線提升約6.80%，RadGraph F1提升約7.82%，CheXbert F1提升約4.45%。精確匹配獎勵（Rexact）表現最差，在多數情況下甚至不如只進行監督微調——這印證了研究團隊最初的判斷：對於胸片報告這類任務，精確匹配根本不是合適的獎勵信號。

在MIMIC-CXR數據集上，Hausdorff獎勵表現最佳，Chamfer也名列前茅，兩者都大幅超越精確匹配獎勵和僅格式獎勵的方案。這個數據集的結果進一步表明，集合距離獎勵在不同數據規模和分布下都具有穩健性，而哪種集合距離更優則可能因數據特性不同而有所差異。

這些結果在5個不同隨機種子上重複驗證，標準差普遍較小，說明結論的穩定性良好，並非偶然。

贊助商廣告

五、推理時的妙用：不訓練，只靠"集合距離"選出最好答案

集合距離獎勵的價值不僅限於訓練階段。研究團隊發現，同樣的距離計算邏輯，在推理時也可以大顯身手。

具體做法是：對於每一張測試圖片，讓模型生成K個候選報告（實驗中K=5）。然後，把每個候選報告轉化成句子嵌入集合，再和訓練集中隨機抽取的5000份真實報告的嵌入集合進行比較，計算候選報告到訓練分布的距離。距離最小的那個候選報告，就是最終選出的答案。

這個邏輯的直覺非常樸素：訓練數據里都是真實放射科醫生寫的報告，它們代表了臨床上合理、規範的表達方式。如果AI生成的某個候選報告，其句子嵌入在語義空間中離這些真實報告最近，那它就是最像真實報告的一個，最有可能是高質量的輸出。

距離的聚合方式有三種選擇：取所有訓練報告距離中的最小值（Dmin，問的是"這個候選報告是否和某一份真實報告非常接近"）、取平均值（Davg，評估候選報告和整個訓練集的平均匹配程度）、以及取K近鄰平均（DkNN，取最近的K份訓練報告的距離平均，對噪聲更魯棒）。

這套推理時選擇方案的最大優勢，在於它完全不需要修改模型參數，不需要任何梯度更新，只需要預先計算好訓練報告的嵌入集合併儲存在磁盤上，推理時直接查詢即可。而且，嵌入計算可以並行進行，不需要GPU，額外成本極低。

更重要的是，這套方案甚至可以用於那些完全無法進行參數調整的封閉商業模型，比如GPT-4o-mini、Gemini Flash-Lite和Mistral-Small。研究團隊分別用兩種不同的提示詞模板（一種零樣本提示，一種包含五個示例的少樣本提示）讓這些商業模型生成候選報告，然後用集合距離進行選擇，結果同樣優於隨機選擇基線。

在Findings部分，BERTScore F1相對於隨機選擇的平均提升幅度約為16.4%，其中Mistral-Small在RadGraph F1上提升最高達47.2%，Gemini Flash-Lite在BERTScore F1上提升達20.6%，GPT-4o-mini在BERTScore F1上提升達18.7%。這些結果表明，即便是性能強大的商業模型，其隨機生成的候選中也存在相當大的質量差異，而集合距離可以有效地幫助篩選出更好的候選。

贊助商廣告

六、邊生成邊剪枝：用更少的算力達到同樣的效果

標準的"生成K個再選一個"方案有一個明顯的代價：必須把K個候選報告全部生成完畢，才能開始比較和選擇。這意味著計算成本是單次生成的K倍。

研究團隊提出了一個聰明的改進：在生成過程中實時計算每個候選和訓練分布的距離，動態地將分數低的候選提前終止。

具體流程是這樣的：K個候選報告同步開始生成，每生成一個新句子，就更新每個候選當前已生成部分的句子嵌入集合，重新計算它到訓練分布的距離。得分最低的那一半候選（實驗中剪枝比例設為0.5，即每輪淘汰一半）立即停止生成，不再繼續。這個"生成一句、評分、淘汰"的循環持續進行，直到只剩下最後一個候選，再把它生成完整。

這個方案的效果，是在保持和全量生成再選擇方案接近的報告質量的同時，大幅減少了需要生成的token總數。實驗結果顯示，在Mistral-Small、Gemini Flash-Lite、Gemini 3.1 Flash-Lite和GPT-4o-mini上，剪枝方案平均節省了42.1%到60.1%的生成token，而BERTScore F1、RadGraph F1和CheXbert F1相比隨機選擇分別平均提升了約12.7%、17.1%和6.2%，和全量生成再選擇方案相比質量下降極少。

值得一提的是，句子嵌入模型本身非常輕量——研究中使用的all-mpnet-base-v2模型大小只有420MB，遠小於被生成報告的大型語言模型（通常數十億參數、幾個GB起步）。因此，雖然剪枝方案需要在每個句子生成後額外進行嵌入計算和距離評分，但這個額外開銷相對於節省下來的大模型生成token是划算的。

七、實驗的全貌：多維度驗證的嚴謹性

這項研究在細節上表現出相當的嚴謹性。除了主要的訓練和推理實驗，研究團隊還做了多項補充分析。

在推理時選擇實驗中，研究團隊系統評估了所有可能的集合距離和聚合方式的組合，並用熱力圖直觀展示了每種組合在不同評估指標上相對於隨機選擇的提升幅度。總體來看，Chamfer+kNN、匈牙利匹配+kNN等組合在Findings部分表現最為穩健，而在Impression部分，部分組合的提升幅度更加顯著。

贊助商廣告

研究團隊還進行了一項分層分析，將測試樣本按照臨床複雜程度分為三組：無異常發現（504例）、單一異常發現（206例）和多項異常發現（290例）。結果顯示，集合距離選擇對無異常發現組的提升最為一致，對多項異常發現組的提升相對較小。這一發現有助於理解該方法的適用邊界。

研究還提供了若干定性案例展示，直觀地呈現了集合距離選擇機制是如何在實際案例中篩選出質量更高的報告的。在展示的案例中，被選中的候選報告在BERTScore F1上顯著高於被淘汰的候選，直觀地印證了距離機制和報告質量之間的關聯。

不過研究團隊也坦承了方法的局限性：剪枝方案需要在每個句子生成後進行額外的嵌入和距離計算，雖然這個計算可以在CPU上進行，但仍然增加了推理系統的複雜性。此外，訓練集嵌入的覆蓋範圍和質量，也會影響推理時選擇的效果。

說到底，這項研究提供的不僅僅是一個更好的獎勵函數，而是對"如何讓AI更好地理解結構鬆散、內容無序的醫療文本"這一根本問題給出了一種系統性的思路回答。核心的洞見在於：當你要評價的對象本質上是一個無序集合而非有序序列時，就應該用集合的眼光去看待它，用集合的距離去衡量它，而不是削足適履地套用順序匹配的邏輯。

這個思路不僅在訓練階段起效，在推理階段同樣適用，而且可以無縫移植到那些無法修改參數的商業模型上。這對於臨床實踐有切實的意義：哪怕醫院或研究機構只有權使用商業API，也可以通過這種推理時的集合距離選擇機制，在不額外付費進行模型微調的情況下，顯著提升報告生成的質量。

隨著AI輔助醫學影像報告技術的不斷成熟，如何在保證質量的前提下降低計算成本，將是從研究走向實際部署的關鍵瓶頸。研究團隊提出的剪枝方案在這個方向上給出了一個有意思的早期探索——用"邊做邊評、做差就停"的策略代替"全做完再評"的策略，本質上是一種在線的質量控制機制。未來是否可以把這種實時評分的思路做得更細緻，比如在詞語級別而非句子級別進行評分和剪枝？這或許是後續研究可以探索的方向。

贊助商廣告

有興趣深入了解這項研究的讀者，可以通過arXiv編號2606.00440查閱完整論文，論文中還包含了詳盡的實驗參數設置、所有指標的完整結果表格以及更多定性案例。

Q&A

Q1：集合距離獎勵（SDR）和傳統的精確匹配獎勵有什麼本質區別？

A：傳統精確匹配獎勵要求AI生成的內容和標準答案完全一致，包括順序。但胸片報告中的各項發現本質上是無序的，順序不同不代表內容有誤。集合距離獎勵把報告中每個句子變成語義向量，忽略順序，只比較內容上的相似程度，更符合醫學報告的實際性質，因此訓練效果更好。

Q2：推理時的集合距離選擇方法可以用在GPT這類商業模型上嗎？

A：可以。這個方法不需要修改模型參數，只需要預先把訓練集中的真實報告轉化成句子嵌入並儲存好。推理時讓商業模型多生成幾個候選報告，再用集合距離找出和真實報告最接近的那個即可。實驗中GPT-4o-mini、Gemini Flash-Lite和Mistral-Small都通過這種方式獲得了顯著的質量提升。

Q3：剪枝方案在實際使用中能省多少計算資源？

A：實驗結果顯示，在Mistral-Small、Gemini系列和GPT-4o-mini上，剪枝方案平均能節省42%到60%的生成token數量，同時報告質量和全量生成再選擇的方案相差極小，比隨機選擇仍然有顯著提升。核心思路是邊生成邊評分，分數低的候選提前停止，不用等全部生成完再比較。