這項研究由西班牙巴塞羅那Sycai Technologies公司、龐培法布拉大學BCN Medtech實驗室聯合德國埃爾朗根大學醫院放射科、法國斯特拉斯堡大學ICUBE實驗室、法國雷恩第一大學INSERM UMR 1099實驗室、中國科學院深圳先進技術研究院、德國癌症研究中心、法國布雷斯特IMT Atlantique以及多家西班牙醫院共同完成,已作為預印本於2026年4月30日發布於arXiv平台,編號為arXiv:2604.27582。
一、一個外科醫生最怕聽到的問題
當一位患者被確診為胰腺導管腺癌(簡稱PDAC,一種極為兇險的胰腺癌類型)時,決定他能否接受手術的關鍵問題只有一個:腫瘤有沒有"爬"上旁邊的大血管?
這聽起來像是一個非此即彼的判斷,但現實遠比這複雜。外科醫生需要依靠CT掃描圖像來觀察腫瘤與周圍血管的接觸情況,這個過程被稱為"血管侵犯評估"。問題在於,腫瘤的邊界往往模糊,就像一團墨水滴在濕紙上,和周圍正常組織的界限混作一片,連經驗豐富的放射科醫生也會在同一張圖像上作出截然不同的判斷。
這就是這項研究的出發點。研究團隊提出了一個核心疑問:如果連人類專家對同一張CT圖像都無法達成共識,那麼我們應當如何訓練AI來處理這種"沒有標準答案"的臨床難題?更重要的是,我們應當如何公正地評價一個AI模型在這類任務上的表現?
為了回答這些問題,多個國際機構的研究者聯合建立了一套名為CURVAS-PDACVI的開放性基準測試體系,不僅公開了一個由五位獨立專家分別標註同一批CT圖像的珍貴數據集,還設計了一套超越傳統評分方式的多維評估框架,並舉辦了一場面向全球團隊的公開競賽。這是目前醫學AI領域針對胰腺癌血管侵犯評估最系統、最全面的基準研究之一。
二、"同一張CT,五個專家畫出五種腫瘤"——這才是真實的醫學世界
要理解這項研究的價值,首先需要理解一個令人有些不安的事實:在判斷胰腺腫瘤邊界這件事上,專家之間的分歧程度遠超大多數人的預期。
研究團隊構建數據集的方式本身就極具說服力。他們從一個名為PANORAMA的公開CT資料庫中挑選了125張掃描圖,這些圖像已經有一位放射科醫生做過初步標註。然後,他們將這些圖像分發給另外四位來自不同醫院、擁有不同經驗年限的認證放射科醫生,讓每個人獨立完成標註,互相之間完全不知道其他人畫了什麼。
最終,每張CT圖像擁有五套完全獨立的腫瘤輪廓標註。當研究團隊把這五套標註疊放在一起比較時,得到了一個令人震驚的數據:所有專家兩兩之間的平均一致性評分(用Dice係數衡量,滿分100表示完全一致)僅為58.4分,而且標準差高達25.7分。這意味著在相當多的病例中,兩位專家畫出的腫瘤區域幾乎沒有重疊。
研究中展示的兩個典型案例將這種分歧表現得淋漓盡致。在第一個案例中,五位專家對腫瘤的浸潤邊界各執一詞,標註出的腫瘤與血管的接觸面積相差懸殊。在第二個案例中情況更為極端——五位專家甚至標註了完全不同的解剖區域,仿佛他們在不同的圖像上尋找不同的東西。
深入分析這種差異後,研究團隊發現,專家的標註風格與其臨床經驗年限密切相關。擁有3年經驗的四號標註者與整體的平均一致性最高(60.19%),22年經驗的三號標註者緊隨其後(59.86%),而只有1年經驗的五號標註者則是最主要的"異類",平均一致性僅有55.33%。這種規律並不令人意外,但它說明了一個重要問題:當一個AI模型的"標準答案"僅來自單一標註者時,這個模型實際上學到的不過是某一位醫生的個人偏好,而非客觀的解剖事實。
在125張原始圖像中,研究團隊還發現了16張特別棘手的病例——至少有一位放射科醫生在這些圖像中根本找不到任何腫瘤可以標註,這些病例最終被排除在數據集之外。最終留下的109個病例被劃分為訓練集(40個)、驗證集(5個)和測試集(64個),研究團隊在劃分時格外注意平衡各組之間的患者性別、年齡分布、CT掃描儀品牌、腫瘤位置和腫瘤體積,以確保後續的模型比較不受樣本偏差的干擾。
除了腫瘤標註,研究團隊還安排了一位第五位放射科醫生對資料庫中原有的半自動血管標註進行精細化處理,將血管區分為五個獨立的解剖結構:主動脈、腹腔干、門靜脈、腸繫膜上靜脈(SMV)和腸繫膜上動脈(SMA)。這種精細化的血管分類對於後續按血管類型獨立評估腫瘤侵犯程度至關重要。
三、舊尺子量不出新問題——為何需要一套全新的評估標準
傳統的AI醫學分割模型評估方式,本質上就是把AI畫的輪廓和"標準答案"輪廓疊在一起,看看重合度有多高。這個重合度分數(也就是Dice係數)在很多任務上行之有效,但面對胰腺腫瘤這類本質上存在主觀模糊性的標註任務,它就顯得力不從心了。
打個比方:假設你要評估一名學生畫的地圖準不準確,但這張地圖上的海岸線本來就有五個版本,每位地理學家畫的都不一樣。這時候用任何一個版本作為唯一標準來評分都是不公平的。更合理的方式是,看學生畫的線條有沒有體現出這五個版本共同認可的部分,同時也看他有沒有合理表達那些存在爭議的區域。
研究團隊針對這個問題設計了四類互補的評估指標。第一類是傳統的分割質量評估,包括標準Dice係數(把AI的二值化預測與STAPLE共識結果比較)和一個經過改進的閾值平均Dice分數(Thr-DSC),後者通過在多個概率閾值上反覆計算重合度,既評估了AI的硬性分割質量,也評估了它與五位專家綜合意見的吻合程度。
第二類是多標註者校準評估(MR-ECE)。這個指標評估的不是AI畫得準不準,而是AI表達的自信心是否符合實際。好的AI模型在不確定的地方應該表現出猶豫,在確定的地方才表現出堅定。MR-ECE通過把AI的概率預測分別與每位專家的標註進行比較來計算,最終結果反映了AI的自信程度與五位專家之間真實分歧程度的匹配情況。
第三類是概率體積評估(CRPS)。不同專家標註的腫瘤體積會有差異,這些差異本身就構成一個分布。一個好的AI模型輸出的預測體積,應當落在這個分布的合理範圍內,而不是總是偏高或偏低。CRPS就是用來衡量AI預測的腫瘤體積與五位專家體積分布之間的契合度。
第四類也是最具臨床價值的一類——血管侵犯評估。對於每條血管(門靜脈、腸繫膜上靜脈、腸繫膜上動脈、腹腔干和主動脈),研究團隊都單獨計算了AI預測的侵犯角度與五位專家標註的侵犯角度分布之間的差距,使用的是一種叫做Wasserstein距離的統計工具。這種方法不僅判斷AI有沒有發現腫瘤,還判斷AI是否準確捕捉到了腫瘤與每條血管接觸的具體程度和不確定性。
最終排名通過把每個團隊在九個評估指標上的名次取平均來決定,這確保沒有任何一個指標可以單獨主導排名結果。
四、六支隊伍,六種思路——AI如何應對"沒有標準答案"的問題
這場競賽吸引了來自全球六個研究機構的團隊參與,他們的方法在技術實現上都基於同一個醫學圖像分割框架(nnU-Net),但在如何處理多專家標註的不確定性這個核心問題上,走出了截然不同的路徑。
來自法國斯特拉斯堡大學的TwinTrack隊採用了一種"先劃分職責,再校準結果"的思路。他們用兩個串聯的神經網路處理圖像:第一個在低解析度下定位胰腺、腫瘤和血管的大致位置,第二個在精細解析度下細化預測。他們沒有在訓練階段嘗試融合五位專家的標註,而是等模型訓練完成後,用一種叫做等溫回歸的統計方法,把模型輸出的概率值調整到與專家平均共識程度相符。換句話說,他們是在訓練結束後"事後補課",把模型學到的自信程度重新校準。
中國科學院深圳先進技術研究院的CorpuSeg隊走了另一條路:他們乾脆訓練了五個獨立的模型,每個模型只學習一位專家的標註風格,最後推斷時把五個模型的概率預測直接取平均。這種方式讓最終預測自然包含了五種不同的"專家視角"。
法國雷恩第一大學的BreizhSeg隊選擇了更前沿的貝葉斯深度學習方法。他們把一個確定性的神經網路改造成貝葉斯神經網路,通過在網路的歸一化層中引入隨機擾動,讓同一張圖像每次經過網路時都會產生略有不同的預測結果。最終的輸出是多次隨機運算結果的融合,這種方法在數學上模擬了"我對這個區域不太確定"的心理狀態。
德國癌症研究中心的MIC DKFZ隊採用了最直接也最全面的數據策略:他們把五位專家的所有標註加上STAPLE共識標註全部用於訓練,然後用集成學習(訓練多個模型再綜合輸出)和溫度縮放技術來校準最終的概率預測。
中國科學院的ROISeg隊則代表了最簡潔的一端:他們先把五位專家的標註用STAPLE算法融合成一個共識標註,然後直接用這一個目標訓練模型,完全不保留任何關於專家分歧的資訊。這種做法最接近傳統的醫學圖像分割思路,沒有任何顯式的不確定性建模。
最後一個方法OrdSTAPLE來自龐培法布拉大學和Sycai Medical,也是比賽組織者作為參考基線提交的方案。他們用一種有趣的"分級"思路來處理專家分歧:除了訓練一個普通的STAPLE共識分割模型,他們還訓練了第二個模型,專門預測不同區域上專家達成共識的程度(從"無人同意"到"所有人同意"分為多個等級)。把兩個模型的輸出合併後,最終的預測圖既有清晰邊界,也在爭議區域保持適當的模糊感。
五、結果揭曉:好的"全局成績",並不等於好的"臨床決策工具"
比賽結束後,研究團隊對六支隊伍的結果進行了全面分析,得出的結論出人意料卻合情合理。
在全體測試病例上看,BreizhSeg隊的表現最為亮眼,在傳統Dice重合度、閾值平均Dice和校準誤差三個指標上均排名第一,是綜合表現最均衡的方法。MIC DKFZ隊緊隨其後,在Dice指標上排名第二。ROISeg隊雖然Dice分數不算突出,卻在概率體積估計(CRPS)上奪得第一名。
然而當把目光轉向血管侵犯評估時,排名格局發生了戲劇性變化。TwinTrack隊在五條血管中的四條(主動脈、門靜脈、腸繫膜上靜脈和腹腔干)上都取得了最低的Wasserstein距離誤差,也就是最準確的血管侵犯評估。CorpuSeg隊在腸繫膜上動脈上表現最優,並在其他血管上也保持了穩定的競爭力。而在全局指標上排名靠前的BreizhSeg和MIC DKFZ,在血管侵犯評估上的表現則相對平庸。
從各條血管的難度來看,主動脈是最容易評估的結構,因為它體積大、位置固定、與腫瘤的關係相對清晰。相比之下,腸繫膜上靜脈和門靜脈產生的Wasserstein距離誤差最高,說明靜脈系統的侵犯評估對所有方法來說都是最大的挑戰。
研究團隊還對排名的穩定性進行了嚴格驗證,通過500次自舉重採樣(一種評估統計結論可靠性的方法)確認,主要排名趨勢並非由個別特殊病例驅動,而是反映了方法本身的系統性差異。
六、最硬的骨頭:專家都吵架的那些病例
最能揭示方法本質區別的,是那些連人類專家都無法達成共識的極端困難病例。研究團隊專門劃出了測試集中專家兩兩一致性評分低於30%的病例,單獨對這個"高難度子集"重新計算所有指標。
結果令人頗為意外。在全局測試中排名較低的OrdSTAPLE,在這個高難度子集上成了表現最優的方法,跨所有指標的平均排名第一。而在全局測試中表現出色的BreizhSeg和MIC DKFZ,在這些極端模糊的病例上,Dice分數出現了大幅下滑——這意味著這兩種方法在"有標準答案"時表現好,但當沒有標準答案時就開始迷失方向。
TwinTrack和ROISeg走了另一個極端:它們在高難度病例中仍然輸出了相對較高的Dice分數,但代價是血管侵犯評估誤差急劇增大。換句話說,這兩種方法傾向於"硬著頭皮"給出一個確定性的答案,即使在專家自己都在爭論的地方,也強行畫出一條清晰的邊界。
這一現象揭示了兩種截然不同的失敗模式。基於硬性共識訓練的模型,面對極端模糊的病例時,要麼過於自信地把邊界畫得太寬(造成過度延伸),要麼根本不敢標註(造成體積崩潰)。而專門設計了分歧建模機制的方法——比如OrdSTAPLE——則能在這些極端情況下保持相對穩定,產生更擴散、更誠實的概率分布,而不是假裝自己知道答案。
從可視化結果來看,這種差異在圖像上非常直觀。在標註爭議不大的病例中,所有方法基本都能準確定位腫瘤,輸出的概率圖也大同小異。但在極端模糊的病例中,基於二值目標訓練的模型往往產生尖銳的、過於自信的輪廓,而分歧感知型方法則產生漸變的、彌散的概率雲,更真實地反映了圖像本身所包含的不確定性。
七、這對臨床醫生意味著什麼
研究團隊在討論部分特別強調了這一發現的臨床意義。外科決策,特別是胰腺癌能否手術的判斷,高度依賴於局部腫瘤-血管界面的精確描述。一個模型即使在全局體積上表現出色,如果在腸繫膜上動脈或門靜脈旁邊的那幾毫米區域畫錯了,都可能導致災難性的臨床後果:過度自信的假陽性接觸判斷可能把一個本可手術的患者錯誤判定為無法手術,而過度自信的假陰性判斷則可能讓外科醫生在手術台上遭遇意外。
這意味著,在PDAC的臨床輔助決策中,一個AI模型的價值不僅在於它的平均準確率,更在於它能否誠實地表達"我不確定"。一個能產生合理校準概率圖的模型,即使Dice分數不是最高,也可能比一個分數更高但過度自信的模型更有臨床價值——因為前者至少會提示醫生"這個區域需要更仔細地看",而後者可能給醫生一種虛假的安全感。
研究同時揭示了一個底層規律:不同評估指標之間的相關性是不對稱的。Dice分數和閾值平均Dice分數彼此高度相關,但它們與血管侵犯誤差的相關性卻相當弱。這用數字證明了一件直覺上應該成立的事:把腫瘤整體畫准和把腫瘤與特定血管的接觸畫准,本質上是兩個不同的任務,需要用不同的指標來分別評估。
八、這項研究的局限與展望
研究團隊對自己工作的局限性保持了相當清醒的認識。測試集的規模相對有限,64個病例中極端困難的案例更少,這使得在血管侵犯這類細粒度指標上的統計顯著性檢驗結果需要謹慎解讀。事實上,大多數血管侵犯指標的成對Wilcoxon檢驗並未達到統計顯著性,這在一定程度上反映了這類任務的固有難度和樣本量的制約。
另一個局限在於,本研究的參考標準來自放射科醫生的影像判斷,而非病理學或手術中的直接觀察。這反映了臨床前設置的真實情況(術前判斷只能依靠影像),但也意味著"標準答案"本身就內嵌了放射科判斷的主觀性和不確定性。
在方法多樣性方面,六支參賽隊伍雖然思路各異,但技術架構上都依賴nnU-Net的變體,這使得本次比賽主要捕捉到了訓練策略和不確定性建模上的差異,而非更宏觀的網路架構設計空間的探索。
展望未來,研究團隊希望擴大數據集規模,納入更豐富的臨床終點(比如手術結果)來驗證AI預測的真實臨床價值,並推動整個領域從確定性分割工具向校準的概率性決策輔助系統轉變。
說到底,這項研究做的事情可以用一句話概括:它把"AI有多準確"這個問題,擴展成了"AI對不確定的事情有多誠實"。胰腺癌的影像判斷本來就充滿模糊,五位頂尖專家面對同一張圖畫出五種截然不同的輪廓,這不是醫生的失職,而是醫學現實的真實寫照。在這種現實下,強行要求AI給出唯一確定答案,不僅不科學,在某些情況下可能比沒有AI更危險。
這項工作讓我們看到,下一代醫學AI應當具備一種人類醫生也推崇的品質:在有把握的地方果斷,在沒把握的地方坦誠。當一個AI模型面對一張極端困難的CT圖像時,它最應該做的事情,或許不是給出一個清晰的輪廓,而是把那片充滿爭議的區域染成漸變的灰色,然後告訴醫生:這裡,需要你多看幾眼。對這項研究感興趣的讀者,可以通過arXiv編號2604.27582查閱完整論文。
Q&A
Q1:胰腺導管腺癌的血管侵犯評估為什麼這麼難做準確?
A:胰腺腫瘤邊界本身就非常模糊,與周圍正常組織混在一起,加上腫瘤緊鄰多條重要血管,即使是有豐富經驗的放射科醫生在同一張CT圖上也會畫出完全不同的邊界。研究數據顯示,五位專家兩兩之間的平均一致性評分僅有58.4分(滿分100),在極端病例中五個人甚至標註了完全不同的解剖區域,這種內在模糊性是該任務難度的根本來源。
Q2:CURVAS-PDACVI數據集和一般醫學影像數據集有什麼不同?
A:最大的區別是標註密度。普通醫學影像數據集通常每張圖只有一位醫生標註,而CURVAS-PDACVI數據集為每張CT提供了五位獨立專家的完整標註,並且保留了所有標註的分歧資訊,沒有強制融合成一個"標準答案"。此外,數據集還包含了精細化分類的五條血管結構標註,支持按血管類型獨立評估腫瘤侵犯情況。
Q3:Dice係數為什麼不足以評價胰腺癌AI分割模型的臨床價值?
A:Dice係數只衡量AI畫的輪廓和某個參考輪廓的重疊程度,但在胰腺腫瘤這類任務中,參考輪廓本身就存在多個專家版本。Dice高的模型不一定在腫瘤與血管的接觸界面處表現準確,研究數據表明全局Dice與血管侵犯評估誤差的相關性很弱。更重要的是,Dice無法反映模型表達不確定性的能力,而一個在模糊區域仍然過度自信的模型在臨床上可能造成誤判。






