這項由卡內基梅隆大學海因茨學院研究團隊完成的研究,以預印本形式發布於2026年5月27日,論文編號為arXiv:2605.29084v1,有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。
**一段真實的困惑**
一位剛完成心臟移植三個月的患者,在術後康復期間打開了醫院提供的智能問答系統,輸入了一個切實困擾他的問題:"我什麼時候可以再次出國旅行?"
系統給出了一個看起來非常專業的答案,有出處,有依據,語氣篤定。患者如釋重負,記下了那個時間節點。
但這裡有一個秘密,患者並不知道——如果他碰巧問的是另一家醫院的系統,得到的等待時間可能是三個月,也可能是六個月,甚至十二個月。每一個答案都同樣"有依據",同樣"有出處",同樣"語氣篤定"。
這不是系統出了故障,而是一個更深層的問題:這些AI問答系統背後依賴的是不同醫院自己編寫的患者教育手冊,而這些手冊對同一個問題給出了截然不同的指導意見。系統只是如實地把它所讀到的內容反饋給了患者,但沒有任何提示說明"這是我們醫院的做法,其他醫院可能不同"。
正是針對這個被長期忽視的問題,卡內基梅隆大學的研究團隊開展了一項系統性研究,構建了一套工具來專門測量和揭示這種"答案因資訊來源不同而不同"的現象,並將其命名為"來源依賴性"問題。
---
**一、這個問題為什麼一直被忽視**
要理解這項研究的價值,首先需要理解AI醫療問答系統是怎麼工作的。
目前主流的AI醫療問答系統大多採用一種叫做"檢索增強生成"的技術,英文縮寫是RAG。通俗地說,它的工作方式就像一個助手在幫你查資料:你提出問題,助手先去翻找相關文件,找到相關段落後,再用自己的語言把內容整理成答案告訴你。
這種方式的好處是答案有出處,不是AI憑空捏造的。問題在於:如果這個助手翻的那份文件本身就給出了一個特定的建議,助手就會把那個建議告訴你,而完全不知道——也不會主動告訴你——其他文件對同一個問題有不同的說法。
目前評估AI醫療問答系統質量的主流方法,依賴的是一系列著名的測試集,比如MedQA、MedMCQA、PubMedQA和BioASQ。這些測試集的設計邏輯非常清晰:每道題對應一個正確答案,系統答對了就得分,答錯了就扣分。
但問題恰恰在這裡。這種"一題一答"的評測框架,天生無法發現"同一個問題因為參考了不同來源而得到不同答案"這件事。它只問"答案對不對",卻從不問"答案會不會因為翻的那本書不同而改變"。
研究團隊把這個被遺漏的維度稱為評估體系中"缺失的坐標軸"。在醫療領域,這個缺失的坐標軸可能直接影響患者的行為和健康決策。
---
**二、研究者如何把問題變成可以測量的東西**
發現了問題之後,研究團隊需要把這個模糊的擔憂變成可以精確測量的東西。他們的思路是:既然問題出在"不同醫院的文件對同一問題給出不同回答",那就把這些文件收集起來,讓AI系統分別閱讀每一份文件並回答同一個問題,然後系統性地比較這些答案之間的差異。
為此,他們首先建立了一個真實的器官移植患者教育手冊資料庫。這個資料庫覆蓋了美國23家大型實體器官移植中心,共收集了102本患者教育手冊,涵蓋心臟、腎臟、肝臟、肺臟和胰腺五種器官類型。這23家機構包括全美前20大移植中心中的16家,既有知名的大型學術醫療中心,也有社區性質的移植項目,地理分布遍及全國各地。
由於不同醫院組織患者教育內容的方式各有不同——有的醫院分別出版移植前和移植後兩本手冊,有的則合併為一本綜合性手冊——研究團隊把每份階段性文件都視為獨立單元,最終得到了37本移植前手冊、39本移植後手冊和26本綜合手冊,共102本。
然後,他們需要一套真實的患者問題。研究團隊從網路上真實存在的移植患者社區中廣泛收集了3000多個候選問題,來源包括Reddit的移植話題版塊、梅奧診所患者論壇、Inspire患者社區、美國國家腎臟基金會和美國肝臟基金會的問答頁面,以及各醫院的患者教育頁面。
經過去重處理(相似度超過85%的問題會被合併)、質量和相關性審核,以及匿名化改寫(去除可能識別用戶身份的資訊,並讓每個問題在脫離原有對話背景後仍能獨立成句),最終保留了1115個問題,平均每個問題23.6個單詞。這批問題被命名為TransplantQA基準測試集。
這1115個問題並非千篇一律。其中有311個屬於"通用類"問題,也就是所有移植患者都可能關心的話題,比如免疫抑制劑的副作用、生育健康、心理健康等,這類問題會被所有102本手冊分別回答,產生巨大數量的兩兩比較組合。另外804個問題則是"器官特異性"問題,只與特定器官的移植患者相關,這類問題只由對應器官的手冊來回答。
每個問題還被打上了詳細的標籤:屬於哪種器官類型、屬於哪個臨床話題大類(共13個,例如醫療併發症、生育健康、生活方式與日常起居、藥物管理、手術與康復等),以及更細緻的子話題標籤(共43個)。一個問題可以同時屬於多個類別,因為很多問題天然涉及多個層面。
---
**三、讓AI去翻每一本手冊並回答問題的挑戰**
有了手冊和問題,下一步就是讓AI系統閱讀每一本手冊,然後針對每個相關問題給出答案。這聽起來簡單,但實際操作中有一個關鍵難點:如何確保AI讀到了手冊里真正有用的部分?
這個挑戰可以用找書里某段話來打比方。如果你手頭有一本幾百頁的書,想找某個具體話題的相關內容,你可以用目錄、檢索詞等方式快速定位。但如果書的編排方式各不相同——有的按時間順序排列,有的按話題分章,有的混合編排——統一的檢索方法就很難保證每次都找對地方。
研究團隊為此專門設計了一套名為HERO-QA(分層證據檢索與編排系統)的檢索策略。這個系統的核心邏輯是"先判斷手冊的厚薄,再決定怎麼找"。
對於較短的手冊(全文字符數不超過8萬個字符),系統會直接把整本手冊的內容都交給AI模型閱讀,徹底避免"沒找到相關段落"的情況。對於較長的手冊,系統會先把手冊按章節結構拆分成有層次的片段,然後同時啟動四種不同的檢索方式來搜索相關內容。
這四種檢索方式分別側重不同的匹配角度:一種是基於語義相似度的"稠密檢索",能找到意思相近但用詞不同的段落;一種是基於關鍵詞的"稀疏檢索"(BM25),能找到包含相同詞彙的段落;還有兩種導航式檢索,分別針對章節正文和章節標題,能在正文描述與查詢詞彙不一致時通過標題層面的匹配來補充。
四路檢索的結果通過一種叫"互惠排名融合"的算法合併排序,然後再經過一個精排模型進行二次篩選,最終選取最相關的段落。為了讓AI生成答案時有足夠的上下文,系統還會把選中的段落自動擴展到其所在章節的完整內容,並包含前後相鄰章節的片段。
如果檢索出來的內容質量不夠好,系統會自動觸發"全文兜底"模式,用整本手冊作為上下文。整個檢索過程會保留詳細的元數據記錄,包括這個答案是通過哪種檢索模式生成的、涉及了哪些章節,便於後續對答案來源進行審計。
最終,系統用一個大型語言模型(Qwen3-32B)在嚴格約束的條件下生成答案:只能依據提供的手冊內容作答,當手冊中沒有相關資訊時必須明確輸出"未涉及:本手冊不包含此話題的資訊",而不能用通用醫學知識來填補空白。整個參考運行共生成了48056個有依據的答案。
---
**四、如何系統地比較這些答案之間的差異**
48056個答案生成之後,研究團隊面臨一個更大的挑戰:如何系統地比較這些答案之間的關係?
以通用類問題為例,每個通用類問題都被102本手冊各自回答了一遍,兩兩配對比較的組合數量就達到了5151對。乘以311個通用類問題,再加上器官特異性問題的配對數量,總比較對數高達573萬餘次。
研究團隊的解決方案是訓練一個AI評判員來執行這些比較,並為比較結果設計了一套包含五個類別的分類體系。
這五個類別沿著"資訊覆蓋程度"和"答案一致程度"這兩個維度排列。第一類叫"缺失",指的是至少有一方的手冊根本沒有涉及這個話題,無從比較。第二類叫"一致",指兩本手冊給出的臨床建議相同,沒有實質性差異——例如兩家醫院的手冊都告訴患者要避免食用葡萄柚,因為它會影響他克莫司(一種免疫抑制藥物)的代謝。第三類叫"互補",指兩本手冊的內容相互兼容,但覆蓋的深度或範圍不同——例如一家只列出了副作用,另一家還額外介紹了處理副作用的方法。第四類叫"分歧",指兩本手冊在臨床上有實質性的不同,給出了不同的時間節點、不同的數值閾值或不同的行動建議——例如一家建議移植後6周可以開始運動,另一家建議等到8至12周。第五類叫"矛盾",指兩本手冊給出了直接對立的指導意見——例如一家說可以接受ABO血型不相容的活體捐獻者,另一家明確表示不可以。
這套體系不是隨意設計的,它經過了人工標註的驗證。研究團隊從生產運行結果中抽取了200對樣本,每個標籤類別各40對(由於"矛盾"類別在總數據中極為罕見,這一類被刻意超採樣以保證足夠的統計效力),請兩位標註人員獨立進行判斷,然後將AI評判員的判斷結果與人工判斷進行比對。
結果顯示,兩位人工標註者之間的一致率達到73%,Cohen's Kappa係數為0.655,屬於"中等偏強"的一致水平。在兩人意見一致的146對樣本中,AI評判員與人工判斷的吻合率達到87.7%,Kappa係數高達0.842,屬於"幾乎完全一致"的水平,加權F1分數為0.876,宏平均F1分數為0.841。
從各類別單獨來看,"缺失"類別的F1分數達到1.00,"矛盾"類別為0.99,說明AI在識別極端情況上表現極為可靠。"一致"類別為0.83,"互補"類別為0.70,"分歧"類別為0.69,說明中間地帶的判斷相對困難,這與這些類別本身的定義模糊性是一致的。
對AI評判員的錯誤案例分析顯示,18個判斷錯誤中有14個(78%)集中在"互補"與"分歧"的邊界上——其中8個案例是人工判斷為"互補"但AI判斷為"分歧",6個是人工判斷為"互補"但AI判斷為"一致"。這說明AI評判員在識別"內容存在或不存在"以及"內容直接對立"這兩種極端情況時非常可靠,但在"差異是否已經大到值得被稱為分歧"這個模糊地帶上存在一定的判斷偏差。
除了五類標籤之外,AI評判員還會為每次比較輸出額外的結構化資訊:一段2至3句話的臨床判斷理由、一個描述分歧具體焦點的短語(僅在非"一致"和非"缺失"類別時輸出),以及一個低中高三檔的臨床重要性評級(僅在"分歧"和"矛盾"類別時輸出)。
研究團隊還通過一個對比實驗證明了這種"結構化單次輸出"設計的必要性:如果改用"先只輸出標籤,再用第二次調用從標籤推斷其他資訊"的兩步方案,在40個被第一步判斷為"分歧"的樣本中,第二步會把其中31個(78%)錯誤地降級為"互補",而且對所有44個需要輸出臨床重要性的樣本一律給出"高"的評級,完全失去了區分度。結構化單次輸出的方案在速度上慢了5至6倍,但這是保證結果質量所必須付出的代價。
---
**五、大規模運行後,數據告訴了我們什麼**
573萬餘次兩兩比較的結果,呈現出了一幅令人深思的圖景。
在所有573萬餘對比較中,有451.9萬對(78.9%)直接被判定為"缺失"——因為至少有一本手冊對這個問題完全沒有任何相關內容。這意味著,對於絕大多數比較,我們甚至無法進入"兩家醫院給出了不同建議"這個層面,因為其中至少一家根本什麼都沒說。
在剩餘的121.1萬對需要AI評判員進行比較的配對中,"互補"類別占主導地位,比例為75.4%。"分歧"類別占12.9%,"一致"類別占7.1%,"矛盾"類別不足0.1%。
這個結果傳遞了一個重要資訊:直接對立的矛盾建議確實極為罕見,但這並不意味著問題不存在。更常見的情況是,不同醫院的手冊給患者講了同一件事的不同方面,或者給出了不同的具體時間節點和數值建議,這些差異不是"非黑即白"的錯誤,而是"你說六周,我說八到十二周"這種更難被識別的分歧。
從各器官類別來看,所有器官的手冊缺失率都在60%至78%之間,即便是在匹配了器官類型之後,平均來說一本手冊也只能回答相關患者問題的三分之一到一半。每對非缺失比較中,分歧率("分歧"加"矛盾")在14%到19%之間波動,胰腺移植和通用類問題的分歧率略高,位於這個區間的頂端。
如果從"有多少比例的問題至少存在一對分歧"這個角度來看,數字則從30%到56%不等——通用類問題最高(55.6%),胰腺移植次之(29.9%,儘管每對的分歧率最高,但因為能回答的手冊本來就少,所以出現分歧的問題數反而相對集中)。
從單本手冊的角度來看,不同手冊的覆蓋率差異極大:手冊的"缺失率"從最低的45%到最高的99%都有,平均為74%。最全面的手冊與最沉默的手冊之間,覆蓋廣度相差超過兩倍。
---
**六、一個方法論上的重要發現:更好的檢索揭示了更多的分歧**
研究團隊還做了一個頗具啟示意義的對比實驗。他們用一個較早的版本(使用Qwen3-14B模型和一個較低能力的混合檢索方案)跑了同樣的基準測試,然後與使用HERO-QA和Qwen3-32B的參考版本進行比較。
結果顯示了三個關鍵趨勢。升級到更強的檢索系統之後,每種器官類型的手冊缺失率下降了12至19個百分點,平均降幅為13.6個百分點,說明更好的檢索系統確實找到了更多相關內容。然而,每對非缺失比較中的分歧率基本沒有變化,平均僅下降了3.1個百分點,說明更強的模型並沒有讓AI變得"更愛挑毛病"。出現分歧的問題比例則大幅上升,平均增加了15.9個百分點。
這三個數字放在一起,講述了一個清晰的故事:早期版本因為檢索能力較弱,很多手冊被錯誤地判斷為"沒有回答這個問題",實際上這些內容是存在的,只是沒被找到。當手冊的相關內容被正確地檢索出來並進行比較時,分歧就顯現出來了。
換句話說,過去那些認為"機構間分歧程度有限"的估計,是因為太多的內容在第一步就被錯誤地歸為"缺失"而被過濾掉了。更好的系統不是製造了更多分歧,而是讓原本潛藏著的分歧浮出了水面。
---
**七、這套框架不只適用於醫療**
研究團隊在論文中明確指出,他們構建的這套框架並非醫療領域專屬,其核心設計——一個多來源的基準測試集、一套描述來源間關係的分類體系、一個結構化輸出的AI評判員——可以直接移植到其他同樣面臨"多來源內容不一致"問題的領域。
法律領域是一個典型的例子。美國聯邦層面、各州層面以及不同巡迴法院的判例法之間存在層次性和差異性,專門面向法律從業者的AI問答工具(如Westlaw AI、Lexis+ AI)在檢索時必然面臨"同一個法律問題在加州和德克薩斯州的判例給出不同答案"的情況。現有的法律AI評測基準(如LegalBench、LexGLUE)同樣依賴單一正確答案的範式,無法診斷這種來源依賴性。
教育領域也面臨類似問題。美國各州的課程標準彼此不同,加上不同出版商的教材在具體解釋上也存在差異,面向學生或教師的AI輔助工具在檢索時可能因為參考的是某個州的課程標準而給出與另一個州截然不同的解答。評測教育AI的ScienceQA和GSM8K同樣無法識別這種來源依賴性。
研究團隊將這種來源依賴性問題定義為"已部署的多來源自然語言處理系統的共同責任",而不僅僅是醫療領域的特殊挑戰。
---
**八、研究本身的局限與透明**
研究團隊在論文中坦誠地說明了這項工作的幾個局限之處。
首先,這項研究的實證部分僅限於2024至2025年快照期間的美國實體器官移植患者教育材料,使用英語。法律和教育領域的可遷移性目前仍停留在概念層面,尚未通過實驗驗證。
其次,AI評判員本身是一個大型語言模型,會繼承該類模型已知的偏差,包括在生成器和評判員使用同一模型家族時可能出現的自我偏好現象(儘管通過對稱性設計有所緩解)、對答案長度的偏好,以及引用形式的影響。200對樣本的人工驗證衡量的是總體層面的一致性,無法排除針對特定機構、特定器官或特定答案長度的系統性偏差。
此外,表面上的來源間分歧,有時可能並非真正的醫學建議差異,而是檢索失敗導致的假象——一本手冊明明有相關內容,但系統沒找到,於是錯誤地輸出了"未涉及"。研究團隊設計的缺失預篩選機制可以在一定程度上緩解這個問題,但無法完全消除。
---
歸根結底,這項研究揭示的是一個關於AI系統如何向普通人傳遞資訊的根本性問題。當一個AI問答系統信心滿滿地告訴一位器官移植患者"你六周後可以開始運動",這個答案是對的嗎?在某一本手冊看來是對的。但在另一本手冊看來,正確的答案是八到十二周。兩本手冊都是真實醫院寫給真實患者的真實指導文件。
這不是AI"幻覺"的問題,也不是檢索質量不夠好的問題。即使檢索完全準確,只要不同醫院的手冊對同一個問題給出了不同答案,AI系統給出的回答就會因它碰巧讀到了哪本手冊而改變。而患者完全不知道這一點。
這項來自卡內基梅隆大學的研究提供了一套用於系統性測量和揭示這一現象的工具:TransplantQA基準測試集、HERO-QA檢索系統和結構化輸出的評判框架,全部研究成果(包括48056個有依據的答案和573萬餘次兩兩比較結果)均已公開發布,供研究社區使用和復現。這項工作提出的核心問題值得每一個正在構建或使用多來源AI問答系統的人認真思考:你的系統,有沒有機制來告知用戶它給出的答案,其實可能因為參考的文件不同而有所不同?
---
**Q&A**
Q1:TransplantQA基準測試集是用什麼方法收集患者問題的?
A:TransplantQA的1115個患者問題來源於真實的網路移植患者社區,包括Reddit移植話題版塊、梅奧診所患者論壇、美國國家腎臟基金會等平台。研究團隊從3000多個候選問題中經過去重、質量審核和匿名化改寫,最終保留這1115個問題,平均每題約23.6個單詞。
Q2:HERO-QA檢索系統相比普通檢索方法有什麼不同?
A:HERO-QA會先根據手冊長短決定檢索策略:短手冊直接使用全文,長手冊則同時啟動四種檢索方式(語義相似度、關鍵詞匹配、章節正文檢索、章節標題檢索),四路結果合併排序後再通過精排模型二次篩選,最後擴展到完整章節上下文。與早期版本相比,這套系統平均降低手冊缺失率13.6個百分點。
Q3:AI評判員在判斷兩本手冊的答案差異時,最容易出現什麼錯誤?
A:AI評判員最常見的錯誤集中在"互補"和"分歧"的邊界上。在200對驗證樣本中,18個判斷錯誤里有14個(78%)屬於這類邊界混淆,例如把人工標註為"互補"的案例判斷為"分歧",或判斷為"一致"。相比之下,對於內容完全缺失或直接矛盾這兩種極端情況,AI評判員的識別準確率接近完美。






