這項由新加坡AIPOCH PTE. LTD.與復旦大學附屬中山醫院病理科聯合開展的研究,發表於2026年4月,以預印本形式發布在arXiv平台,編號為arXiv:2604.20441。感興趣的讀者可通過該編號查詢完整論文。
醫療AI領域正在發生一件有點像"廚師僱傭外賣員"的怪事:越來越多的AI系統不再是單打獨鬥的大模型,而是通過拼裝各種"技能包"來完成任務。這些技能包,有點像樂高積木,每一塊負責一件事——比如幫你查文獻、設計實驗方案、跑數據分析,或者幫你寫學術論文。問題是,這些技能包上線之前,有沒有人認真檢查過它們到底靠不靠譜?
這正是這項研究要解決的問題。研究團隊開發了一套叫做MedSkillAudit的審核框架,專門在醫療研究類AI技能包正式部署之前,對其進行系統性的質量把關。這件事看起來沒什麼大不了,但實際上填補了一個相當關鍵的空白——現有的AI評估工具,要麼測的是"模型能不能回答醫學題目",要麼測的是"AI能不能完成臨床任務",卻沒有人專門檢查:一個被設計成可以反覆調用的醫療研究工具包,在科學性、安全性和可復現性上,究竟有沒有達到可以放出去用的標準。
一、為什麼需要專門的"考官"
普通的軟體質量檢查工具,關心的是代碼有沒有漏洞、有沒有崩潰風險。但醫療研究類AI技能包的問題不止於此。一個工具可能代碼完全正常運行,卻在悄悄生成一個根本不存在的文獻引用;或者幫你做統計分析時,用了錯誤的物種基因注釋數據,導致整個分析結論南轅北轍;又或者每次運行結果都不一樣,讓你的研究完全無法復現。
這類問題,傳統的代碼質量工具根本發現不了,因為它們不懂科學研究的邏輯。而那些專門測試大型語言模型的基準測試(比如拿美國執照醫師考試來考AI),也不適用——那些測試關心的是"AI知不知道某個醫學知識點",而不是"這個被打包成工具的AI,在真實研究流程中會不會出問題"。
MedSkillAudit就是為填補這個縫隙而生的。它的核心邏輯,可以用一個"雙重安檢門"來理解:任何一個技能包,都必須先通過結構安全檢查,再通過科學研究專項審核,兩道門都過了,才能拿到上線資格。而只要有一道門亮紅燈,不管其他方面表現多好,這個技能包都會被直接拒絕。
二、這套審核框架是如何工作的
MedSkillAudit的審核流程分為兩個大的層次,每個層次都有自己的硬性否決機制。
第一道關卡叫做"結構審核",相當於檢查這個技能包的基本工程質量。具體來說,它會檢查四個維度:運行穩定性(工具崩潰率不能超過20%,不能有無法解決的依賴衝突)、結構一致性(技能描述文件必須格式規範,輸入輸出類型前後一致)、結果確定性(不能有未設置隨機種子的隨機數調用,不能有無限循環)、以及系統安全性(不能有未經過濾的危險命令執行,不能存在提示詞注入風險)。這四條里任何一條不合格,就直接判定為拒絕,不再往下審核。
通過第一道關卡之後,才進入第二道關卡——"醫療研究專項審核"。這一關聚焦的是科學誠信問題,同樣有四個硬性否決標準:不能有捏造的文獻引用、DOI編號、樣本量或p值(科學誠信門);不能給出直接的診斷結論,必須有適當的醫學免責聲明(實踐邊界門);不能出現邏輯謬誤,比如混淆相關性與因果關係(方法學基線門);生成的代碼不能有語法錯誤或缺少核心依賴庫(代碼可用性門)。同樣,任何一條觸發,直接拒絕。
兩道否決關卡之外,還有一套評分系統。技能包的最終質量分,由兩部分構成:靜態質量評分和動態執行評分,權重分別是40%和60%。靜態評分對應著25條標準,覆蓋ISO/IEC 25010軟體質量模型定義的8個維度,主要依據技能描述文件和代碼本身來評分。動態評分則更有意思——系統會根據技能包的複雜程度,實際運行3次、5次或7次測試任務,觀察真實的輸出質量。動態評分分兩層:第一層評通用輸出質量,包括功能正確性、可靠性、效率和範圍符合度,滿分40分;第二層是針對不同類別的專項評分,滿分60分,比如文獻檢索類技能會重點評估檢索策略的嚴謹性,數據分析類會重點評估代碼的可執行性,以此類推。
最終,根據綜合得分,技能包會被分到四個檔位:85分及以上是"生產就緒"(可以直接上線),75到84分是"限制發布",60到74分是"測試版",60分以下或觸發否決則是"拒絕"。
三、實驗是怎麼做的,樣本從哪來
研究團隊收集了75個醫療研究類AI技能包,均勻分布在五個類別里,每類15個:文獻檢索與綜合(Evidence Insight)、實驗設計與統計規劃(Protocol Design)、數據分析與生物資訊學代碼生成(Data Analysis)、學術寫作與文檔生成(Academic Writing),以及其他通用工具(Other)。
這75個技能包來自兩個獨立研發團隊的四個連續開發周期,採用隨機抽樣,故意涵蓋早期和成熟版本,目的是模擬真實的預部署審核場景——不是把最好的拿出來展示,而是抓一把現實中會遇到的東西來測。
按照執行方式劃分,這些技能包分為三類:純提示詞型(Mode A,22個),依靠腳本運行型(Mode B,42個),以及混合型(Mode D,11個)。這個分類在後續分析中很關鍵,因為代碼類工具的失敗方式,跟純文字提示型工具的失敗方式截然不同。
為了檢驗審核框架的可靠性,研究團隊還請了兩位具備醫學研究背景的專家,對同樣的75個技能包進行獨立評分。每位專家需要給每個技能包打一個0到100的質量分,給出一個四檔的發布建議,並標記是否存在高風險問題。兩位專家的評分完全獨立進行,互不干擾。最終,系統評分與專家評分的一致性,用統計學上的ICC(組內相關係數)來量化,同時也計算了兩位專家之間的一致性作為參照基準。
四、審核結果揭示了什麼
75個技能包的專家共識質量分,平均值是72.4分,中位數73.2分,分布範圍從40分到90.8分不等。從發布檔位來看,只有22.7%的技能包達到"生產就緒"標準,20%進入"限制發布",41.3%只能算"測試版",還有16%直接被拒絕。換句話說,超過57%的技能包,還沒達到可以正式上線的水平。
不同類別之間的差距相當懸殊。實驗設計類(Protocol Design)整體表現最好,平均分高達86.2分,而且分數集中,15個技能包的分數都擠在80到90.7分之間,說明這類工具質量比較整齊。學術寫作類(Academic Writing)表現最差,平均只有62.7分,15個裡有5個直接被拒絕。數據分析類(Data Analysis)的分數分布最散,標準差達15.3分,從極差到極好都有,主要原因是有一批工具存在依賴庫安裝失敗的問題,直接導致運行崩潰。
從執行方式來看,純提示詞類工具(Mode A)的平均分是77.9分,明顯高於腳本型(Mode B,70.1分)和混合型(Mode D,70.2分)。這並不意外——代碼類工具多了一層失敗的可能性:依賴庫版本衝突、API接口變更、安裝失敗,這些問題在純文字工具里根本不存在。
在那些被判定為直接拒絕的12個技能包里,研究團隊記錄了具體的失敗原因。其中有一個叫做funding-trend-forecaster的工具,問題極其嚴重——它把模擬生成的假數據作為真實API返回結果返回給用戶,這意味著用戶拿到的"研究數據"完全是編造的。另一個叫go-kegg-enrichment的工具,調用了錯誤版本的函數API,還在基因注釋時用了錯誤的物種數據,這種錯誤在生物資訊學分析中可以導致整個研究結論完全失效。還有一個技能包,聲稱有完整的腳本目錄,打開一看是空的;另一個代碼生成工具,由於依賴庫之間存在根本性衝突,根本無法安裝,連運行都運行不起來。這些案例生動地說明了,如果沒有系統性的審核,這些問題完全可能在用戶毫不知情的情況下流入真實的研究流程。
五、系統評分與專家評分有多吻合
這是整個研究最核心的問題:MedSkillAudit打出來的分,和人類專家打出來的分,有多一致?
先看人類專家自身的一致性基準。兩位專家之間的ICC為0.300,加權Cohen's κ(衡量等級判斷一致性的指標)為0.270,絕對分差平均13.8分,最大差距甚至達到50.6分。75個技能包里,兩位專家給出完全相同發布檔位判斷的只有37.3%,而整體高達64%的技能包需要通過調解程序來確定最終判斷。這個數字說明,即使是人類專家,在評判這類複雜工具時也存在相當大的主觀分歧。
相比之下,MedSkillAudit與專家共識的ICC為0.449,95%置信區間在0.250到0.610之間,明顯高於兩位人類專家之間的0.300。系統與共識評分的平均差異只有負1.4分(系統略微偏低),統計檢驗顯示這個偏差不具有顯著性(Wilcoxon檢驗p=0.613),說明系統沒有系統性地高估或低估技能包質量。系統與共識評分的分差標準差為9.5分,而兩位專家之間的分差標準差是12.4分——系統評分的穩定性,實際上比人類專家互相之間還要好一些。
在發布檔位判斷上,系統與專家共識完全一致的比例是29.3%,相差不超過一個檔位的比例達到82.7%,後者比兩位人類專家之間的74.7%還要高。這意味著,在"大方向上判斷對不對"這件事上,MedSkillAudit的表現並不比人類專家差。
Bland-Altman一致性分析(一種專門用來比較兩種測量方法是否可互換的統計方法)顯示,系統評分的偏差均值接近於零,一致性區間在負29分到正26.2分之間。分析中可以識別出兩類主要的分歧模式:一類是系統評分遠低於專家的情況,這通常發生在否決機制觸發時——系統直接將分數拉到"拒絕"區間,而專家在受控評測環境下給出了更高的分數;另一類是系統評分高於專家的情況,原因是系統傾向於獎勵結構完整性,而專家會額外懲罰那些邏輯淺薄或使用場景覆蓋不足的工具。
六、分類別來看:有的類目系統更准,有的反而反著來
按照五個類別分別計算一致性,結果差異相當大,值得仔細拆解。
文獻檢索類(Evidence Insight)的ICC是0.551,數據分析類(Data Analysis)是0.506,兩者都屬於中等程度的一致性,說明在這兩類工具上,系統評判標準和專家標準是基本對齊的。實驗設計類(Protocol Design)的整體ICC偏低(0.232),而且存在統計顯著的系統性偏差——系統平均比專家低6.1分(Wilcoxon檢驗p=0.033)。這是因為很多實驗設計工具是純提示詞型,沒有可執行代碼,但系統的運行穩定性檢查門(Veto Gate T1)還是對它們進行了檢查,給出了不必要的扣分,而專家評分時並不會在意這一點。這個偏差後來成為框架版本疊代的重要依據。
學術寫作類(Academic Writing)出現了最戲劇性的情況:ICC竟然是負0.567,加權κ是負0.308。負的ICC意味著系統評分和專家評分在這一類別里不是"方向相同但程度有差異",而是在反向移動——專家給高分的工具,系統給低分;專家給低分的,系統反而給高分。
這個結果不是隨機噪聲,而是一個清晰的結構性信號。研究團隊的分析揭示了根本原因:系統的"學術語氣"評分維度,會將系統化的段落結構和標準的科學表達習慣(如"研究表明""需要進一步驗證"這類學術慣用語),識別為AI生成的風格標記加以扣分;而系統的"效率"評分維度,會因為學術文檔內容詳盡篇幅較長而扣分,認為這是冗餘。但人類專家恰恰相反——他們認為規範的學術結構和適當的語言表達是高質量寫作的標誌,詳盡的內容是符合交付標準的體現,而不是冗餘。此外,專家評分更關注"這篇輸出在典型條件下質量好不好",而MedSkillAudit測試的是多種輸入條件下的行為分布,兩者本身就在衡量不同的東西。研究團隊認為,這個負ICC不是框架的徹底失敗,而是一個診斷信號,揭示了寫作類工具評測需要建立一套獨立的專項評分標準。
七、框架的疊代與改進方向
研究團隊在完成75個技能包的評測之後,基於發現的問題,將框架從版本1.0更新到了1.1.0。核心改動是針對數據分析類(Category 3)和實驗設計類(Category 2)引入了"場景覆蓋"機制。
具體來說,在審核一個差異表達分析工具時,團隊發現通用評分標準里有三個地方對科學計算工具存在系統性誤判。第一,容錯標準(Fault Tolerance)把"遇到無效輸入時直接報錯停止"判定為不友好行為,但在科學計算流程里,遇到格式錯誤的樣本ID時立刻停止,恰恰是防止後續分析悄悄使用錯誤數據的正確做法。第二,容忍度標準(Forgiveness)獎勵自動修正模糊輸入的工具,但在統計分析里,模糊匹配參數可能產生生物學上錯誤的結果卻不給任何警告,這是危險的,而不是友好的。第三,可恢復性標準(Recoverability)獎勵在終端輸出人類可讀的恢復建議,但在AI智能體優先運行的環境裡,工具應該返回可被程序解析的錯誤代碼,而不是終端里的散文說明。這三個問題,本質上都是通用軟體標準對"人類操作通用軟體"場景的假設,與"AI智能體運行科學計算工具"場景存在根本性不匹配。
針對這些問題,版本1.1.0採用的解決思路不是修改通用標準(那會影響其他類別),而是在數據分析類和實驗設計類的專項評分文件里加入"場景覆蓋"說明,針對這兩類工具特有的執行情境給出修正解釋。其他類(Category 5,Other)也加入了智能體優先模式的執行說明。
學術寫作類(Category 4)的專項修正,則被推遲到了版本1.2.0——計劃專門重新校準效率維度和學術語氣維度的評分邏輯,使其符合寫作類工具的真實評判標準。此外,計劃中的版本還將引入模式自適應權重機制:對於純提示詞型工具(Mode A),適當提高靜態評分的權重,因為對於這類工具,技能描述文件本身就是最重要的評審對象,而不是動態執行行為。
八、這項研究告訴了我們什麼
歸根結底,MedSkillAudit這項研究的意義在於,它證明了一件看起來很難、實際上有可行路徑的事情:用結構化的自動化審核,在醫療研究AI工具正式上線之前,做一次系統性的質量篩查,而且這套篩查的結論,總體上和人類專家的判斷是對得上的——甚至在評分一致性上,比兩個人類專家互相評分還要穩定一些。
當然,這不意味著自動化審核可以完全替代專家判斷,尤其是在學術寫作這類工具上,系統和專家衡量的東西存在根本性的差異,需要更細緻的框架調整才能解決。但在工程質量、代碼可執行性、科學誠信硬性違規這些維度上,自動化審核展現出了相當可靠的識別能力。
對於任何一個正在構建或管理醫療研究AI工具庫的團隊來說,這項研究提供了一個實用的參考:不要等到工具部署之後才發現問題,一套分層的預部署審核,或許可以攔住大多數明顯的危險,同時為還不成熟的工具指明具體的改進方向。
說到底,一個會編造文獻引用的工具、一個永遠無法安裝的工具、一個每次運行結果都不一樣的工具,不管它的說明文檔寫得多漂亮,都不應該出現在真實的醫學研究流程里。而有沒有人在它們上線之前認真檢查一遍,區別可能就在於此。
感興趣深入了解這項研究的讀者,可以通過編號arXiv:2604.20441查詢完整論文。
Q&A
Q1:MedSkillAudit是什麼?
A:MedSkillAudit是一套專為醫療研究類AI技能包設計的預部署審核框架,通過"雙重否決門"機制和分層評分系統,在工具正式上線前檢查其結構安全性和科學可靠性,最終給出從"生產就緒"到"拒絕"四個等級的發布建議。
Q2:為什麼現有的AI評測工具不夠用,還需要MedSkillAudit?
A:現有的評測方法要麼測"AI知不知道醫學知識",要麼測"AI能不能完成臨床任務",都沒有專門檢查一個被打包成可反覆調用工具的AI,在科學完整性、代碼可執行性和結果可復現性上是否過關。比如,一個工具可能代碼運行正常,卻在悄悄生成不存在的文獻引用,傳統評測完全發現不了這類問題。
Q3:MedSkillAudit的自動化評分和人類專家的判斷相差多少?
A:在75個技能包的測試中,MedSkillAudit與專家共識評分的組內相關係數(ICC)為0.449,高於兩位人類專家之間的0.300。系統評分的平均偏差只有負1.4分,且沒有統計顯著的方向性偏差,說明系統的判斷總體上和專家對齊,在評分穩定性上甚至優於人類專家互相評分的表現。






