你是否想過,人工智慧在急診診斷中與人類醫生相比表現如何?本周四發表的一項新研究或許會讓你重新思考這個問題。
該研究發表於《科學》期刊,結果顯示,一款先進的大語言模型在多項常見臨床任務中的表現超過了人類醫生。研究團隊使用真實急診科數據,並與數百名醫生的診斷進行對比,發現該模型在診斷決策、急診分診以及後續處置方案的制定上,達到甚至超越了人類臨床醫生的水平。
不過,研究作者強調,上述結果並不意味著大語言模型已準備好取代人類醫生。相反,這些結果表明,醫療行業需要更快速、更嚴格的評估標準,以及明確的 AI 在醫療領域的使用規範。
研究團隊測試了 OpenAI 於 2024 年發布的 o1 系列大語言模型,共設計了六項實驗,將標準化臨床病例與馬薩諸塞州某醫療中心隨機抽取的真實急診患者數據相結合。
該模型的優勢在分診早期階段最為突出——彼時需要在資訊極為有限的情況下迅速做出決策。隨著可用數據的增加,人類醫生和 AI 模型的表現均有所提升,但研究發現,大語言模型在處理不確定性方面表現得更為出色,能夠更有效地利用碎片化或非結構化的健康數據與醫療記錄。
這些發現建立在數十年來利用複雜診斷案例評估醫療計算系統的研究基礎之上。早期大語言模型已超越傳統算法方法,而本研究的獨特之處在於其規模之大,以及在真實臨床場景中實現了人類醫生與 AI 的直接對比。
研究作者同時提醒,對這些結果應保持審慎態度。醫院和急診室的實際臨床工作往往依賴視覺和聽覺線索,而非純粹的文字推理,而這些是 AI 目前無法完全準確解讀的。研究論文指出:"未來需要進一步研究,探索人類與機器如何在非文本信號的使用上實現有效協作。"
在考量 AI 輔助醫療時,還必須評估其安全性、公平性和成本效益,而這些方面在本研究中尚未涉及。
"簡而言之,該模型的表現超過了我們規模龐大的醫生基準組。你將在詳細數據中看到這一點,這其中包括持有執照的執業醫生,以及真實複雜的臨床案例,"哈佛醫學院生物醫學資訊學助理教授 Arjun Manrai 在一次線上新聞發布會上表示。
"我認為我們的研究結果並不意味著 AI 取代醫生,儘管某些公司可能會這樣宣稱,並利用這些結果做文章,"Manrai 說道,"但我確實認為,我們正在見證一場深刻的技術變革,它將重塑醫學領域。我們需要現在就對這項技術進行評估,並在前瞻性臨床試驗中嚴格開展研究。"
監管機構、醫院和醫療服務提供方應攜手合作,在部署這些工具之前進行充分測試,以確保所有患者的安全與公平。
同日,澳大利亞弗林德斯大學研究人員 Ashley M. Hopkins 與 Eric Cornelisse 在《科學》期刊發表的一篇評論文章中指出,該研究是推動醫療 AI 系統評估體系完善的重要一步,但醫學是一個複雜領域,需要嚴格的監督機制,以確保患者獲得儘可能優質的醫療服務。
"我們不允許醫生在沒有監督和評估的情況下執業,AI 也應當接受同等標準的約束,"Cornelisse 在一份聲明中表示。
Q&A
Q1:這項研究中測試的大語言模型具體表現如何?
A:研究使用 OpenAI 的 o1 系列大語言模型,在診斷決策、急診分診和後續處置方案等多項臨床任務中,其表現達到甚至超越了人類醫生。尤其在分診早期階段,面對資訊不足的情況下,大語言模型處理不確定性的能力明顯優於人類醫生,能更有效地利用碎片化或非結構化的健康數據。
Q2:大語言模型超越醫生,是否意味著 AI 很快會取代醫生?
A:研究作者明確表示,這一結果並不代表 AI 已準備好取代醫生。實際臨床工作依賴視覺和聽覺等非文本信號,是 AI 目前無法完全解讀的。研究呼籲在前瞻性臨床試驗中嚴格評估 AI,並建立更完善的監管標準,確保 AI 輔助醫療的安全性、公平性和成本效益。
Q3:AI 在醫療領域的應用需要滿足哪些條件才能被推廣?
A:研究指出,監管機構、醫院和醫療服務提供方需要在部署 AI 工具之前進行充分測試。評估標準應涵蓋安全性、公平性和成本效益等方面,同時應像對待醫生一樣,對 AI 實施同等水平的監督與評估機制,並在正式臨床試驗中驗證其實際效果。






