哈佛研究：AI急診室診斷準確率超越兩位醫生

一項新研究探討了大語言模型哈佛研究AI急診室診斷準確率超越兩位醫生在多種醫療場景中的表現，涵蓋真實急診病例。研究結果顯示，至少有一款模型的診斷準確率超過了人類醫生。

贊助商廣告

該研究本周發表於《科學》雜誌，由哈佛醫學院與貝斯以色列女執事醫療中心的醫生和電腦科學家聯合主導。研究團隊通過一系列實驗，評估了OpenAI旗下模型與人類醫生在診斷能力上的差異。

其中一項實驗以76名急診患者為研究對象，將兩位內科主治醫生的診斷結果與OpenAI o1和4o模型生成的診斷進行對比，再由另外兩位主治醫生對所有診斷進行盲評哈佛研究AI急診室診斷準確率超越兩位醫生 ——評審者並不知道哪些診斷來自人類，哪些來自AI。

研究結果顯示："在每個診斷節點上，o1模型的表現均略優於或與兩位主治醫生及4o模型持平。"研究還特別指出，這種差距"在首個診斷節點（急診初步分診哈佛研究AI急診室診斷準確率超越兩位醫生）處尤為突出——此時可獲取的患者資訊最少，而作出正確判斷的緊迫性最高"。

哈佛醫學院在關於該研究的新聞稿中強調，研究人員"完全未對數據進行預處理"，AI模型所獲取的資訊與各診斷時間點電子病歷哈佛研究AI急診室診斷準確率超越兩位醫生中實際可查閱的內容完全一致。

在這一條件下，o1模型在67%的分診病例中給出了"完全準確或高度接近的診斷"，而參與對照的兩位醫生的準確率分別為55%和50%。

"我們用幾乎所有基準對AI模型進行了測試，結果顯示它超越了此前的模型和我們的醫生基準線。"哈佛醫學院AI實驗室負責人、該研究的主要作者之一Arjun Manrai在新聞稿中表示。

需要指出的是，該研究並未斷言AI已準備好在急診室承擔真實的生死抉擇。研究認為，上述發現揭示出"迫切需要開展前瞻性試驗哈佛研究AI急診室診斷準確率超越兩位醫生，在真實患者護理場景中對這些技術進行系統評估"。

研究人員同時指出，本次研究僅評估了模型基於文本資訊的表現，而"現有研究表明，當前的基礎模型在處理非文本輸入哈佛研究AI急診室診斷準確率超越兩位醫生方面的推理能力相對有限"。

貝斯以色列醫院醫生、該研究主要作者之一Adam Rodman在接受《衛報》採訪時警告稱，目前圍繞AI診斷尚無"正式的問責框架哈佛研究AI急診室診斷準確率超越兩位醫生 "，患者依然"希望由人類引導他們面對生死抉擇和複雜的治療決策"。

贊助商廣告

急診科醫生Kristen Panthagani在一篇文章中表示，這是"一項有價值的AI研究，但由此引發的部分新聞標題存在明顯過度渲染的問題"。她特別指出，該研究將AI與內科主治醫生進行比較，而非急診專科醫生。

"如果我們要將AI工具與醫生的臨床能力進行比較，應當首先與真正從事該專科的醫生對比，"Panthagani說，"大語言模型能否在神經外科考試中擊敗皮膚科醫生，我並不意外，但這並沒有太大的實際意義。"

她還強調："作為一名首次接診患者的急診科醫生，我的首要目標不是猜測最終診斷，而是判斷患者是否存在危及生命的緊急狀況。"

Q&A

Q1：這項哈佛AI診斷研究是怎麼做的？

A：研究團隊選取了76名貝斯以色列醫院急診患者，將OpenAI的o1和4o模型生成的診斷與兩位內科主治醫生的診斷進行對比，再由另外兩位醫生進行盲評。結果顯示，o1模型在67%的分診病例中給出了準確或接近準確的診斷，高於兩位醫生的55%和50%。

Q2：AI診斷能否直接應用於真實急診場景？

A：目前還不行。研究本身也明確指出，此次發現僅說明有必要開展進一步的前瞻性試驗，並未證明AI已具備在急診室獨立承擔生死抉擇的能力。此外，研究僅評估了文本資訊處理能力，現有AI模型在處理非文本醫療輸入方面仍存在明顯局限，相關問責機制也尚未建立。

Q3：為什麼有醫生認為這項研究被過度解讀了？

A：急診科醫生Kristen Panthagani指出，研究對照組是內科主治醫生，而非急診專科醫生，比較對象本身不夠對等。她還強調，急診醫生的核心任務是快速識別危及生命的緊急狀況，而非給出最終診斷，因此單純比較診斷準確率並不能全面反映急診臨床能力的差異。