想像一下,一位20世紀50年代的醫生正在治療一位症狀複雜的患者。他會首先查閱袖珍工具書《華盛頓醫學治療手冊》,接下來又翻開辦公室里保存的冗長參考資料《哈里遜內科學原理》。由於仍然難下診斷,他又與同事們討論了這個病例,再動身前往醫院的圖書館中搜索相關期刊文章。
在整個20世紀,醫生主要就是依靠這種方式檢索醫學知識。然而幾十年過去,資訊總量激增,電腦將知識內容數字化、網際網路則連通了整個世界。到21世紀初,醫生轉向在線資訊來源,首先通過台式電腦、隨後則開始使用移動設備。
現如今,醫生們又多了更多知識檢索方案。
醫生們會經常搜索PubMed及谷歌學術等資料庫,翻閱UpToData主題摘要。有三分之二的從業者會使用MDCalc,這是一款帶有各種決策支持功能的即時參考工具。此外,醫生們還會訪問專業協議網站、WebMD等醫學網站,有時甚至還會參考非醫學類網站。
而人工智慧的大爆發再次改變了我們獲取知識的方式。在本文中,我們將一同了解AI科技如何幫助從業者在資訊浪潮中緊跟時代步伐。
在資訊浪潮中緊跟時代步伐
PubMed索引共包含3600萬篇綜述文章,並且以每年100萬篇的速度持續增加——相當於每分鐘新增兩篇。谷歌學術上則包含約4億篇論文、引文及專利,外加幾千份臨床實踐指南。很明顯,沒有任何人類醫生能夠跟得上這樣的知識更新速度。
在20世紀90年代初,熱愛網球、極具前瞻性思維的哈佛醫學院腎病專家Bud Rose博士曾嘗試開發一款電腦程序來解決這個問題。這款程序能夠搜索並定期更新存儲在軟盤之上的臨床「主題卡」,而由此建立的公司被他命名為UpToDate。
隨著主題數量的增加,存儲介質也變成了CD-ROM、網際網路以及移動設備。
如今,UpToDate已經成為Wolters Kluwer Health的組成部分,其中約有8000名附屬臨床專家及60名副主編共同遵循同行評審的循證醫學方法,開發並維護著涵蓋25個醫學專業的1.2萬份臨床主題摘要。
這款產品大獲成功。目前來自約5萬家醫療機構的近300萬臨床醫生都在通過機構訂閱等形式使用UpToDate,面向個人用戶的年度訂閱價格則為579美元。
這份權威摘要大受歡迎自然有其原因。正如Wolters Kluwer Health首席醫療官Peter Bonis博士在採訪中所言,「我們所做的一切,都是為了幫助臨床醫生針對患者病情做出最佳決策。」
然而,由於其並不屬於查詢服務,所以醫生必須翻閱相關主題摘要才能為困擾自己的問題找到答案。例如,UpToDate無法直接回答用戶「如何治療小腸細菌過度滋生?」的問題。相反,用戶需要先搜索SIBO、選擇主題摘要,再瀏覽結果才能發現作者普遍推薦利福昔明作為首選療法。該公司報告稱,用戶交互的平均持續時間長達60秒。
UptoDate主題摘要示例
運用AI科技管理醫學知識
UpToDate目前正為平台添加AI驅動搜索功能,以便用戶可以直接從現有摘要中訪問到有針對性且可逐字逐句查詢的相關段落。其目標也非常明確,讓產品更加易用、效率更高,同時避免因引入AI生成內容而導致的錯誤。
OpenEvidence及Consensus等專門構建的新興AI原生搜尋引擎則採用了不同的實現方法。這些產品不會顯示預先寫好的主題摘要,而直接以動態形式回應用戶的查詢。
這類解決方案面臨的核心挑戰,在於如何確保其輸出足夠可靠以符合醫療實踐的要求。生成式AI產品經常會產生不夠穩定的答案。例如,谷歌Gemini大模型就曾犯下廣為人知的錯誤,建議人們每天吃一塊石頭,理由是「石頭是礦物質和維生素的重要來源」。
這類「幻覺」在很大程度上反映了所謂「垃圾進、垃圾出」的問題。正如OpenEvidence公司創始人Daniel Nadler對此做出的解釋,「網站索引並不是事實索引。」因此在整個網際網路數據(包括來自Reddit及Onion網站的數據)之上訓練而成的大語言模型,必然會產生虛假資訊。
Nadler創立的這家公司源自梅奧診所的平台加速計劃,希望通過確保僅從經同行評審的生物醫學文獻中汲取知識來迴避這些問題。
當用戶(必須身為臨床醫生)輸入寬泛或具體的問題(例如「對於買不起利福昔明的患者,我該如何治療小腸細菌過度滋生?」)之後,OpenEvidence會在數百萬份臨床文檔中識別出潛在的相關來源,包括對PubMed摘要、期刊文章全文、專著、書籍章節等中的元數據進行索引。在此之後,它會根據查詢的相關性、出版日期、期刊影響因子以及引用計數等因素選擇最權威的知識來源。最後,由大語言模型整理出帶有引用來源鏈接的摘要響應結果。
OpenEvidence正在醫學領域迅速傳播。自今年1月以來,已經有超過25萬名臨床醫生訪問該網站,單在剛剛過去的11月就完成了近200萬次查詢。該產品主要靠廣告支持運營,個人用戶可以免費使用。
另有一款名為Consensus的AI搜尋引擎,涵蓋醫學以及生物學、環境科學等非醫科學領域。此網站面向公眾開放,其中臨床醫生占用戶總量的五分之一。在輸入問題之後,Consensus就會整理答案,同時輔以指示建議強度的「共識指標」(對於是/否類問題)。
OpenEvidence查詢響應示例
權衡利弊
打個比方,搜索PubMed或者谷歌學術就類似於向圖書管理員詢問特定主題的最佳知識來源。UpToDate則更接近圖書館中的特殊收藏。在使用這些工具時,用戶必須瀏覽大量超鏈接列表,選定並閱讀來源、再從中提取相關資訊。通過這樣的過程,用戶需要花費一些時間和精力來逐漸了解某個主題,再根據自己掌握的新知識嘗試解決特定問題。
與此不同,使用OpenEvidence或者Consensus等AI搜索則類似於直接向一位聰明的教授提問並收到帶有參考資料的答案。其快速、方便而且非常具體。箇中的風險在於,某些「言之鑿鑿」的答案可能達不到置信標準或者缺乏充分的背景資訊。因此,臨床醫生必須全程持續跟進,並在必要時進行深入挖掘。
為此,我們向兩位傑出的資訊學醫生詢問了他們對AI搜索的看法。
MDCalc創始人兼急診科醫生Graham Walker博士警告稱,「人們對於自動化系統可能引發偏見的擔憂值得關注——已經有一部分醫生默認這些工具比自己更聰明,而這會逐漸削弱醫生對於患者症狀進行批判性思考的能力。」
在另一方面,心臟病專家及資訊學家Larry Klein博士則認為AI搜索具有顯著且純粹的積極作用。他解釋稱,「我每天都在使用OpenEvidence,向它問題,它就像隨時坐在我身邊的一位專家級同事。這項技術毫無疑問具有革命性意義。」
但請注意,傳統搜索與AI搜索其實各有用處,只是適用場景不甚相同。例如,接收急性冠狀動脈綜合徵患者的住院醫生可能會查閱UpToDate以了解診療原則,而一位傑出的腎病學家也可能會搜索PubMed來參考腎小球腎炎治療試驗中患者的特徵。與此對應,在青黴素過敏的情況下,決定是否治療幽門螺旋桿菌感染的家庭護士則可向OpenEvidence查詢以獲取快速指導。
展望未來
調查發現,臨床醫生每接待兩名患者,就會面對至少一個醫學知識方面的問題——通常涉及症狀產生原因或者疾病的治療方法。然而,醫生們往往只能為半數問題找到答案,主要就是因為沒有充足的查詢時間。
AI搜索能夠加快資訊傳播速度來協助解決這個問題。然而,這種新的工作方式也凸顯出人機管理、細微差別與簡潔性、自動/手動處理以及潛在的機器錯誤/人為錯誤之間的密切關聯。我們必須認真評估這些AI工具如何影響臨床工作人員及患者,努力保證其儘量發揮更純粹的積極作用。
縱觀行業歷史,醫生管理資訊的方式一直在變化並且備受關注。例如,當初曾有許多醫生反對從醫學教科書中學習知識,強調根據經驗總結心得才能讓人們進行更加深入的思考。幾十年後,又有人「堅持認為醫療資訊的數字化,破壞了有形紙質工具所承載的傳統思維與認知實踐。」
發展之路從來不可能一帆風順。快速運用集體知識的能力既可以幫助醫療從業者更好地減輕病患痛苦、促進診療體驗,也有助於減輕醫生們的認知負擔以保持更充沛的精力與工作狀態。
隨著各類新興AI功能的出現,我們應當將重點從回憶事實轉向提出正確問題。儘管答案的出現速度遠遠超過歷史上的任何時期,但大多數臨床決策仍然缺乏充足的已發表數據。因此,臨床直覺和經驗仍然非常重要——與以往任何時候都同等重要!正如循證醫學運動的先驅們解釋的那樣,「優秀的醫生既善於運用個人臨床專業知識,也重視對高質量外部證據的參考,二者不可偏廢、應當相輔相成。」