超過半數的成年人會通過網際網路查詢健康資訊,其中三分之一的人會藉助人工智慧(AI)來獲取相關資訊。然而,能夠獲取資訊並不等同於能夠準確理解或正確解讀資訊。因此,AI健康資訊領域中人的因素仍然是重要的研究課題。
這一點在皮膚科領域(涵蓋皮膚、毛髮、指甲,以下統稱"皮膚")尤為突出。人們在網上搜尋與皮膚問題相關的資訊時,往往面臨困難。例如,當你發現"腿上有紅點"時,可能並不具備將其具體描述為"可觸及性紫癜"的專業背景知識。
多年來,研究團隊在這一領域構建了堅實的技術基礎,包括開發用於輔助鑑別診斷的AI模型、驗證模型的泛化能力,以及發布SCIN等數據集,以支持臨床醫生和研究人員的工作。然而,真正產生重大影響,需要為有皮膚問題的人提供高質量資訊,從而支持其決策過程。
為了實現這一目標,深入理解人類如何藉助AI來輔助決策至關重要。此前針對非AI工具的研究表明,人們雖然可能藉助網際網路提高識別某種病症的能力,但在判斷下一步該採取何種行動方面並不一定有所提升。因此,隨著AI工具的逐步普及,我們需要認真研究並持續改善人的因素,幫助用戶做出更明智的決策。
基於上述背景,本文分享了近期及過往關於消費者如何理解和使用皮膚科AI工具的相關研究成果。其中包括一項大規模定量研究,證明了AI輔助能夠顯著提升用戶準確命名皮膚病症的能力,並在判斷後續處理步驟方面帶來一定收益;同時還涵蓋一項深度混合方法研究,探討了人們如何將這些工具應用於自身皮膚問題,以及由此獲得的認知與醫生溝通效果的對比。
大規模定量研究:AI如何提升用戶對皮膚病症的理解
本周,《JAMA皮膚病學》期刊發表了題為《消費者藉助AI資訊工具對皮膚狀況的理解》的研究論文。研究探討了結構化AI輔助如何改變用戶識別病症及判斷後續步驟的能力。研究團隊向2345名問卷參與者展示了經過處理的去標識化皮膚病症案例,內容涵蓋圖像和結構化病史資訊,並要求參與者將這些案例代入自身情境進行體驗。
參與者被隨機分配至三組:一組使用標準搜索工具作為對照,一組使用AI輔助工具,一組使用"綠野仙蹤(Wizard of Oz)"實驗設置,即接受與實際診斷完全吻合的"完美預測"。
研究結果顯示,AI輔助在提升消費者理解方面具有統計學意義上的顯著效果。使用AI工具的參與者中,願意嘗試命名所展示病症的比例超過62%,而使用標準搜索工具的對照組僅為41%。
更為關鍵的是,參與者在病症命名準確率方面取得了大幅提升。AI輔助組的準確率(23%)約為無輔助對照組(8%)的三倍。"綠野仙蹤"組的準確率約為對照組的四倍(36%),但仍遠未達到理想水平。AI"卡片"式展示匹配病症的方式,還顯著提升了參與者對病症猜測結果的信心,以及對搜索結果和搜索時間的整體滿意度。
後續步驟判斷仍面臨挑戰
為避免工具過於主導用戶判斷,研究中的AI設計側重於將圖像與可能的病症進行匹配,並由用戶自行解讀應採取的後續措施。研究目標是幫助用戶高效搜索資訊,而非替用戶作出診斷或處方建議。此外,相關處理建議和資訊由皮膚科醫生基於權威來源撰寫,內容僅依據病症名稱,並未針對具體案例的嚴重程度進行個性化定製。
或許正因為提供的資訊較為籠統,用戶在判斷適當的後續醫療步驟時仍面臨較大挑戰,例如是選擇居家處理還是緊急預約就診。研究發現,雖然"綠野仙蹤"組的後續步驟判斷準確率略有提升(63.5% vs 對照組60%),但標準AI組並未呈現統計學意義上的顯著改善。此外,與對照組相比,AI組的參與者更傾向於建議採取緊迫程度較低的後續處理方式(30% vs 27%)。
這一結果表明,僅僅識別病症名稱往往並不足夠。在設計工具以更好地幫助普通用戶了解最安全、最恰當的後續步驟方面,仍有進一步改進的空間。
真實場景研究:多元社區的深度體驗
大規模問卷研究在把握整體趨勢方面具有重要價值,但研究團隊也認識到,有必要深入了解人們在面對自身皮膚問題(而非他人病症圖片)時如何解讀相關資訊。為了獲取更豐富、更細膩的反饋,研究團隊直接從最有可能受益於這些工具的社區中徵集了深度定性見解。
去年,相關成果以《藉助AI應對皮膚問題:皮膚科應用在多元社區中以人為本的研究》為題,發表於ACM人機交互(CHI)會議。該研究與斯坦福醫療AI應用研究團隊(HEA3RT)及聖克拉拉家庭健康計劃(SCFHP)合作開展。SCFHP服務於周邊社區,其中許多成員依賴加州醫療救助計劃(Medi-Cal)獲得醫療保障。研究旨在觀察來自多元背景、知情同意的參與者在真實場景中實際使用皮膚AI系統,並了解其對系統所提供資訊的反應。
為確保工具真正服務於目標社區,研究團隊將AI應用翻譯成參與者使用的四種主要語言,並安排相應語言流利的志願者或工作人員在場協助溝通。
在這項真實場景研究中,110名知情同意的參與者使用了該應用(並在使用後立即與臨床醫生進行諮詢以解答疑問)。與上述問卷研究結果類似,使用該應用後,參與者命名自身病症的能力提升了260%,儘管正確猜測率整體偏低。參與者高度依賴將教科書圖像與自身皮膚狀況進行視覺對比匹配,這凸顯了收錄多種膚色、不同嚴重程度及不同部位病症圖像的重要性,以便用戶進行有效的"模式匹配"。
參與研究的臨床醫生認為,該應用的預測結果與其自身對病症的評估總體吻合(吻合率為86%)。由於參與者可以在臨床諮詢過程中打開應用,臨床醫生也得以將其作為共同參考工具,進而促進醫患溝通。臨床醫生有92%的情況認為該應用是一個有幫助的工具。
研究展望與未來方向
上述研究聚焦於利用基於圖像的AI,幫助來自多元背景的用戶更好地理解皮膚狀況。研究揭示的主要改進方向包括:提供更多教科書式示例以引導用戶理解和模式匹配,以及提供更具針對性的可操作資訊,以更貼近用戶的實際查詢需求(而非僅停留在病症層面)。此外,基於圖像相似性工具的研究還表明,普通用戶更傾向於採用圖像與文本相結合的多模態AI皮膚病症資訊搜索方式,而非單獨使用其中一種。
綜合來看,這些研究共同描繪出皮膚病症資訊搜索的未來圖景:以視覺為入口可以降低使用門檻,更具個性化的AI引導有助於用戶梳理複雜的醫療資訊。然而,要打造真正高效的工具,仍需持續開展以人為本的研究,確保每個人都能有效理解並運用這些資訊,從而更好地支撐自身的健康醫療之旅。
Q&A
Q1:AI皮膚病工具能幫助普通人準確識別皮膚病症嗎?
A:根據發表於《JAMA皮膚病學》的研究,AI輔助工具顯著提升了用戶識別皮膚病症的能力。使用AI工具的參與者中,願意嘗試命名病症的比例超過62%,而對照組僅為41%;命名準確率也達到23%,約為無輔助對照組(8%)的三倍。可見AI工具對普通人理解皮膚狀況具有明顯幫助,但準確率仍有較大提升空間。
Q2:AI皮膚工具能不能幫用戶判斷是否需要去醫院?
A:目前效果有限。研究發現,AI輔助在幫助用戶判斷後續醫療步驟(如居家處理還是緊急就診)方面提升不顯著,標準AI組未呈現統計學意義上的改善。此外,AI組參與者甚至略微傾向於低估病症的緊迫程度。這說明僅靠識別病症名稱還不夠,工具在引導用戶做出安全、恰當的後續決策方面仍需持續優化。
Q3:皮膚AI應用在多元社區的真實場景中效果怎麼樣?
A:效果總體積極。在與斯坦福醫療AI應用研究團隊合作開展的研究中,110名參與者使用皮膚AI應用後,命名自身病症的能力提升了260%。臨床醫生認為該應用預測與其自身評估的吻合率達86%,並在92%的情況下將其視為有幫助的工具。該應用還被翻譯為四種語言,有效降低了語言障礙,展現了其在多元社區中的適用潛力。






