AI當「心理醫生」靠譜嗎？上海交大、EverMind聯合打造首個中文精神科AI診斷評測平台

這項由上海交通大學醫學院附屬精神衛生中心與EverMind AI公司、天橋腦科學研究院聯合完成的研究，於2026年8月發表在第32屆ACM SIGKDD知識發現與數據挖掘會議論文集（KDD '26）上，發表地點為韓國濟州島，論文DOI為10.1145/3770855.3817539，arXiv預印本編號為2602.09379。感興趣的讀者可通過上述編號查閱完整原文。

贊助商廣告

全球大約每八個人中就有一個人正在經歷某種精神心理障礙——抑鬱、焦慮、強迫、雙相……這些疾病悄無聲息地影響著數以億計的家庭。然而，精神科醫生的數量遠遠跟不上需求，看診排隊、候診數月的情況在全世界普遍存在。與此同時，精神科診斷本身也極具挑戰性，它不像驗血那樣有明確數字，而是高度依賴醫生與患者之間的面對面交流、問診、觀察，主觀成分較重，不同醫生對同一個患者的判斷可能存在差異。

正因如此，人工智慧輔助精神科診斷的研究方向近年來受到越來越多的關注。大型語言模型（也就是像ChatGPT這類能理解和生成文字的AI）展現出了令人期待的潛力。但在實際落地之前，有一個根本性的問題必須先回答：這些AI到底有多厲害，又在哪些地方還差得遠？要回答這個問題，就需要一個足夠真實、足夠全面的"考場"來考一考它們。

來自上海交大精神衛生中心和EverMind AI的研究團隊，正是為了搭建這樣一個考場，才設計出了今天要介紹的這套系統——靈犀診斷基準（LingxiDiagBench）。這是目前為止規模最大、最貼近真實臨床場景的中文精神科AI診斷評測平台，也是第一個能同時評測AI"靜態讀診斷"和"動態問診"兩種能力的綜合性框架。

一、為什麼現有的AI考場都不夠用

要理解這項研究的價值，先得明白現有的評測工具有哪些問題。

以往的精神科AI評測，大多像是紙筆考試——給AI一段已經寫好的對話或病歷，讓它從中判斷患者得了什麼病。這種方式有三個明顯的缺陷。

贊助商廣告

其一，那些對話大多是模板化生成的，聽起來不像真人說話，缺乏真實病人在診室里那種混亂、迂迴、情緒化的表達方式。其二，很多評測數據集裡缺少做精準區分診斷所必需的關鍵資訊，而且診斷標籤也沒有經過真正的臨床醫生核實，可靠性存疑。其三，幾乎沒有哪個評測平台支持讓AI真正"開口問診"——也就是說，它們只測了AI"看診斷記錄做判斷"的能力，而沒有測AI"主動與患者交流、收集資訊、逐步得出結論"的能力。

這就好比你想知道一個廚師的真實水平，卻只給他看菜譜，從不讓他實際下廚。

靈犀診斷基準的設計初衷，正是要同時測這兩件事：既測AI看著現成對話做診斷的能力，也測AI自己主導問診、主動採集資訊、最終給出診斷的能力。

二、數據從哪裡來——一萬六千份"仿真病歷"的誕生

整個研究體系的地基，是一個叫做"靈犀診斷-16K"（LingxiDiag-16K）的數據集，裡面包含一萬六千份合成問診對話和對應的電子病歷。

這些數據並非憑空捏造，而是有嚴肅的臨床依據。研究團隊首先在上海精神衛生中心收集了約4500名門診患者的真實數據，經過匿名化處理、語音轉錄和人工核驗後，最終整理出1709份配有完整電子病歷和經過驗證轉錄文本的真實案例，構成了"靈犀臨床數據集"（LingxiDiag-Clinical）。這項工作經過上海精神衛生中心倫理委員會審查批准，每位參與者或其監護人均簽署了知情同意書。

有了這1709份真實案例作為基礎，研究團隊的下一步是把它們的統計規律"提煉"出來，構建成一張知識圖譜，再根據這張圖譜批量生成合成數據。具體來說，合成過程包含七個環節：從真實數據的經驗分布中採樣年齡、性別、科室和ICD-10診斷編碼（即世界衛生組織的國際疾病分類體系中的精神疾病代碼），然後依次生成陪同就診者資訊、個人史、主訴、現病史、輔助欄位，最後將所有欄位組裝成完整的電子病歷。

贊助商廣告

這樣做的好處是雙重的：一方面保護了患者隱私，沒有任何真實病人的資訊被直接使用；另一方面，生成的數據在統計分布上與真實數據高度吻合。從表格數據來看，兩個數據集在年齡分布、性別比例、各疾病類型占比上的差異均控制在5個百分點以內。以抑鬱發作（F32）為例，真實數據中占比35.2%，合成數據中為34.8%；焦慮障礙（F41）分別為22.1%和22.5%。除了這些數字層面的一致性，合成數據還復現了真實數據中的社會規律——比如年輕患者更多是學生、中年患者多已婚就業等年齡相關的生活模式——以及臨床文本的語言特徵，包括主訴和現病史的字符長度分布。研究團隊用詹森-香農散度（JS散度，一種衡量兩個分布相似程度的數學工具，值越小越相似）來量化這種一致性，各診斷類別的主訴長度JS散度均在0.03到0.07之間，說明合成數據與真實數據在語言風格上極為接近。

三、考場裡有三位"演員"——患者、醫生、診斷師

靈犀診斷基準不是單純的靜態題庫，而是一個動態的多智能體（multi-agent，即多個AI協作運行）框架。在這個框架里，扮演著三種不同角色：患者智能體、醫生智能體和診斷智能體。

患者智能體的任務是模擬真實患者在門診中的行為。它以真實病歷數據為基礎，被注入患者的基本資訊、主訴、病史和診斷資訊，同時獲得對話歷史作為上下文，以此來生成符合真實患者特徵的回應。

然而，研究團隊發現，僅靠這些還不夠。直接讓大語言模型扮演患者，往往會出現三個不自然的問題：回復太長，症狀一股腦全部說出來而不是逐漸透露，以及語言過於書面化、缺少口語的粗糙感。為此，研究團隊專門設計了一套精細的提示詞工程（也就是通過精心設計給AI的"指令"來改變它的行為），讓AI患者的回應更加簡短、零散、自然，同時還從真實數據的經驗分布中採樣目標回復長度來控制字數。這套改進版患者智能體被命名為"靈犀患者"（LingxiDiag-Patient）。

贊助商廣告

醫生智能體扮演精神科醫生的角色，負責主導問診過程。研究團隊為它設計了四種不同的問診策略，以便對比不同策略下的效果。

第一種叫"自由發揮"（Free-form）：AI被告知自己是一位資深精神科醫生，可以自主決定問什麼、怎麼問，以及什麼時候資訊收集夠了可以做診斷。這種策略沒有任何外部框架約束。

第二種叫"症狀樹"（Symptom-Tree）：借鑑了此前一項叫MDD-5K的研究所使用的症狀決策樹方法，沿著預先定義好的症狀路徑逐一詢問。這種方法的局限在於它需要一個有限的預設症狀集合，當目標疾病種類增多時，需要查詢的症狀數量會急劇膨脹，效率較低。

第三種叫"APA引導"（APA-Guided）：遵循美國精神病學協會（APA）的五階段臨床訪談指南，依次經歷篩查（主訴和症狀持續時間）、評估（核心症狀細節和功能損害）、深挖（具體症狀及潛在原因）、風險評估（自殺和自傷篩查）和總結（關鍵資訊確認）五個階段，每個階段有必問項目和可選項目，以及明確的階段切換條件。

第四種叫"APA引導+多輪診斷檢索增強"（APA-Guided + MRD-RAG）：在第三種的基礎上加入了檢索增強模組。具體來說，在評估和深挖階段，系統會根據當前對話內容和疑似診斷，從一份中文臨床指南文檔中檢索出最相關的診斷標準段落（使用Qwen3-Embedding-8B生成向量，通過FAISS索引進行相似度搜索，再用Qwen3-Reranker-8B重排序，最終提供排名前三的疑似診斷的相關指南內容），為醫生智能體的下一個問題提供循證支持。

診斷智能體的工作則相對獨立。它不參與實時問診，而是接收完整的對話記錄，根據完整資訊給出診斷結論和支持性臨床推理。

四、兩種考試模式——靜態做題和動態問診

靈犀診斷基準設計了兩種互補的評測範式。

第一種是"靜態評測"（LingxiDiagBench-Static）：給AI提供固定的問診對話文本，讓它直接從中做出診斷判斷。這種模式側重於可重複的標準化評測，方便對不同AI進行橫向比較。靜態評測包含兩個任務：一是"輔助診斷"，二是"醫生下一問預測"。

贊助商廣告

輔助診斷任務按難度分為三個層級。最簡單的是二分類任務：只區分抑鬱和焦慮兩種疾病，而且專門排除了同時患兩種病的情況。中等難度是四分類任務：在抑鬱和焦慮之外，還要區分"混合型抑鬱焦慮"（兩種病同時存在）和"其他精神疾病"。最難的是十二分類任務，涵蓋ICD-10中的12個主要精神疾病類別：精神分裂症（F20）、雙相情感障礙（F31）、抑鬱發作（F32）、未特指心境障礙（F39）、焦慮障礙（F41）、強迫症（F42）、應激相關障礙（F43）、軀體形式障礙（F45）、睡眠障礙（F51）、童年起病障礙（F98）、諮詢服務（Z71）以及其他類別。這個任務要求AI具備跨越多種異質性疾病的寬泛鑑別診斷能力。

醫生下一問預測任務則是給AI看到當前對話進行到某一步，讓AI預測醫生接下來應該問什麼問題。這個任務考查的是AI對問診流程的理解是否足夠深入，能否生成在臨床上合理的後續問題。評測指標包括BLEU分（衡量詞語層面的重合度）、ROUGE-L分（衡量最長公共子序列的相似度）和BERTScore（衡量語義層面的相似度）。

第二種是"動態評測"（LingxiDiagBench-Dynamic）：醫生智能體與患者智能體進行真實的多輪對話，完成整個問診過程後再給出診斷。這種模式考查的是端到端的完整能力，既測問診質量，也測最終診斷準確率。

五、大模型們的成績單——有驚喜，也有令人擔憂的盲區

研究團隊對一大批當前最先進的大語言模型進行了全面評測，包括來自阿里巴巴的Qwen3系列（1.7B、4B、8B、32B四個規模）、百川的Baichuan-M2-32B和Baichuan-M3-235B、月之暗面的Kimi-K2-Thinking、DeepSeek-V3.2、谷歌的Gemini-3-Flash、OpenAI的GPT-OSS-20B和GPT-5-Mini，以及Anthropic的Claude-Haiku-4.5。此外還測了傳統機器學習方法作為基線對比，包括TF-IDF特徵提取配合邏輯回歸、支持向量機和隨機森林分類器。

靜態評測的結果呈現出清晰的難度梯度。對於區分抑鬱和焦慮的二分類任務，各方法的準確率普遍較高——在合成數據集上，Gemini-3-Flash達到了85.4%的最高準確率；在真實臨床數據集上，Qwen3-4B達到了88.7%。這個成績放在醫療AI領域算是相當不錯的，說明現有大模型在區分最常見的兩種精神疾病上已經具備了相當的能力。

贊助商廣告

然而一旦加入"兩種病同時存在"的可能性，進入四分類任務，準確率就明顯下滑。在合成數據集上，傳統方法TF-IDF加隨機森林以47.9%的準確率領跑，Qwen3-32B達到43.8%；在真實臨床數據集上，Qwen3-32B以52.4%居首。這意味著，當AI需要識別"這個患者既有抑鬱又有焦慮"這種共病情況時，它的表現會大幅退步。

到了最難的十二分類任務，局面就更加嚴峻了。在合成數據集上，GPT-5-Mini以40.9%的準確率排名最高；在真實臨床數據集上，Qwen3-32B的宏平均F1分數（一種綜合考量各類別均衡表現的指標）最高，達到27.8%。值得注意的是，Top-3準確率（即正確診斷是否出現在模型給出的前三個候選中）要高得多——在真實數據上，Qwen3-4B的Top-3準確率高達69.8%，說明模型大多時候能把正確答案"圈"在候選範圍內，但難以精準地把它排到第一位。

整體評分（Clf-Ovl，綜合所有任務指標的綜合得分）方面，在合成數據集上，傳統的TF-IDF加邏輯回歸以0.533分意外位居榜首，略高於GPT級別的大模型；在真實臨床數據集上，Qwen3-32B以0.548分領先。這個結果耐人尋味，傳統方法在綜合評測中並沒有被完全碾壓，說明精神科診斷並非單純靠"大"就能勝任的任務。

醫生下一問預測任務的結果則相對集中，各大模型之間差異不大。BLEU分大約在20%到23%之間，BERTScore在72%到84%之間。其中DeepSeek-V3.2在合成數據集上的BLEU（22.2%）和ROUGE-L（24.6%）表現最突出，Qwen3-8B的BERTScore（84.4%）最高。這說明在理解問診流程、預測下一步該問什麼這件事上，現有大模型已經具備了相當水準，但距離完美仍有差距。

六、動態問診的挑戰——會聊天的AI不一定會診斷

動態評測的結果揭示了一個更為複雜的圖景。

在二分類任務上，動態問診模式下的最高準確率達到了92.3%（DeepSeek-V3.2，使用APA引導加檢索增強策略），甚至高於靜態評測的最好成績。這說明對於最基礎的診斷任務，AI通過主動問診收集到的資訊，有時反而比閱讀一段固定對話更有幫助。

贊助商廣告

但在四分類和十二分類任務上，動態模式的表現往往低於靜態模式。最好的四分類準確率為43.0%（Grok-4.1-Fast，APA引導加檢索增強），最好的十二分類準確率為28.5%（同樣是Grok-4.1-Fast，同樣策略）。這意味著，在實時問診中，AI如果問診策略不當、資訊收集不充分，就會直接拖累最終的診斷判斷。

四種問診策略之間的差異也很明顯。總體來看，APA引導加檢索增強策略的綜合診斷得分（Clf-Ovl）在大多數模型上都優於其他三種策略，比純APA引導策略平均提升了約5個百分點，說明在問診過程中引入臨床指南的實時檢索確實有助於提升診斷精準度。而且，研究團隊使用真實臨床數據（而非AI模擬患者）進行了同樣的動態評測，發現整體診斷準確率反而更高——二分類最高達91.2%，十二分類最高達47.0%。這很可能是因為真實臨床案例的症狀表現更為典型，而AI模擬患者的回應儘管逼真，但在某些細節上仍與真實患者有所差異。

值得關注的是，問診質量評分與診斷準確率之間的相關性並不高，皮爾遜相關係數約為0.43。換句話說，一個AI醫生"問得好"和"診斷對"是兩件相對獨立的事情，不能簡單地用前者推斷後者。這個發現提示：在訓練和優化AI精神科助手時，問診能力和診斷推理能力需要分開來針對性地提升，而不能寄希望於"只要問診問得像樣，診斷自然就准"。

七、AI患者的考核——誰演得最像真實患者

研究團隊還對患者智能體本身的質量進行了系統評估，評分維度包括六個方面：資訊準確性（回答是否符合病歷背景）、誠實性（是否如實作答，不誇大或捏造）、簡潔性（是否簡短而非長篇大論）、主動性（是否自然地主動透露部分資訊）、克制性（是否保持情感上的真實克制，而非過度表現）和語言潤色（語言是否自然口語化）。所有維度採用1到5分制評分，評分由三個AI評判模型（Gemma-3-27B、GPT-OSS-20B和Qwen3-30B-A3B）構成的評審團進行，三者取均值，對缺失評分使用中位數插補。

贊助商廣告

改進後的靈犀患者在所有行為真實性維度上都大幅優於此前研究中使用的MDD-5K患者智能體。以Qwen3-32B為骨幹模型的靈犀患者綜合得分達到4.67分，而相同骨幹下MDD-5K患者的得分僅為3.05分，差距相當顯著。有趣的是，靈犀患者的最高綜合得分（4.67）甚至略超過了真實臨床數據的基準得分（4.30）。研究團隊分析，真實臨床數據之所以沒有拿滿分，可能是因為錄音中的實際對話和醫生後來填寫的電子病歷之間存在偶爾的不一致——畢竟人工填寫總有疏漏。

在不同骨幹模型中，大體呈現出模型規模越大、真實感越強的規律，但也有例外——Grok-4.1-Fast和Qwen3-4B在準確性維度上出現了較大的方差，說明這兩個模型的角色扮演穩定性相對較弱。Qwen3系列中較小的模型（1.7B、8B、32B）反而在大多數維度上表現非常穩定，Qwen3-8B（4.64分）和Qwen3-1.7B（4.65分）與Qwen3-32B（4.67分）差距極小，說明在精心的提示詞工程加持下，較小的模型也能勝任高質量患者模擬任務。

研究團隊還邀請了兩位執照精神科醫生對64份對話樣本進行人工評分，結果與AI評審團的判斷高度一致：靈犀患者在所有六個患者維度上都顯著優於MDD-5K患者（統計顯著性p

八、合成數據真的有用嗎——遷移學習的實證檢驗

有人可能會懷疑：這些合成數據畢竟是AI生成的，用它來訓練或評測AI，會不會只是"用鏡子照鏡子"，看起來效果好，實際上並沒有真正學到有用的東西？

研究團隊用一個實驗回答了這個問題。他們用LoRA（一種參數高效微調技術，類似於給模型裝了一個輕量級的"知識插件"而不必重寫整個模型）對Qwen3-8B和Qwen3-32B在合成訓練集上進行微調，然後分別在合成測試集和真實臨床測試集上評測。如果合成數據只是"鏡子"，那麼在真實數據上的提升應該很有限。

結果卻令人信服：Qwen3-8B在真實臨床數據上的十二分類精確準確率從4.1%躍升至41.4%，足足提升了37.3個百分點；Qwen3-32B從20.4%提升至39.7%，提升了19.3個百分點。綜合分類得分（Clf-Ovl）在真實數據上分別從0.529和0.548提升至0.553和0.558。這充分說明，合成數據不只是表面上和真實數據像，而是確實編碼了有臨床價值的醫療知識，用它訓練出來的模型能夠真正泛化到真實的精神科門診場景。

贊助商廣告

說到底，靈犀診斷基準這項工作揭示了一幅既令人鼓舞、又需保持清醒的圖景。一方面，當前最先進的大語言模型在區分抑鬱和焦慮這兩種最常見的精神疾病上已經展現出了相當高的水平，最高準確率超過九成；另一方面，一旦遇到共病（同時患兩種及以上疾病）識別或者需要在十多種疾病之間做精細區分的場景，AI的表現就會大幅下滑，差強人意。動態問診比靜態判斷更難，會問問題和會做診斷是兩種需要分別培養的能力，強大的閒聊能力並不直接等於精準的診斷能力。

這些發現對於未來的AI精神科助手研究者來說，提供了非常清晰的路線圖：需要專門提升模型對共病模式的識別能力；需要針對動態問診過程單獨優化資訊採集策略；不能只靠做大模型規模就期望診斷準確率自然提升，問診和診斷這兩條腿都得練。

當然，這套系統目前還有局限。數據來自上海一家醫院，以中文為主，在文化和語言層面未必能完全推廣到其他國家和語言環境，儘管框架本身在技術上是語言無關的。此外，評測覆蓋的是初診階段，治療方案制定、隨訪管理這些同樣重要的臨床環節還沒有被納入考量，這將是未來研究的方向。

研究團隊已經將靈犀診斷-16K數據集和完整評測代碼開源，任何感興趣的研究者都可以在此基礎上繼續探索。如果你想深入了解這項研究的所有技術細節，可以通過DOI 10.1145/3770855.3817539查閱完整論文原文。

Q&A

Q1：靈犀診斷-16K數據集是怎麼保護真實患者隱私的？

A：靈犀診斷-16K中的所有對話都是AI根據真實數據的統計規律生成的合成數據，並不包含任何真實患者的原始資訊。真實患者數據在收集時已經過嚴格匿名化處理，去除了姓名、身份證號、聯繫方式等全部個人標識符，整個研究方案也經過了上海精神衛生中心倫理委員會審批。兩位執照精神科醫生對合成數據集中的樣本進行了抽檢，確認沒有任何受保護的健康資訊被保留。

贊助商廣告

Q2：大語言模型在精神科診斷上目前最大的短板是什麼？

A：根據靈犀診斷基準的評測結果，當前大語言模型最明顯的短板有兩個。一是共病識別能力薄弱，當患者同時患有抑鬱和焦慮時，AI的準確率會從九成左右驟降至四成多。二是動態問診能力與診斷推理能力的脫節，一個AI"問診問得像樣"並不能保證它"診斷做得準確"，兩者相關性僅約0.43，說明需要分別針對性地訓練這兩種能力。

Q3：靈犀診斷基準能用於訓練真正的臨床AI系統嗎？

A：靈犀診斷基準目前定位是研究評測工具，而非直接可部署的臨床系統。研究團隊明確強調，基於這套數據訓練的AI系統應當作為輔助工具來增強醫生判斷，而不是替代專業臨床決策。在真正進入臨床應用之前，還需要經過嚴格的臨床驗證、監管審批和人工監督。不過，交叉驗證實驗已經證明，合成數據訓練出的模型能夠泛化到真實臨床數據，具備作為訓練資源的實際價值。