卡內基梅隆大學：當AI助手遇上因果推斷，誰才該擁有"定案權"？

這項由卡內基梅隆大學與阿布達比穆罕默德·本·扎耶德人工智慧大學聯合開展的研究，以預印本形式發布於2026年6月22日，論文編號為arXiv:2606.23608，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

假設你是一位刑警，案發現場留下了許多線索。你有兩個助手：一個是經驗豐富的法醫，能用精密儀器分析血跡、指紋和彈道；另一個是博覽群書的顧問，能講述無數相似案例的故事，提供背景知識。如果你讓法醫來鑑定證據、得出科學結論，同時讓顧問幫你理解案情背景、整理卷宗、解釋專業術語——這套搭配天衣無縫。但如果你讓顧問來"拍板定案"，直接告訴你誰是兇手，而他的依據不過是"這種案子通常都是鄰居乾的"……那就很危險了。

這正是卡內基梅隆大學研究團隊在這篇論文中想要說清楚的事情：在因果發現領域，大語言模型（也就是ChatGPT這類AI）扮演的應該是"顧問"的角色，而不是"法醫"，更不是"主審法官"。

一、什麼是"因果發現"，為什麼它如此重要

在日常生活中，我們常常分不清"相關"和"因果"。比如，一個城市裡冰淇淋銷量高的月份，溺水事故也更多——但你不能因此得出"吃冰淇淋導致溺水"的結論，真正的原因是夏天天熱，人們既喜歡吃冰淇淋，也喜歡去游泳。找出真正的因果關係，而非表面的相關關係，正是"因果發現"這門學問要解決的核心問題。

回到這位刑警的比喻：因果發現就像從海量的案發現場記錄（也就是觀測數據）中，嚴格推斷出"誰影響了誰"的真實鏈條。這件事之所以重要，是因為在基因組學、生態學、神經科學、流行病學等許多科學領域，真正做一次受控實驗往往代價極高、耗時極長，甚至在倫理上根本不被允許。你不能隨機讓一半人去吸菸來研究肺癌，但你可以通過大量觀測數據，用因果發現的方法來推斷兩者之間的關係。

研究團隊指出，因果發現領域已經發展出幾大方法家族。基於約束的方法，比如PC算法和FCI算法，核心思路是通過檢驗變量之間的"條件獨立性"來排除不可能的因果結構——就像法醫通過排除不可能的嫌疑人來縮小排查範圍。基於評分的方法，比如GES算法，則是給不同的圖結構評分，找出最能解釋數據的那一個，就像評審團根據證據質量來為不同版本的案情陳述評分。基於函數因果模型的方法，比如LiNGAM系列算法，利用的是噪聲分布和函數形式的不對稱性來判斷方向——就像通過子彈的飛行軌跡反推射擊位置。此外還有處理潛在變量的方法，以及時間序列中的格蘭傑因果方法。這些方法各有各的假設前提，沒有一種是萬能的，選錯了假設就可能得出錯誤的結論。

贊助商廣告

問題在於，這套方法體系對於沒有專業訓練的研究者來說門檻極高。一位生物學家可能拿到了一份基因表達數據，卻不知道該選哪種算法，也不清楚自己的數據是否滿足算法的假設條件，更不知道最後得到的那張圖上那些半截箭頭到底意味著什麼。這就是AI助手有可能大顯身手的地方——也是這篇論文要鄭重提醒大家警惕的地方。

二、AI助手的"誘惑"與隱患

近年來，研究者們開始嘗試把大語言模型引入因果發現的流程。一種思路是直接問AI："根據這些變量的名字和描述，你覺得A和B之間誰影響誰？"AI憑藉從海量文本中學到的知識，給出一個方向判斷。另一種思路是把AI的輸出作為先驗知識或約束條件，塞進統計發現算法裡，讓算法在AI"認為合理"的結構範圍內搜索。

乍一看，這種做法很吸引人。畢竟大語言模型讀過無數論文，懂得各個領域的常識，為什麼不利用這些知識來加速分析呢？

但研究團隊指出了一個根本性的問題：因果發現要找的是數據中真實存在的證據，而大語言模型學的是文本中的規律。當AI說"吸菸導致肺癌"，它的依據可能是數以千計的醫學文獻；但當它說"變量A影響變量B"，這個判斷背後可能混雜著統計證據、文獻知識、訓練數據中的措辭習慣，甚至是對某種"聽起來合理的故事"的偏好——而這些來源根本無法在事後分開。

把這種混雜的判斷植入因果圖，得到的結果就像是一份由法醫數據和道聽途說混合寫成的鑑定報告。這張圖上某條邊的來源，到底是數據中的統計信號、算法的假設約束，還是AI從某篇論文摘要里學來的"常見機制"？沒人說得清。這種不透明在因果發現中尤其危險，因為因果結論的價值，恰恰在於你能清楚地知道它的每一步是如何推導出來的。

更麻煩的是，因果發現的結果本來就已經足夠複雜、足夠容易被誤讀了。比如一個CPDAG（完全部分有向無環圖）並不是一個確定的因果圖，它代表的是一整類在統計上等價的因果模型；一個PAG（部分祖先圖）也並不是一個完整的因果模型，它表示的是一類可能包含隱變量和選擇偏差的模型集合。如果這時候AI用流暢自信的語氣給出解讀，很容易讓人把一個"可能的假設"當成"確定的事實"來接受。

贊助商廣告

研究團隊還特別指出了一類更隱蔽的風險：AI助手可能在流程中悄悄做了一些"小決定"，比如默默刪掉了某個變量、把文獻里提到的一對關係設置為"禁止邊"、把某個閾值調低一點讓一個潛在變量剛好出現……每一步單獨看都像是在"幫忙"，但加在一起，算法實際處理的數據和輸出的圖，已經不再是原來那個嚴格意義上的因果發現結果了。

三、AI的正確位置：助手而非法官

既然AI不能充當"定案者"，那它究竟能做什麼？研究團隊給出了一個清晰的定位：AI助手應該圍繞因果發現的工作流程提供支持，而不是進入推斷核心。

具體來說，AI可以在數據理解階段發揮作用。當研究者上傳一份數據集，AI可以調用工具，幫助總結每個變量的含義、檢測缺失值的分布情況、標記出可能是唯一標識符或時間戳的列、繪製基本分布圖。這類工作類似於案發之前的現場勘查記錄工作——整理線索，而不是得出結論。

在數據預處理階段，AI可以解釋不同的處理方式會對後續分析產生什麼影響，比如對數據進行標準化、如何處理缺失值、是否需要對某些變量進行離散化……但是，具體選擇哪種處理方式，必須由用戶來拍板，而不是由AI悄悄決定。每一個預處理步驟都應該是用戶有意識做出的決定，而不是AI自動完成的後台操作。

在算法推薦階段，AI可以扮演一個翻譯者的角色。研究者通常清楚自己的科學問題，但未必知道哪種因果發現算法適合自己的數據。AI可以幫助把"我想研究這些基因是否互相影響"這樣的科學問題，翻譯成"你的數據有沒有可能存在隱變量？你的變量是否滿足線性非高斯假設？"這樣的方法論問題，再推薦合適的候選算法家族，並解釋每種方法背後的假設和局限。

在專家知識融入階段，AI可以通過檢索文獻、查閱方法文檔或調用自身背景知識，為研究者提供領域背景資訊。比如說明某個問卷題目的心理學背景，或者提醒某種常見的測量誤差模式。這些資訊可以幫助研究者更好地理解自己的數據，但它們只是"供參考的背景"，而不能直接變成因果圖裡的一條邊或一個約束。任何來自AI的領域知識，如果要進入正式的分析流程，都必須經過用戶或領域專家的明確確認。

贊助商廣告

在結果解讀階段，AI可以幫助把那些複雜的圖形符號轉化為普通人能理解的語言，解釋圖上每一個箭頭和每一個圓圈的含義，說明哪些結論是方法能保證的，哪些只是條件性的假設。這個階段尤其重要，因為因果發現的輸出本來就很容易被誤讀，一個好的AI助手能幫助人們保持對結論邊界的清醒認識——而不是把一個"在某些假設下成立的推斷"包裝成一個"鐵板釘釘的因果事實"。

研究團隊把這套設計原則概括為五個關鍵詞：分離（AI的建議與正式推斷核心保持隔離）、可見（所有預處理和假設選擇都明確呈現）、可追溯（每一個圖上的輸出都能追溯到具體的數據、參數和用戶決定）、可撤銷（用戶可以檢查並撤銷AI輔助的步驟）、用戶確認（任何情境知識在進入正式分析前都需要用戶明確批准）。

四、causal-learn+：一個把原則落地的平台

為了把上述原則變成可以實際使用的工具，研究團隊構建了一個在線平台，名為causal-learn+，可以在causallearn.com上直接使用，不需要安裝任何軟體，也不需要編寫代碼。

這個平台建立在causal-learn這個開源Python庫的算法生態之上，後者已經在學界積累了相當廣泛的關注。causal-learn+支持的方法覆蓋了因果發現的幾大主流方向：基於約束的方法包括PC、MV-PC（專門處理含缺失數據的情況）、FCI和CD-NOD；基於評分的方法包括GES、DGES、A*、動態規劃方法、GRaSP和BOSS；基於函數的方法包括ANM、PNL、LiNGAM全系列（包括DirectLiNGAM、VAR-LiNGAM）以及RCD和CAM-UV；處理潛在變量的方法包括GIN和RLCD；時間序列方向提供線性格蘭傑因果方法。平台還內置了多種條件獨立性檢驗方式，包括Fisher z檢驗、卡方檢驗、核方法檢驗（KCI）和G方檢驗，以及BIC、BDeu和廣義評分等多種評分函數。

整個分析流程的設計，像是一條有嚴格分工的流水線。數據上傳之後，AI助手首先幫助用戶檢視數據的基本情況；接下來，AI協助用戶考慮預處理方案，但所有決定由用戶做主；然後AI根據數據特徵和科學問題推薦候選算法，由用戶選擇；在此過程中，AI可以檢索並展示領域背景知識，但這些知識只作為參考，不自動進入算法；隨後，被保護的算法核心開始運行——條件獨立性檢驗、評分計算、圖搜索、方向確定，全部由明確的算法完成，沒有任何AI參與；最後，AI幫助用戶理解輸出的圖，解釋圖形標記、總結假設、形成報告。

贊助商廣告

用一個直觀的比喻來理解這套架構：算法核心就像是案件最終的DNA鑑定程序，完全由標準化的科學儀器操作，任何人都不能隨意干預；而AI助手則像是案件協調員，負責前期準備、資料整理、溝通翻譯和後期匯報，但沒有權力修改鑑定結果。

五、大五人格數據的實戰檢驗

研究團隊用一個真實的心理學數據集來展示這套框架如何運作，選用的是"大五人格"問卷數據。

大五人格是心理學中一個經典的人格理論框架，認為人的性格可以從五個維度來描述：開放性（對新體驗的好奇程度）、盡責性（有條理、守規則的程度）、外向性（善於社交、喜歡與人互動的程度）、宜人性（合作、信任他人的程度）和神經質（情緒不穩定、容易焦慮的程度）。每個維度用10道題來測量，總共50道題。

這個數據集包含接近兩萬份有效問卷，回答經過缺失值處理後進行標準化分析。數據集本身就已經說明了為什麼需要有人引導：用戶需要理解每道題的含義、知道如何處理缺失值、要決定是否需要對措辭反向的題目進行反轉編碼，還要考慮要不要把年齡、性別等人口學變量納入分析。這些決定每一個都會影響最終的因果圖，但沒有一個有唯一正確答案。

在這個例子中，因為要處理潛在的隱變量（人格維度本身是不能直接測量的，我們只能觀測到問卷回答），研究團隊使用了專門處理含有因果相關隱變量的RLCD方法，並輔以GIN方法來幫助確定隱變量之間關係的方向。

得到的因果圖顯示，與同一個大五維度相關的題目，往往在圖上聚集在共同的隱變量周圍，這與人格維度作為公共原因驅動一系列特定回答的理論是一致的。同時，圖中也出現了隱變量之間的關聯，以及部分題目之間的直接聯繫，這更接近人格研究中"網路視角"的觀點——認為人格特質不是獨立存在的，而是通過具體的行為和想法相互影響的。比如圖中出現了L1→L6→L3和L1→L2→L3這樣的隱變量路徑，以及O2→O4和O1→O8這樣具體題目之間的關聯，為領域專家提供了值得進一步探索的假設。

贊助商廣告

在這整個過程中，AI助手可以幫助整理50道題目的含義、提示哪些是反向編碼的題目、解釋為什麼選擇RLCD而不是其他方法、檢索大五人格測量的心理學背景知識，以及在結果出來之後，幫助把圖上那些以L1、L2這樣的代號出現的隱變量，結合題目內容，轉化為研究者能夠理解和討論的語言。

但是，AI在這裡絕對不能做的事情是：直接把某個隱變量命名為"外向性"並宣稱這就是結論；把某條邊的方向改成"心理學上更合理"的方向；刪掉某些"看起來奇怪"的題目；或者為了讓結果看起來更符合大五理論，把某個參數調整一下。這些看起來無害甚至善意的干預，每一個都會讓最終的圖偏離數據的真實信號，變成AI對心理學的某種主觀理解。

六、這套思路的意義與未來

歸根結底，這篇論文要表達的觀點可以用一句話來概括：AI的流利不等於AI的正確，AI的博學不等於AI的可信。

因果發現這件事，核心價值在於每一步推斷都有明確的來源——這個結論來自哪個數據、基於哪些假設、用了哪種算法、通過了哪些診斷檢驗。這種來源的清晰性，是結論可以被質疑、被驗證、被推翻的前提，也是科學的本質所在。一旦把AI的輸出混入推斷核心，這條可追溯的鏈條就斷了，你面對的就是一張來源不明的圖——它可能對，也可能是AI"編"出來的故事。

研究團隊對未來工作提出了幾個方向。社區需要建立專門的基準測試，來衡量AI助手是否真正改善了數據診斷的質量和算法選擇的準確性；需要開發審計追蹤工具，把數據、假設、AI建議、用戶決定和算法輸出作為獨立的記錄分開保存；需要設計讓領域專家在假設進入分析之前給予明確確認的交互界面；還需要評估AI的引導是否減少了用戶對部分識別圖的過度解讀。

更長遠地看，研究團隊提出了一個更有野心的方向：是否有可能從因果推斷的第一性原理出發，訓練專門為因果分析設計的基礎模型，把顯式假設、可識別性條件和失效模式直接內嵌到模型的訓練目標里？如果這類模型最終能給出帶有形式保證的因果輸出，那麼AI也許有一天可以更直接地參與因果發現的核心推斷。但在那一天到來之前，安全的設計是把今天的AI助手擋在推斷核心之外，同時讓它把那扇通往核心的大門變得更容易打開、更容易理解、更容易通過。

贊助商廣告

說到底，這篇論文的核心貢獻並不是一個全新的算法，而是一種關於"AI在科學分析中應該扮演什麼角色"的嚴肅思考，並且把這種思考落實成了一套可以實際使用的工具。它揭示了一個容易被忽視的問題：AI越聰明、越流利，就越容易讓人忘記它說的不一定是真的。在需要嚴格證據鏈的科學推斷中，保持對AI輸出來源的清醒認識，反而是比利用AI更重要的事情。

對於任何關心"AI能做什麼、不該做什麼"這個問題的人來說，這篇研究提供了一個難得的具體案例：在因果發現這個對證據嚴格性要求極高的領域，研究者是如何一步步劃定AI與算法之間的邊界，並把這個邊界落實成可以運行的系統的。如果你想進一步了解這套框架或者親手試用，可以訪問causallearn.com，也可以通過arXiv編號2606.23608找到原論文。

---

Q&A

Q1：因果發現和普通的相關性分析有什麼區別？

A：相關性分析只能告訴你兩個變量是否有關聯，因果發現則要找出誰影響了誰。比如冰淇淋銷量和溺水事故都在夏天升高，相關性分析會說兩者相關，但因果發現能幫你識別出真正的共同原因是"天氣變熱"，而不是冰淇淋引發溺水。因果發現需要更嚴格的算法和假設，輸出也更有實際指導意義。

Q2：causal-learn+平台上的AI助手為什麼不能直接給出因果圖？

A：因為大語言模型學習的是文本規律，它的"知識"混合了統計證據、文獻印象、訓練數據偏差和可能的錯誤推斷。如果把AI的輸出直接變成因果圖的邊或方向，你就無法分辨這條邊是來自數據的真實信號，還是AI從某篇論文裡學來的"常識"，甚至是AI編造的"聽起來合理的故事"，因果結論的可靠性就失去了保證。

Q3：大五人格數據的因果發現案例中，隱變量代表什麼？

A：隱變量是算法在數據中發現的"看不見的共同原因"。在大五人格數據里，外向性、神經質這些人格維度本身無法直接測量，只能從問卷回答中推斷。算法發現的隱變量，有些大致對應某個人格維度，有些可能代表多個維度的混合，或者反映答題風格，具體含義需要領域專家結合圖的結構和題目內容來判斷，不能由AI直接命名為確定的心理特質。

贊助商廣告