宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

卡內基梅隆大學:當AI助手遇上因果推斷,誰才該擁有"定案權"?

2026年06月25日 首頁 » 熱門科技

這項由卡內基梅隆大學與阿布達比穆罕默德·本·扎耶德人工智慧大學聯合開展的研究,以預印本形式發布於2026年6月22日,論文編號為arXiv:2606.23608,有興趣深入了解的讀者可通過該編號查詢完整論文。

假設你是一位刑警,案發現場留下了許多線索。你有兩個助手:一個是經驗豐富的法醫,能用精密儀器分析血跡、指紋和彈道;另一個是博覽群書的顧問,能講述無數相似案例的故事,提供背景知識。如果你讓法醫來鑑定證據、得出科學結論,同時讓顧問幫你理解案情背景、整理卷宗、解釋專業術語——這套搭配天衣無縫。但如果你讓顧問來"拍板定案",直接告訴你誰是兇手,而他的依據不過是"這種案子通常都是鄰居乾的"……那就很危險了。

這正是卡內基梅隆大學研究團隊在這篇論文中想要說清楚的事情:在因果發現領域,大語言模型(也就是ChatGPT這類AI)扮演的應該是"顧問"的角色,而不是"法醫",更不是"主審法官"。

一、什麼是"因果發現",為什麼它如此重要

在日常生活中,我們常常分不清"相關"和"因果"。比如,一個城市裡冰淇淋銷量高的月份,溺水事故也更多——但你不能因此得出"吃冰淇淋導致溺水"的結論,真正的原因是夏天天熱,人們既喜歡吃冰淇淋,也喜歡去游泳。找出真正的因果關係,而非表面的相關關係,正是"因果發現"這門學問要解決的核心問題。

回到這位刑警的比喻:因果發現就像從海量的案發現場記錄(也就是觀測數據)中,嚴格推斷出"誰影響了誰"的真實鏈條。這件事之所以重要,是因為在基因組學、生態學、神經科學、流行病學等許多科學領域,真正做一次受控實驗往往代價極高、耗時極長,甚至在倫理上根本不被允許。你不能隨機讓一半人去吸菸來研究肺癌,但你可以通過大量觀測數據,用因果發現的方法來推斷兩者之間的關係。

研究團隊指出,因果發現領域已經發展出幾大方法家族。基於約束的方法,比如PC算法和FCI算法,核心思路是通過檢驗變量之間的"條件獨立性"來排除不可能的因果結構——就像法醫通過排除不可能的嫌疑人來縮小排查範圍。基於評分的方法,比如GES算法,則是給不同的圖結構評分,找出最能解釋數據的那一個,就像評審團根據證據質量來為不同版本的案情陳述評分。基於函數因果模型的方法,比如LiNGAM系列算法,利用的是噪聲分布和函數形式的不對稱性來判斷方向——就像通過子彈的飛行軌跡反推射擊位置。此外還有處理潛在變量的方法,以及時間序列中的格蘭傑因果方法。這些方法各有各的假設前提,沒有一種是萬能的,選錯了假設就可能得出錯誤的結論。

問題在於,這套方法體系對於沒有專業訓練的研究者來說門檻極高。一位生物學家可能拿到了一份基因表達數據,卻不知道該選哪種算法,也不清楚自己的數據是否滿足算法的假設條件,更不知道最後得到的那張圖上那些半截箭頭到底意味著什麼。這就是AI助手有可能大顯身手的地方——也是這篇論文要鄭重提醒大家警惕的地方。

二、AI助手的"誘惑"與隱患

近年來,研究者們開始嘗試把大語言模型引入因果發現的流程。一種思路是直接問AI:"根據這些變量的名字和描述,你覺得A和B之間誰影響誰?"AI憑藉從海量文本中學到的知識,給出一個方向判斷。另一種思路是把AI的輸出作為先驗知識或約束條件,塞進統計發現算法裡,讓算法在AI"認為合理"的結構範圍內搜索。

乍一看,這種做法很吸引人。畢竟大語言模型讀過無數論文,懂得各個領域的常識,為什麼不利用這些知識來加速分析呢?

但研究團隊指出了一個根本性的問題:因果發現要找的是數據中真實存在的證據,而大語言模型學的是文本中的規律。當AI說"吸菸導致肺癌",它的依據可能是數以千計的醫學文獻;但當它說"變量A影響變量B",這個判斷背後可能混雜著統計證據、文獻知識、訓練數據中的措辭習慣,甚至是對某種"聽起來合理的故事"的偏好——而這些來源根本無法在事後分開。

把這種混雜的判斷植入因果圖,得到的結果就像是一份由法醫數據和道聽途說混合寫成的鑑定報告。這張圖上某條邊的來源,到底是數據中的統計信號、算法的假設約束,還是AI從某篇論文摘要里學來的"常見機制"?沒人說得清。這種不透明在因果發現中尤其危險,因為因果結論的價值,恰恰在於你能清楚地知道它的每一步是如何推導出來的。

更麻煩的是,因果發現的結果本來就已經足夠複雜、足夠容易被誤讀了。比如一個CPDAG(完全部分有向無環圖)並不是一個確定的因果圖,它代表的是一整類在統計上等價的因果模型;一個PAG(部分祖先圖)也並不是一個完整的因果模型,它表示的是一類可能包含隱變量和選擇偏差的模型集合。如果這時候AI用流暢自信的語氣給出解讀,很容易讓人把一個"可能的假設"當成"確定的事實"來接受。

研究團隊還特別指出了一類更隱蔽的風險:AI助手可能在流程中悄悄做了一些"小決定",比如默默刪掉了某個變量、把文獻里提到的一對關係設置為"禁止邊"、把某個閾值調低一點讓一個潛在變量剛好出現……每一步單獨看都像是在"幫忙",但加在一起,算法實際處理的數據和輸出的圖,已經不再是原來那個嚴格意義上的因果發現結果了。

三、AI的正確位置:助手而非法官

既然AI不能充當"定案者",那它究竟能做什麼?研究團隊給出了一個清晰的定位:AI助手應該圍繞因果發現的工作流程提供支持,而不是進入推斷核心。

具體來說,AI可以在數據理解階段發揮作用。當研究者上傳一份數據集,AI可以調用工具,幫助總結每個變量的含義、檢測缺失值的分布情況、標記出可能是唯一標識符或時間戳的列、繪製基本分布圖。這類工作類似於案發之前的現場勘查記錄工作——整理線索,而不是得出結論。

在數據預處理階段,AI可以解釋不同的處理方式會對後續分析產生什麼影響,比如對數據進行標準化、如何處理缺失值、是否需要對某些變量進行離散化……但是,具體選擇哪種處理方式,必須由用戶來拍板,而不是由AI悄悄決定。每一個預處理步驟都應該是用戶有意識做出的決定,而不是AI自動完成的後台操作。

在算法推薦階段,AI可以扮演一個翻譯者的角色。研究者通常清楚自己的科學問題,但未必知道哪種因果發現算法適合自己的數據。AI可以幫助把"我想研究這些基因是否互相影響"這樣的科學問題,翻譯成"你的數據有沒有可能存在隱變量?你的變量是否滿足線性非高斯假設?"這樣的方法論問題,再推薦合適的候選算法家族,並解釋每種方法背後的假設和局限。

在專家知識融入階段,AI可以通過檢索文獻、查閱方法文檔或調用自身背景知識,為研究者提供領域背景資訊。比如說明某個問卷題目的心理學背景,或者提醒某種常見的測量誤差模式。這些資訊可以幫助研究者更好地理解自己的數據,但它們只是"供參考的背景",而不能直接變成因果圖裡的一條邊或一個約束。任何來自AI的領域知識,如果要進入正式的分析流程,都必須經過用戶或領域專家的明確確認。

在結果解讀階段,AI可以幫助把那些複雜的圖形符號轉化為普通人能理解的語言,解釋圖上每一個箭頭和每一個圓圈的含義,說明哪些結論是方法能保證的,哪些只是條件性的假設。這個階段尤其重要,因為因果發現的輸出本來就很容易被誤讀,一個好的AI助手能幫助人們保持對結論邊界的清醒認識——而不是把一個"在某些假設下成立的推斷"包裝成一個"鐵板釘釘的因果事實"。

研究團隊把這套設計原則概括為五個關鍵詞:分離(AI的建議與正式推斷核心保持隔離)、可見(所有預處理和假設選擇都明確呈現)、可追溯(每一個圖上的輸出都能追溯到具體的數據、參數和用戶決定)、可撤銷(用戶可以檢查並撤銷AI輔助的步驟)、用戶確認(任何情境知識在進入正式分析前都需要用戶明確批准)。

四、causal-learn+:一個把原則落地的平台

為了把上述原則變成可以實際使用的工具,研究團隊構建了一個在線平台,名為causal-learn+,可以在causallearn.com上直接使用,不需要安裝任何軟體,也不需要編寫代碼。

這個平台建立在causal-learn這個開源Python庫的算法生態之上,後者已經在學界積累了相當廣泛的關注。causal-learn+支持的方法覆蓋了因果發現的幾大主流方向:基於約束的方法包括PC、MV-PC(專門處理含缺失數據的情況)、FCI和CD-NOD;基於評分的方法包括GES、DGES、A*、動態規劃方法、GRaSP和BOSS;基於函數的方法包括ANM、PNL、LiNGAM全系列(包括DirectLiNGAM、VAR-LiNGAM)以及RCD和CAM-UV;處理潛在變量的方法包括GIN和RLCD;時間序列方向提供線性格蘭傑因果方法。平台還內置了多種條件獨立性檢驗方式,包括Fisher z檢驗、卡方檢驗、核方法檢驗(KCI)和G方檢驗,以及BIC、BDeu和廣義評分等多種評分函數。

整個分析流程的設計,像是一條有嚴格分工的流水線。數據上傳之後,AI助手首先幫助用戶檢視數據的基本情況;接下來,AI協助用戶考慮預處理方案,但所有決定由用戶做主;然後AI根據數據特徵和科學問題推薦候選算法,由用戶選擇;在此過程中,AI可以檢索並展示領域背景知識,但這些知識只作為參考,不自動進入算法;隨後,被保護的算法核心開始運行——條件獨立性檢驗、評分計算、圖搜索、方向確定,全部由明確的算法完成,沒有任何AI參與;最後,AI幫助用戶理解輸出的圖,解釋圖形標記、總結假設、形成報告。

用一個直觀的比喻來理解這套架構:算法核心就像是案件最終的DNA鑑定程序,完全由標準化的科學儀器操作,任何人都不能隨意干預;而AI助手則像是案件協調員,負責前期準備、資料整理、溝通翻譯和後期匯報,但沒有權力修改鑑定結果。

五、大五人格數據的實戰檢驗

研究團隊用一個真實的心理學數據集來展示這套框架如何運作,選用的是"大五人格"問卷數據。

大五人格是心理學中一個經典的人格理論框架,認為人的性格可以從五個維度來描述:開放性(對新體驗的好奇程度)、盡責性(有條理、守規則的程度)、外向性(善於社交、喜歡與人互動的程度)、宜人性(合作、信任他人的程度)和神經質(情緒不穩定、容易焦慮的程度)。每個維度用10道題來測量,總共50道題。

這個數據集包含接近兩萬份有效問卷,回答經過缺失值處理後進行標準化分析。數據集本身就已經說明了為什麼需要有人引導:用戶需要理解每道題的含義、知道如何處理缺失值、要決定是否需要對措辭反向的題目進行反轉編碼,還要考慮要不要把年齡、性別等人口學變量納入分析。這些決定每一個都會影響最終的因果圖,但沒有一個有唯一正確答案。

在這個例子中,因為要處理潛在的隱變量(人格維度本身是不能直接測量的,我們只能觀測到問卷回答),研究團隊使用了專門處理含有因果相關隱變量的RLCD方法,並輔以GIN方法來幫助確定隱變量之間關係的方向。

得到的因果圖顯示,與同一個大五維度相關的題目,往往在圖上聚集在共同的隱變量周圍,這與人格維度作為公共原因驅動一系列特定回答的理論是一致的。同時,圖中也出現了隱變量之間的關聯,以及部分題目之間的直接聯繫,這更接近人格研究中"網路視角"的觀點——認為人格特質不是獨立存在的,而是通過具體的行為和想法相互影響的。比如圖中出現了L1→L6→L3和L1→L2→L3這樣的隱變量路徑,以及O2→O4和O1→O8這樣具體題目之間的關聯,為領域專家提供了值得進一步探索的假設。

在這整個過程中,AI助手可以幫助整理50道題目的含義、提示哪些是反向編碼的題目、解釋為什麼選擇RLCD而不是其他方法、檢索大五人格測量的心理學背景知識,以及在結果出來之後,幫助把圖上那些以L1、L2這樣的代號出現的隱變量,結合題目內容,轉化為研究者能夠理解和討論的語言。

但是,AI在這裡絕對不能做的事情是:直接把某個隱變量命名為"外向性"並宣稱這就是結論;把某條邊的方向改成"心理學上更合理"的方向;刪掉某些"看起來奇怪"的題目;或者為了讓結果看起來更符合大五理論,把某個參數調整一下。這些看起來無害甚至善意的干預,每一個都會讓最終的圖偏離數據的真實信號,變成AI對心理學的某種主觀理解。

六、這套思路的意義與未來

歸根結底,這篇論文要表達的觀點可以用一句話來概括:AI的流利不等於AI的正確,AI的博學不等於AI的可信。

因果發現這件事,核心價值在於每一步推斷都有明確的來源——這個結論來自哪個數據、基於哪些假設、用了哪種算法、通過了哪些診斷檢驗。這種來源的清晰性,是結論可以被質疑、被驗證、被推翻的前提,也是科學的本質所在。一旦把AI的輸出混入推斷核心,這條可追溯的鏈條就斷了,你面對的就是一張來源不明的圖——它可能對,也可能是AI"編"出來的故事。

研究團隊對未來工作提出了幾個方向。社區需要建立專門的基準測試,來衡量AI助手是否真正改善了數據診斷的質量和算法選擇的準確性;需要開發審計追蹤工具,把數據、假設、AI建議、用戶決定和算法輸出作為獨立的記錄分開保存;需要設計讓領域專家在假設進入分析之前給予明確確認的交互界面;還需要評估AI的引導是否減少了用戶對部分識別圖的過度解讀。

更長遠地看,研究團隊提出了一個更有野心的方向:是否有可能從因果推斷的第一性原理出發,訓練專門為因果分析設計的基礎模型,把顯式假設、可識別性條件和失效模式直接內嵌到模型的訓練目標里?如果這類模型最終能給出帶有形式保證的因果輸出,那麼AI也許有一天可以更直接地參與因果發現的核心推斷。但在那一天到來之前,安全的設計是把今天的AI助手擋在推斷核心之外,同時讓它把那扇通往核心的大門變得更容易打開、更容易理解、更容易通過。

說到底,這篇論文的核心貢獻並不是一個全新的算法,而是一種關於"AI在科學分析中應該扮演什麼角色"的嚴肅思考,並且把這種思考落實成了一套可以實際使用的工具。它揭示了一個容易被忽視的問題:AI越聰明、越流利,就越容易讓人忘記它說的不一定是真的。在需要嚴格證據鏈的科學推斷中,保持對AI輸出來源的清醒認識,反而是比利用AI更重要的事情。

對於任何關心"AI能做什麼、不該做什麼"這個問題的人來說,這篇研究提供了一個難得的具體案例:在因果發現這個對證據嚴格性要求極高的領域,研究者是如何一步步劃定AI與算法之間的邊界,並把這個邊界落實成可以運行的系統的。如果你想進一步了解這套框架或者親手試用,可以訪問causallearn.com,也可以通過arXiv編號2606.23608找到原論文。

---

Q&A

Q1:因果發現和普通的相關性分析有什麼區別?

A:相關性分析只能告訴你兩個變量是否有關聯,因果發現則要找出誰影響了誰。比如冰淇淋銷量和溺水事故都在夏天升高,相關性分析會說兩者相關,但因果發現能幫你識別出真正的共同原因是"天氣變熱",而不是冰淇淋引發溺水。因果發現需要更嚴格的算法和假設,輸出也更有實際指導意義。

Q2:causal-learn+平台上的AI助手為什麼不能直接給出因果圖?

A:因為大語言模型學習的是文本規律,它的"知識"混合了統計證據、文獻印象、訓練數據偏差和可能的錯誤推斷。如果把AI的輸出直接變成因果圖的邊或方向,你就無法分辨這條邊是來自數據的真實信號,還是AI從某篇論文裡學來的"常識",甚至是AI編造的"聽起來合理的故事",因果結論的可靠性就失去了保證。

Q3:大五人格數據的因果發現案例中,隱變量代表什麼?

A:隱變量是算法在數據中發現的"看不見的共同原因"。在大五人格數據里,外向性、神經質這些人格維度本身無法直接測量,只能從問卷回答中推斷。算法發現的隱變量,有些大致對應某個人格維度,有些可能代表多個維度的混合,或者反映答題風格,具體含義需要領域專家結合圖的結構和題目內容來判斷,不能由AI直接命名為確定的心理特質。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新