這項由耶路撒冷希伯來大學電腦科學與工程學院聯合該校法學院、以及艾倫人工智慧研究所共同完成的研究,以預印本形式發布於2026年4月10日,論文編號為arXiv:2604.09237。有興趣深入了解的讀者可以通過該編號在arXiv平台上查閱完整論文。
**研究背景:學者們每天都在做一件極其費力卻又不得不做的苦差事**
每當一位學者想要回答一個有意義的研究問題,往往要先經歷一段漫長而痛苦的準備過程。以一位法學教授為例,他想搞清楚一件事:由不同屆美國總統任命的法官,在處理移民禁令案件時,判決傾向是否存在差異?聽起來是個很有價值的問題,但要回答它,首先得把數百份法庭判決文書一份一份翻出來,手動設計一張"記錄表"(也就是所謂的注釋模式,即annotation schema),決定要記錄哪些資訊——是任命總統?判決結果?還是法官的資歷?然後再招募助理,一條一條地把數據從文書中抄錄下來,填進表格。這個過程往往需要耗費數月乃至數年,而且充滿了人為失誤的風險。
這種"先設計表格、再人工填表"的流程,在法學、生物學、電腦科學等眾多學科中普遍存在。研究人員每天面對的,是一座座由文字堆砌成的山,卻只能用手鏟一點點挖掘。更麻煩的是,表格里記錄什麼欄位,往往取決於研究者自身的知識儲備和對文獻的了解程度——如果某個重要因素沒有被想到,就會永遠缺失在資料庫里,影響最終分析的準確性。
正是為了解決這個問題,來自耶路撒冷的研究團隊開發了一套名為ScheMatiQ的框架。這套系統的核心思路,可以用一句話來概括:你只需告訴它你想研究什麼,以及你手上有哪些文件,它就能幫你自動設計記錄表格,並把相關數據從文件里提取出來,形成一個結構化的資料庫。
**一、這套系統到底在做什麼:從一個問題到一張有意義的表格**
理解ScheMatiQ最直接的方式,是跟著它的工作流程走一遍。假設你是那位研究移民案件的法學教授,手上有89份美國法院判決文書,你的問題是:不同總統任命的法官,判決傾向有無差異?
ScheMatiQ接收到你的問題和這批文書後,會依次完成三件事。
第一件事,是弄清楚"你的問題在問誰"。這聽起來有點玄,但實際上非常關鍵。研究者的問題,有時候是在問某一類具體的對象——在上面這個例子裡,問的是"法官"這個群體;換一個問題,比如"移民禁令案件的結果受法院級別影響嗎",那關注的核心對象就變成了"庭審案件"本身,而不再是法官個人。ScheMatiQ把這個核心對象稱為"觀察單元"(observation unit),並通過閱讀研究問題和一批示例文件,用AI模型自動判斷出它是什麼。這一步的輸出非常具體:一個名稱(比如"Judge,法官")、一段描述("在所提供法律文件中參與該案的單個法官個體"),以及幾個具體例子(如"Ruth Bader Ginsburg"、"Antonin Scalia")。
確定了"在問誰"之後,第二件事是設計記錄表格的列,也就是"發現模式"(schema discovery)。系統會批量閱讀文件,每處理一批,就向AI提一個問題:"這批文件里,有沒有什麼資訊是對回答研究問題有幫助的,但還沒被記錄進表格里?"如果有,就把它加進去;如果沒有新資訊,就繼續處理下一批,直到所有文件都讀完,或者新欄位不再出現為止。這個過程就像一個經驗豐富的研究助理在讀文獻時,邊讀邊往便利貼上記錄關鍵發現,最後整理成一張完整的提問清單。
第三件事,是用這張清單去逐一填表,也就是"結構化數據提取"(structured data extraction)。系統對每份文件,先識別出其中提到了哪些觀察單元實例(哪些法官出現在了這份判決書里),再對每個實例,嘗試把表格里所有欄位一次性填完。如果某些欄位沒有填上,系統會專門針對這些欄位再做一次更有針對性的提取,直到實在找不到證據為止。最重要的是,每一個填入的數據,都必須附帶"出處"——即原文中支撐該數據的具體文欄位落,研究者可以隨時點擊查看,驗證數據的來源是否準確。
**二、人始終握著方向盤:系統不是在替代研究者,而是在輔助他們**
ScheMatiQ的設計哲學中,有一個非常重要的堅持:人不能被系統架空。研究者在整個過程的每一個節點,都保留著干預和修改的權利。
在觀察單元發現這一步,如果系統猜錯了研究對象——比如把"法官"誤認為"案件"——研究者可以直接在界面上修改,甚至完全手動指定。在模式發現這一步,研究者可以增加欄位、刪除欄位、修改欄位的定義,或者把意義相近的欄位合併。如果研究者之後又獲得了新的文件,還可以把它們繼續投入系統,讓系統在已有表格的基礎上,發現是否有新的欄位值得添加。在數據提取這一步,研究者可以對任何一個單元格的值進行修改,確保最終資料庫里的每一條記錄都經過了人工核查。
這種"AI提議、人來拍板"的協作方式,研究團隊稱之為"Human-in-the-Loop",可以理解為"人在迴路中"。核心邏輯是:AI擅長大規模、快速地掃描文本,發現人類因為精力有限而可能忽略的欄位;但研究者才真正了解這個領域的邏輯,知道哪些欄位是有意義的,哪些其實是噪聲。兩者結合,才能產出既覆蓋面廣、又在專業上站得住腳的資料庫。
系統還有一個網頁界面,提供了可視化的操作環境——研究者可以在界面上直接看到觀察單元的識別結果、欄位列表的定義和依據,以及提取出的數據表格,點擊任意單元格還能查看支撐該數據的原文節選。這讓整個流程不僅自動化程度高,而且透明可追溯。
**三、在真實的研究場景里,它到底好不好用?**
研究團隊選擇了兩個截然不同的真實領域來檢驗ScheMatiQ的能力,這兩個領域代表了兩種不同類型的挑戰。
第一個是法學領域。團隊使用了由法學學者Klerman於2025年發布的研究數據集,包含89份美國法院關於移民政策的判決書,研究問題是:不同總統任命的聯邦法官,在移民禁令案件中的投票傾向是否存在差異,特別是川普任命的法官是否更傾向於支持川普政府的移民政策?這個問題的挑戰在於:法律文件篇幅長,論證結構複雜,核心資訊往往隱藏在大段的法律推理之中。人工標註時,Klerman的團隊為每份文件標註了法官姓名、任命總統、以及判決結果這三個欄位。
第二個是計算生物學領域。團隊使用了一個叫做NESdb的資料庫,其源文獻是96篇關於蛋白質核輸出信號(Nuclear Export Signal,簡稱NES)的科學論文。研究問題是:給定一個蛋白質序列,能否判斷它是否含有核輸出信號?如果含有,信號的強度如何,可信度又有多高?這個領域的挑戰與法學完全不同:蛋白質研究涉及大量數值數據、實驗參數和高度專業化的技術細節,需要從密集的科學描述中精確提取定量資訊。
兩個領域的實驗都基於一個公平的比較框架:研究者手上既有人工整理的"金標準"資料庫(Gold Schema),也有ScheMatiQ自動生成的結果。首先比較兩者在欄位上的重疊程度,再讓領域專家對ScheMatiQ獨有的新欄位進行價值評估。
**四、數字背後的故事:ScheMatiQ發現了哪些人類遺漏的寶藏?**
實驗結果揭示了一個相當有趣的規律,可以用一張"維恩圖"來理解。在法學領域,人工資料庫和ScheMatiQ的欄位集合併不是完全重合的兩個圓,而是大量重疊、各有一部分獨有的兩個圓。具體來說,ScheMatiQ覆蓋了人工資料庫中絕大多數欄位(只有兩個相對寬泛的"雜項"欄位沒被納入),同時還自行發現了一批人工標註中沒有記錄的新欄位,這些新欄位占到了ScheMatiQ總欄位的31%。在計算生物學領域,這一比例是32%。
這些新欄位有沒有價值,不是系統自己說了算,而是由領域專家來打分的。法學領域的新欄位平均獲得了3.6分(滿分5分),計算生物學領域的新欄位平均獲得了4.2分。換句話說,超過七成的新欄位被專家認為是有實際研究價值的。其中,法學領域的新欄位包括法院裁決的法律依據、禁令的適用範圍、以及被挑戰的政策所屬的總統任期等;計算生物學領域的新欄位則涉及NES(核輸出信號)序列的突變描述、調控機制等更精細的維度。
這說明了一件很有意思的事:人工設計表格時,受限於精力和經驗,往往只記錄了"最顯而易見"的欄位,而ScheMatiQ通過大規模掃描整個文獻庫,能夠發現那些"分布在邊角文字里、不那麼顯眼但同樣重要"的資訊維度。
**五、研究問題和文件缺一不可:只有兩者結合,才能看清真正有用的欄位**
研究團隊還做了一個很有說服力的對照實驗,用來回答一個問題:ScheMatiQ之所以能發現好的欄位,究竟是因為研究問題引導了它,還是因為文件讓它看到了具體內容,還是兩者缺一不可?
他們設計了三種輸入條件:只給研究問題、只給文件、同時給研究問題和文件。結果顯示,單獨輸入研究問題時,系統生成的欄位傾向於高度抽象和通用,例如"法官姓名"或"蛋白質ID"——這些欄位聽起來沒錯,但過於寬泛,缺乏具體研究語境下的細節;單獨輸入文件時,系統確實能發現文件里存在的具體資訊,但這些資訊不一定和研究者真正關心的問題掛鉤,容易產生大量"跑題"的欄位;只有同時輸入研究問題和文件,系統才能生成既有具體細節、又與研究目標高度相關的欄位——例如"移民政策背景"(Immigration Policy Context)或"突變描述"(Mutation Description)。
值得關注的是,在三種輸入條件產生的欄位中,幾乎沒有三方都共同擁有的欄位(即三圓維恩圖中間的交集幾乎為零)。這意味著,真正有價值的、面向具體研究問題的欄位,並不是單靠問題或單靠文件就能發現的,必須是兩者結合才能"化學反應"般地湧現出來。
**六、找人的準確率怎麼樣:大多數情況下相當可靠,但高密度文件是軟肋**
除了表格設計,研究團隊也評估了系統在"識別觀察單元實例"這一環節的表現,也就是:在一份文件里,系統能正確找到多少個目標對象?
在計算生物學領域,ScheMatiQ識別出了87%的蛋白質;在法學領域,識別出了74%的法官。更重要的是,在兩個領域中,系統的精確率都接近100%——它找到的對象幾乎都是真實存在的,基本沒有"認錯人"的情況。
但問題出在哪裡呢?研究團隊做了細緻的錯誤分析,發現漏識別幾乎全部集中在"單個文件里涉及非常多觀察單元"的情況下——也就是高密度文件。當一份文件只涉及一個或少數幾個研究對象時,系統的識別率接近滿分;但當一份文件里涉及大量不同的法官或蛋白質時,系統就容易遺漏其中一部分。這是一個明確的改進方向,研究團隊也在論文中指出,未來工作可以專門針對這類高密度文件設計更有效的識別策略。
**七、系統的技術構成:一個可以被研究者直接使用的開放工具**
從技術實現角度來看,ScheMatiQ的架構分為三層。最外層是一個用React和TypeScript構建的網頁前端,讓研究者可以在瀏覽器里完成所有操作,無需寫代碼;中間層是一個FastAPI構建的後端服務,負責處理所有計算任務,並通過WebSocket向前端實時推送處理進度;最內層是一個獨立的Python核心庫,封裝了觀察單元發現、模式發現和數據提取三大核心模組。
在AI模型的選擇上,研究團隊在實驗中使用了Google的Gemini-2.5系列——具體來說,模式發現和觀察單元發現使用Gemini-2.5-flash,數據提取使用計算成本更低的Gemini-2.5-flash-lite。兩個領域的完整實驗(法學89份文件、計算生物學96篇論文)的總計算費用大約是每100份文件1美元,這個成本對於大多數研究項目來說是完全可以接受的。
如果研究者希望使用其他模型,也可以通過提供API密鑰來接入Together.ai平台支持的任何模型;如果出於數據隱私考慮,希望在本地運行,系統還支持通過HuggingFace Transformers庫加載開源模型。系統本身完全開源,代碼和網頁界面均已公開,研究者可以直接通過www.ScheMatiQ-ai.com訪問並使用。
**關於可復現性與隱私的坦誠說明**
研究團隊在論文中對兩個潛在問題進行了坦率的說明。第一個是可復現性問題:由於使用了閉源的商業API,即使固定了所有參數,不同時間運行的結果也可能存在細微差異——這可能是模型內部的隨機採樣造成的,也可能是服務商悄悄更新了模型。這種差異通常很小,主要體現在欄位命名的措辭或數值提取的邊界情況上,但確實無法保證完全一致的輸出。使用本地部署的開源模型可以在一定程度上緩解這個問題。第二個是數據隱私問題:系統默認不儲存任何用戶上傳的文件或提問內容,只有在用戶明確選擇"同意為研究目的留存數據"時,才會進行記錄。這對於處理敏感文件(如未發表的法律文書或機密實驗數據)的研究者來說,是一個重要保障。
---
說到底,ScheMatiQ做的事情可以用一個樸素的比喻來描述:以前,研究者面對一座文字構成的山,要靠自己一行一行地讀、一條一條地填,設計表格、填寫數據全憑個人經驗和精力。ScheMatiQ的出現,相當於給研究者配備了一個"初步讀文獻的助手"——這個助手速度極快,能在短時間內讀完數百篇文獻,提煉出關鍵維度,並把數據初步填入表格;然後把這張初稿交給研究者,由人來審核、修正、補充,做出最終決策。
這種人機協作的模式,對於任何需要從大量文字材料中提取結構化資訊的研究場景,都有潛在的價值。無論是社會學者分析調查報告、歷史學者梳理檔案文獻,還是醫學研究者整理臨床病例,背後的核心痛點都是相同的:問題明確,但文件太多,人工處理太慢、太容易出錯。
當然,ScheMatiQ並不是萬能的。它目前在"單個文件涉及大量研究對象"的情況下會出現遺漏,這是一個需要繼續改進的方向。此外,由於依賴商業AI模型,輸出結果的一致性也受到外部因素的影響。但從兩個真實研究場景的評估結果來看,它確實能在覆蓋絕大多數人工欄位的同時,額外發現專家認可的有價值的新欄位,這在實際研究中具有相當的意義。
對於普通讀者來說,這項研究折射出一個更廣泛的趨勢:AI工具正在以越來越具體的方式進入學術研究的日常工作流程,不是取代研究者的判斷,而是替代那些"機械重複但量大難以為繼"的部分,讓研究者的精力能更集中於真正需要專業判斷的環節。這張由AI起草、由人審定的數據表格,或許就是未來很多研究的起點。有興趣深入了解這套系統的技術細節和實驗方法的讀者,可以通過論文編號arXiv:2604.09237獲取完整原文。
---
Q&A
Q1:ScheMatiQ是什麼,它能用來做什麼?
A:ScheMatiQ是由耶路撒冷希伯來大學開發的一套AI輔助研究工具。它的核心功能是:研究者只需輸入一個自然語言描述的研究問題和一批相關文件,系統就能自動識別研究對象是什麼、設計記錄數據的表格結構、並從文件中提取填入相應數據,最終生成一個帶有文獻出處的結構化資料庫。整個過程研究者可以隨時介入修改。
Q2:ScheMatiQ和現有的AI搜索或文獻綜述工具有什麼不同?
A:現有的很多"深度研究"類AI工具主要擅長檢索和摘要,輸出的是文字性的總結,難以直接用於統計分析,也很難追溯到具體文獻來源。ScheMatiQ的不同在於,它輸出的是結構化表格,每一個數據格都附有原文來源,研究者可以直接用於定量分析;同時它支持研究者全程編輯和干預,而不只是產出一個固定結果。
Q3:ScheMatiQ的使用費用高嗎,普通研究者能負擔得起嗎?
A:根據論文中的測試,處理100份文件的總計算成本大約是1美元,兩個完整的真實研究案例(共約185份文件)的總費用也在這個量級範圍內。對於大多數學術研究項目來說,這個成本是相當低廉的。系統本身開源免費,研究者也可以選擇接入更便宜的開源模型來進一步降低成本。






