耶路撒冷希伯來大學開發了一款AI工具，能把研究問題變成結構化資料庫，學術界的「苦差事」要消失了？

這項由耶路撒冷希伯來大學電腦科學與工程學院聯合該校法學院、以及艾倫人工智慧研究所共同完成的研究，以預印本形式發布於2026年4月10日，論文編號為arXiv:2604.09237。有興趣深入了解的讀者可以通過該編號在arXiv平台上查閱完整論文。

贊助商廣告

**研究背景：學者們每天都在做一件極其費力卻又不得不做的苦差事**

每當一位學者想要回答一個有意義的研究問題，往往要先經歷一段漫長而痛苦的準備過程。以一位法學教授為例，他想搞清楚一件事：由不同屆美國總統任命的法官，在處理移民禁令案件時，判決傾向是否存在差異？聽起來是個很有價值的問題，但要回答它，首先得把數百份法庭判決文書一份一份翻出來，手動設計一張"記錄表"（也就是所謂的注釋模式，即annotation schema），決定要記錄哪些資訊——是任命總統？判決結果？還是法官的資歷？然後再招募助理，一條一條地把數據從文書中抄錄下來，填進表格。這個過程往往需要耗費數月乃至數年，而且充滿了人為失誤的風險。

這種"先設計表格、再人工填表"的流程，在法學、生物學、電腦科學等眾多學科中普遍存在。研究人員每天面對的，是一座座由文字堆砌成的山，卻只能用手鏟一點點挖掘。更麻煩的是，表格里記錄什麼欄位，往往取決於研究者自身的知識儲備和對文獻的了解程度——如果某個重要因素沒有被想到，就會永遠缺失在資料庫里，影響最終分析的準確性。

正是為了解決這個問題，來自耶路撒冷的研究團隊開發了一套名為ScheMatiQ的框架。這套系統的核心思路，可以用一句話來概括：你只需告訴它你想研究什麼，以及你手上有哪些文件，它就能幫你自動設計記錄表格，並把相關數據從文件里提取出來，形成一個結構化的資料庫。

**一、這套系統到底在做什麼：從一個問題到一張有意義的表格**

理解ScheMatiQ最直接的方式，是跟著它的工作流程走一遍。假設你是那位研究移民案件的法學教授，手上有89份美國法院判決文書，你的問題是：不同總統任命的法官，判決傾向有無差異？

贊助商廣告

ScheMatiQ接收到你的問題和這批文書後，會依次完成三件事。

第一件事，是弄清楚"你的問題在問誰"。這聽起來有點玄，但實際上非常關鍵。研究者的問題，有時候是在問某一類具體的對象——在上面這個例子裡，問的是"法官"這個群體；換一個問題，比如"移民禁令案件的結果受法院級別影響嗎"，那關注的核心對象就變成了"庭審案件"本身，而不再是法官個人。ScheMatiQ把這個核心對象稱為"觀察單元"（observation unit），並通過閱讀研究問題和一批示例文件，用AI模型自動判斷出它是什麼。這一步的輸出非常具體：一個名稱（比如"Judge，法官"）、一段描述（"在所提供法律文件中參與該案的單個法官個體"），以及幾個具體例子（如"Ruth Bader Ginsburg"、"Antonin Scalia"）。

確定了"在問誰"之後，第二件事是設計記錄表格的列，也就是"發現模式"（schema discovery）。系統會批量閱讀文件，每處理一批，就向AI提一個問題："這批文件里，有沒有什麼資訊是對回答研究問題有幫助的，但還沒被記錄進表格里？"如果有，就把它加進去；如果沒有新資訊，就繼續處理下一批，直到所有文件都讀完，或者新欄位不再出現為止。這個過程就像一個經驗豐富的研究助理在讀文獻時，邊讀邊往便利貼上記錄關鍵發現，最後整理成一張完整的提問清單。

第三件事，是用這張清單去逐一填表，也就是"結構化數據提取"（structured data extraction）。系統對每份文件，先識別出其中提到了哪些觀察單元實例（哪些法官出現在了這份判決書里），再對每個實例，嘗試把表格里所有欄位一次性填完。如果某些欄位沒有填上，系統會專門針對這些欄位再做一次更有針對性的提取，直到實在找不到證據為止。最重要的是，每一個填入的數據，都必須附帶"出處"——即原文中支撐該數據的具體文欄位落，研究者可以隨時點擊查看，驗證數據的來源是否準確。

贊助商廣告

**二、人始終握著方向盤：系統不是在替代研究者，而是在輔助他們**

ScheMatiQ的設計哲學中，有一個非常重要的堅持：人不能被系統架空。研究者在整個過程的每一個節點，都保留著干預和修改的權利。

在觀察單元發現這一步，如果系統猜錯了研究對象——比如把"法官"誤認為"案件"——研究者可以直接在界面上修改，甚至完全手動指定。在模式發現這一步，研究者可以增加欄位、刪除欄位、修改欄位的定義，或者把意義相近的欄位合併。如果研究者之後又獲得了新的文件，還可以把它們繼續投入系統，讓系統在已有表格的基礎上，發現是否有新的欄位值得添加。在數據提取這一步，研究者可以對任何一個單元格的值進行修改，確保最終資料庫里的每一條記錄都經過了人工核查。

這種"AI提議、人來拍板"的協作方式，研究團隊稱之為"Human-in-the-Loop"，可以理解為"人在迴路中"。核心邏輯是：AI擅長大規模、快速地掃描文本，發現人類因為精力有限而可能忽略的欄位；但研究者才真正了解這個領域的邏輯，知道哪些欄位是有意義的，哪些其實是噪聲。兩者結合，才能產出既覆蓋面廣、又在專業上站得住腳的資料庫。

系統還有一個網頁界面，提供了可視化的操作環境——研究者可以在界面上直接看到觀察單元的識別結果、欄位列表的定義和依據，以及提取出的數據表格，點擊任意單元格還能查看支撐該數據的原文節選。這讓整個流程不僅自動化程度高，而且透明可追溯。

**三、在真實的研究場景里，它到底好不好用？**

研究團隊選擇了兩個截然不同的真實領域來檢驗ScheMatiQ的能力，這兩個領域代表了兩種不同類型的挑戰。

第一個是法學領域。團隊使用了由法學學者Klerman於2025年發布的研究數據集，包含89份美國法院關於移民政策的判決書，研究問題是：不同總統任命的聯邦法官，在移民禁令案件中的投票傾向是否存在差異，特別是川普任命的法官是否更傾向於支持川普政府的移民政策？這個問題的挑戰在於：法律文件篇幅長，論證結構複雜，核心資訊往往隱藏在大段的法律推理之中。人工標註時，Klerman的團隊為每份文件標註了法官姓名、任命總統、以及判決結果這三個欄位。

贊助商廣告

第二個是計算生物學領域。團隊使用了一個叫做NESdb的資料庫，其源文獻是96篇關於蛋白質核輸出信號（Nuclear Export Signal，簡稱NES）的科學論文。研究問題是：給定一個蛋白質序列，能否判斷它是否含有核輸出信號？如果含有，信號的強度如何，可信度又有多高？這個領域的挑戰與法學完全不同：蛋白質研究涉及大量數值數據、實驗參數和高度專業化的技術細節，需要從密集的科學描述中精確提取定量資訊。

兩個領域的實驗都基於一個公平的比較框架：研究者手上既有人工整理的"金標準"資料庫（Gold Schema），也有ScheMatiQ自動生成的結果。首先比較兩者在欄位上的重疊程度，再讓領域專家對ScheMatiQ獨有的新欄位進行價值評估。

**四、數字背後的故事：ScheMatiQ發現了哪些人類遺漏的寶藏？**

實驗結果揭示了一個相當有趣的規律，可以用一張"維恩圖"來理解。在法學領域，人工資料庫和ScheMatiQ的欄位集合併不是完全重合的兩個圓，而是大量重疊、各有一部分獨有的兩個圓。具體來說，ScheMatiQ覆蓋了人工資料庫中絕大多數欄位（只有兩個相對寬泛的"雜項"欄位沒被納入），同時還自行發現了一批人工標註中沒有記錄的新欄位，這些新欄位占到了ScheMatiQ總欄位的31%。在計算生物學領域，這一比例是32%。

這些新欄位有沒有價值，不是系統自己說了算，而是由領域專家來打分的。法學領域的新欄位平均獲得了3.6分（滿分5分），計算生物學領域的新欄位平均獲得了4.2分。換句話說，超過七成的新欄位被專家認為是有實際研究價值的。其中，法學領域的新欄位包括法院裁決的法律依據、禁令的適用範圍、以及被挑戰的政策所屬的總統任期等；計算生物學領域的新欄位則涉及NES（核輸出信號）序列的突變描述、調控機制等更精細的維度。

這說明了一件很有意思的事：人工設計表格時，受限於精力和經驗，往往只記錄了"最顯而易見"的欄位，而ScheMatiQ通過大規模掃描整個文獻庫，能夠發現那些"分布在邊角文字里、不那麼顯眼但同樣重要"的資訊維度。

贊助商廣告

**五、研究問題和文件缺一不可：只有兩者結合，才能看清真正有用的欄位**

研究團隊還做了一個很有說服力的對照實驗，用來回答一個問題：ScheMatiQ之所以能發現好的欄位，究竟是因為研究問題引導了它，還是因為文件讓它看到了具體內容，還是兩者缺一不可？

他們設計了三種輸入條件：只給研究問題、只給文件、同時給研究問題和文件。結果顯示，單獨輸入研究問題時，系統生成的欄位傾向於高度抽象和通用，例如"法官姓名"或"蛋白質ID"——這些欄位聽起來沒錯，但過於寬泛，缺乏具體研究語境下的細節；單獨輸入文件時，系統確實能發現文件里存在的具體資訊，但這些資訊不一定和研究者真正關心的問題掛鉤，容易產生大量"跑題"的欄位；只有同時輸入研究問題和文件，系統才能生成既有具體細節、又與研究目標高度相關的欄位——例如"移民政策背景"（Immigration Policy Context）或"突變描述"（Mutation Description）。

值得關注的是，在三種輸入條件產生的欄位中，幾乎沒有三方都共同擁有的欄位（即三圓維恩圖中間的交集幾乎為零）。這意味著，真正有價值的、面向具體研究問題的欄位，並不是單靠問題或單靠文件就能發現的，必須是兩者結合才能"化學反應"般地湧現出來。

**六、找人的準確率怎麼樣：大多數情況下相當可靠，但高密度文件是軟肋**

除了表格設計，研究團隊也評估了系統在"識別觀察單元實例"這一環節的表現，也就是：在一份文件里，系統能正確找到多少個目標對象？

在計算生物學領域，ScheMatiQ識別出了87%的蛋白質；在法學領域，識別出了74%的法官。更重要的是，在兩個領域中，系統的精確率都接近100%——它找到的對象幾乎都是真實存在的，基本沒有"認錯人"的情況。

但問題出在哪裡呢？研究團隊做了細緻的錯誤分析，發現漏識別幾乎全部集中在"單個文件里涉及非常多觀察單元"的情況下——也就是高密度文件。當一份文件只涉及一個或少數幾個研究對象時，系統的識別率接近滿分；但當一份文件里涉及大量不同的法官或蛋白質時，系統就容易遺漏其中一部分。這是一個明確的改進方向，研究團隊也在論文中指出，未來工作可以專門針對這類高密度文件設計更有效的識別策略。

贊助商廣告

**七、系統的技術構成：一個可以被研究者直接使用的開放工具**

從技術實現角度來看，ScheMatiQ的架構分為三層。最外層是一個用React和TypeScript構建的網頁前端，讓研究者可以在瀏覽器里完成所有操作，無需寫代碼；中間層是一個FastAPI構建的後端服務，負責處理所有計算任務，並通過WebSocket向前端實時推送處理進度；最內層是一個獨立的Python核心庫，封裝了觀察單元發現、模式發現和數據提取三大核心模組。

在AI模型的選擇上，研究團隊在實驗中使用了Google的Gemini-2.5系列——具體來說，模式發現和觀察單元發現使用Gemini-2.5-flash，數據提取使用計算成本更低的Gemini-2.5-flash-lite。兩個領域的完整實驗（法學89份文件、計算生物學96篇論文）的總計算費用大約是每100份文件1美元，這個成本對於大多數研究項目來說是完全可以接受的。

如果研究者希望使用其他模型，也可以通過提供API密鑰來接入Together.ai平台支持的任何模型；如果出於數據隱私考慮，希望在本地運行，系統還支持通過HuggingFace Transformers庫加載開源模型。系統本身完全開源，代碼和網頁界面均已公開，研究者可以直接通過www.ScheMatiQ-ai.com訪問並使用。

**關於可復現性與隱私的坦誠說明**

研究團隊在論文中對兩個潛在問題進行了坦率的說明。第一個是可復現性問題：由於使用了閉源的商業API，即使固定了所有參數，不同時間運行的結果也可能存在細微差異——這可能是模型內部的隨機採樣造成的，也可能是服務商悄悄更新了模型。這種差異通常很小，主要體現在欄位命名的措辭或數值提取的邊界情況上，但確實無法保證完全一致的輸出。使用本地部署的開源模型可以在一定程度上緩解這個問題。第二個是數據隱私問題：系統默認不儲存任何用戶上傳的文件或提問內容，只有在用戶明確選擇"同意為研究目的留存數據"時，才會進行記錄。這對於處理敏感文件（如未發表的法律文書或機密實驗數據）的研究者來說，是一個重要保障。

贊助商廣告

---

說到底，ScheMatiQ做的事情可以用一個樸素的比喻來描述：以前，研究者面對一座文字構成的山，要靠自己一行一行地讀、一條一條地填，設計表格、填寫數據全憑個人經驗和精力。ScheMatiQ的出現，相當於給研究者配備了一個"初步讀文獻的助手"——這個助手速度極快，能在短時間內讀完數百篇文獻，提煉出關鍵維度，並把數據初步填入表格；然後把這張初稿交給研究者，由人來審核、修正、補充，做出最終決策。

這種人機協作的模式，對於任何需要從大量文字材料中提取結構化資訊的研究場景，都有潛在的價值。無論是社會學者分析調查報告、歷史學者梳理檔案文獻，還是醫學研究者整理臨床病例，背後的核心痛點都是相同的：問題明確，但文件太多，人工處理太慢、太容易出錯。

當然，ScheMatiQ並不是萬能的。它目前在"單個文件涉及大量研究對象"的情況下會出現遺漏，這是一個需要繼續改進的方向。此外，由於依賴商業AI模型，輸出結果的一致性也受到外部因素的影響。但從兩個真實研究場景的評估結果來看，它確實能在覆蓋絕大多數人工欄位的同時，額外發現專家認可的有價值的新欄位，這在實際研究中具有相當的意義。

對於普通讀者來說，這項研究折射出一個更廣泛的趨勢：AI工具正在以越來越具體的方式進入學術研究的日常工作流程，不是取代研究者的判斷，而是替代那些"機械重複但量大難以為繼"的部分，讓研究者的精力能更集中於真正需要專業判斷的環節。這張由AI起草、由人審定的數據表格，或許就是未來很多研究的起點。有興趣深入了解這套系統的技術細節和實驗方法的讀者，可以通過論文編號arXiv:2604.09237獲取完整原文。

---

Q&A

Q1：ScheMatiQ是什麼，它能用來做什麼？

A：ScheMatiQ是由耶路撒冷希伯來大學開發的一套AI輔助研究工具。它的核心功能是：研究者只需輸入一個自然語言描述的研究問題和一批相關文件，系統就能自動識別研究對象是什麼、設計記錄數據的表格結構、並從文件中提取填入相應數據，最終生成一個帶有文獻出處的結構化資料庫。整個過程研究者可以隨時介入修改。

贊助商廣告

Q2：ScheMatiQ和現有的AI搜索或文獻綜述工具有什麼不同？

A：現有的很多"深度研究"類AI工具主要擅長檢索和摘要，輸出的是文字性的總結，難以直接用於統計分析，也很難追溯到具體文獻來源。ScheMatiQ的不同在於，它輸出的是結構化表格，每一個數據格都附有原文來源，研究者可以直接用於定量分析；同時它支持研究者全程編輯和干預，而不只是產出一個固定結果。

Q3：ScheMatiQ的使用費用高嗎，普通研究者能負擔得起嗎？

A：根據論文中的測試，處理100份文件的總計算成本大約是1美元，兩個完整的真實研究案例（共約185份文件）的總費用也在這個量級範圍內。對於大多數學術研究項目來說，這個成本是相當低廉的。系統本身開源免費，研究者也可以選擇接入更便宜的開源模型來進一步降低成本。