馬里蘭大學等高校聯手打造「流水線工廠」：AI智能體的考場，終於可以自動生成了

這項由馬里蘭大學、加州大學伯克利分校、加州大學洛杉磯分校以及穆罕默德·本·扎耶德人工智慧大學聯合開展的研究，以預印本形式於2026年4月20日發布，論文編號為arXiv:2604.18543。有興趣深入了解的讀者可以通過該編號在arXiv平台查閱完整論文。

贊助商廣告

**考卷從哪裡來？這件事比想像中麻煩得多**

每當一位老師需要給學生出一套考卷時，她要做的不只是想幾道題那麼簡單。她需要確保題目有清晰的指令、有充足的背景材料、有合理的評分標準，還要檢查答案是否真實可達、題目之間有沒有矛盾。這套流程即便對一個有經驗的老師來說，也要花上幾個小時。

現在，把這位老師的工作換成電腦科學家，把學生換成AI智能體，把考卷換成"任務環境"，你就大概能理解這篇論文想解決的是什麼問題了。

近年來，以大語言模型（也就是ChatGPT、Claude這類AI）為核心驅動的智能體系統正在快速進入實際應用。這類智能體不再只是回答問題，而是能夠主動操作文件系統、調用網路服務接口、發送郵件、管理日程——它們更像是一個能獨立完成任務的數字助手。研究者為這類智能體取了一個生動的名字："爪狀智能體"（Claw-like Agents），代表性系統包括OpenClaw、NanoClaw和IronClaw等開源平台。

要訓練和評測這類智能體，研究者需要專門搭建"任務環境"：告訴智能體要做什麼、給它提供哪些工具，以及如何判斷它是否做對了。問題在於，每構建一個這樣的環境，都需要研究人員手工編寫任務說明、搭建模擬服務接口、設計評分邏輯，並逐一檢驗這些環節有沒有互相矛盾。這個過程平均需要兩個小時，完全靠人力堆出來的。

更棘手的是，人工構建的考題集一旦發布就變成了固定版本——隨著AI能力的飛速提升，舊的考題很快就會變得太簡單，甚至被AI在訓練數據中"背"出來，失去評測價值。研究者把這個現象叫做"數據污染"，就好像考生事先拿到了答案，考試就沒有意義了。

贊助商廣告

這正是ClawEnvKit要解決的核心問題。

**一、一條能自動生產考卷的流水線**

ClawEnvKit的核心思路是把"出考卷"這件事變成一條自動化流水線。給這條流水線一段自然語言描述——比如"生成10道郵件管理任務，難度中等"——它就能自動產出一批可以直接運行的任務環境，整個過程不需要人工介入。

整條流水線分為三個環節，分別扮演不同角色，就像一家出版社裡的編輯、排版師和校對員各司其職。

第一個環節叫做"解析器"（Parser）。它的工作是讀懂用戶的自然語言請求，把裡面的意圖提煉成結構化的"意圖單元"。比如用戶說"測試智能體能否安排會議並通知所有參會者"，解析器就會識別出三類要素：動作（需要創建日曆事件、發送郵件）、對象（參會者名單）、約束（不能刪除已有日曆事件）。這些意圖單元是整個流水線的"設計圖紙"，確保後續生成的內容不會遺漏用戶真正關心的東西。

第二個環節叫做"生成器"（Generator）。它拿著設計圖紙，通過三條子流程產出完整的任務環境。主流程"任務生成"負責產出任務說明、工具列表、預置數據和評分規則；"服務生成"負責處理還不存在的模擬服務——如果任務需要調用一個GitHub問題管理接口，而系統里還沒有這個服務，生成器會自動設計API、構建模擬伺服器、測試後納入服務庫；"數據生成"則負責準備任務需要的配套文件，比如給終端操作任務準備一個資料庫文件，給圖像識別任務準備一張圖片。為了保證生成的任務不會千篇一律，生成器還內置了"多樣性控制"機制：每次生成時打亂服務列表的順序、輪流使用不同的API動作類型、並把最近生成的10個任務名稱傳給AI以避免重複。

第三個環節叫做"驗證器"（Validator）。它扮演嚴格校對員的角色，在任務被納入考題庫之前回答三個問題：這道題的格式是否合法？它是否覆蓋了用戶要求的所有意圖？它是否真的可以被解答？格式檢查包含12項具體規則，比如評分權重之和必須等於1、至少要有一項安全檢查、安全規則不能和評分規則互相矛盾。覆蓋檢查則逐一核對解析器提煉的每個意圖單元，確保每個動作都有對應的可調用工具和評分項，每個對象都出現在預置數據或任務說明中，每個約束都被安全規則或評分規則所執行。可解性檢查則專門排除"邏輯上無解"的任務，比如要求智能體獲取明天的郵件、或者評分標準引用了智能體根本無法訪問的資訊。如果驗證不通過，系統會觸發重新生成，最多重試三次。

贊助商廣告

這三個環節合力，把一段自然語言描述變成一個經過嚴格驗證的任務環境，整個過程無需人工干預，平均耗時是以分鐘計，而不是以小時計。

**二、考場如何運轉：從題目到成績單**

有了任務環境之後，需要一套配套的運行機制來讓智能體真正"上場考試"，並記錄它的表現。ClawEnvKit的執行框架分為四個步驟，好像一場考試從髮捲到收卷的完整流程。

首先是"沙盒初始化"。每道題都在一個完全隔離的容器里運行，沒有外網訪問權限，各道題之間互不干擾，就像每位考生坐在獨立的小隔間裡。模擬服務在容器啟動時加載預置數據，並且會隨機在25%的API調用上注入錯誤（返回"429 請求過多"或"500 服務內部錯誤"），專門測試智能體在遇到網路故障時能否正常恢復。多道題可以同時並行運行，不會產生衝突。

接下來是"智能體接入"。ClawEnvKit支持三種接入方式，對應不同類型的智能體框架。第一種是原生插件方式，針對OpenClaw這類有專屬插件接口的智能體。第二種是MCP 馬里蘭大學等高校聯手打造流水線工廠AI智能體的考場終於可以自動生成了伺服器方式，對應Claude Code、Codex、Cursor、NanoClaw、IronClaw、PicoClaw、ZeroClaw等支持MCP協議的智能體。第三種是SKILL.md方式，系統會生成一份包含所有接口curl調用示例的說明文檔，附加在任務提示詞末尾，適用於CoPaw、NemoClaw、Hermes等依靠文本提示與工具交互的智能體。無論哪種接入方式，所有工具調用最終都到達同一套模擬服務，並產生完全相同格式的審計日誌。

然後是"智能體執行"。智能體在其原生的多輪對話循環中運行——思考、調用工具、觀察結果、再思考——直到產出最終答案或達到超時限制（默認300秒）。

最後是"軌跡收集"。系統收集兩份材料：一份是服務端審計日誌，完整記錄了每一次API調用的參數和結果；另一份是智能體的最終文本輸出。從服務端日誌而非智能體自述來判斷行為，是為了防止智能體"嘴上說做了，實際上沒做"這種情況矇混過關。

贊助商廣告

**三、成績如何打分：三維度評價體系**

收卷之後的評分環節由一個叫做"評分引擎"的模組負責，它對智能體的行為從三個維度進行打分，就像給一份工作匯報同時評價"有沒有出錯"、"完成了多少"和"遇到困難時處理得怎麼樣"。

第一個維度是安全性。這是整個評分體系的"一票否決"項。評分引擎首先檢查智能體有沒有調用被禁止的工具，有沒有在輸出中包含被禁止的關鍵詞。一旦觸發安全違規，安全分直接歸零，整體得分也隨之清零，無論任務完成得多好都不例外。

第二個維度是完成度。這是主要得分項，權重占到總分的80%。評分引擎會對照任務的評分規則，逐項檢驗智能體的行為是否達標。評分規則由15種檢驗類型構成。其中"審計日誌類"檢驗完全基於事實行為，比如檢查智能體是否調用了特定的API動作、調用參數是否正確、調用次數是否達標、調用順序是否符合要求——這類檢驗是100%確定性的。"輸出內容類"檢驗關注智能體的文字回答，比如是否提及了必要的關鍵詞、是否避開了禁用詞、是否符合最低長度要求。"文件系統類"檢驗則確認智能體是否在容器里創建了預期的文件、文件哈希值是否匹配、Shell命令的退出碼是否正確。還有一類叫做"LLM評判"的檢驗，由另一個AI（Claude Haiku）對智能體的輸出質量按照特定評分標準進行主觀評分，返回0到1之間的小數。為了保證客觀性，LLM評判的權重上限被鎖定在55%（文件類任務為65%），確保大多數分數來自確定性的規則，而不是另一個AI的主觀判斷。

第三個維度是魯棒性，權重占總分的20%。它衡量的是智能體在遇到注入的API錯誤後能否順利恢復——判定標準是：在觸發錯誤後的接下來五條審計日誌記錄內，智能體是否重試了同一個操作並成功。如果一次運行中沒有觸發任何注入錯誤，魯棒性得分默認為滿分。

最終綜合得分的計算公式是：安全性乘以（0.8倍完成度加0.2倍魯棒性）。

贊助商廣告

**四、Auto-ClawEval：第一個大規模爪狀智能體基準測試集**

基於ClawEnvKit，研究團隊構建了兩個基準測試集，就像用同一台機器批量生產出標準化的考卷集。

規模較大的Auto-ClawEval共包含1040個任務環境，覆蓋24個語義類別，使用15種模擬服務，整個生成過程的API調用費用僅約80美元，使用的是claude-sonnet-4.6模型，耗時約18小時。相比之下，人工構建同等規模的基準集按每題兩小時估算需要約2080小時的人力。

規模較小的Auto-ClawEval-Mini則是一個精簡版，共104個任務，與另一個人工構建的基準測試集Claw-Eval（由人工精心撰寫，同樣是104題）形成一對一的對比，專門用來回答"機器生成的考題質量是否能與人工媲美"這個問題。

24個類別的任務分布相當多樣。規模最大的類別是金融分析（140題）和運營監控（110題），其次是文檔問答（100題）、通訊協作（80題）、生產力管理和跨服務工作流（各70題）、圖像文字識別（70題），以及安全關鍵任務（50題）和終端操作（50題）等。按任務類型劃分，約36%是單服務API任務，34%是跨服務協調任務，26%是依賴文件的任務，還有5%是使用真實網路的任務。

**五、生成質量經得起對比嗎？**

研究團隊從三個維度對比了Auto-ClawEval-Mini和Claw-Eval的質量。

第一個維度是有效性：兩者都達到了100%，即所有任務都通過了結構化驗證，可以正常運行。

第二個維度是連貫性，衡量任務說明、工具接口和評分標準三者之間有沒有邏輯矛盾。Auto-ClawEval-Mini得到0.59分，Claw-Eval得到0.51分。自動生成版本反而更高的原因在於，ClawEnvKit生成的任務格式明確列出了工具列表和評分組件，三者之間的對應關係對AI評判者來說一目了然；而人工構建的Claw-Eval把評分邏輯嵌入了任務專屬的程序代碼里，AI評判者無法直接審視。

第三個維度是清晰度，在1到5分的量表上衡量任務說明是否足夠明確、可操作。Auto-ClawEval-Mini得到3.54分，Claw-Eval得到3.38分。AI生成的提示詞在表達一致性和可操作性上略勝一籌。

贊助商廣告

時間成本對比則更為懸殊：人工構建104題需要約208小時，Auto-ClawEval-Mini只需1.8小時，整整節省了約13800倍的時間。

**六、實驗結果揭示了哪些真相**

研究團隊用Auto-ClawEval對4個模型家族的8種智能體框架進行了系統評測，得出了六條有實質意義的發現。

關於框架工程的重要性，所有結構化智能體框架都比基礎的ReAct智能體循環框架表現更好，最高提升幅度達到15.7個百分點——NemoClaw以69.0分位居第一，而基礎框架只有53.3分。從分數分布圖來看，基礎框架的得分集中在0.4到0.6之間，分布平坦；結構化框架則把更多任務推向接近滿分，分布曲線向右移動並在高分區形成更尖銳的峰值。這說明更好的框架不只是讓平均分高一點，而是讓更多任務被"真正完成"。

關於主要分化維度，在所有模型和框架上，安全性和魯棒性普遍接近滿分（均高於83%），而完成度的範圍則從34%到76%不等，差異懸殊。這意味著當前的難點在於"把任務做完"，而不是"不造成危害"或"從錯誤中恢復"，也證明Auto-ClawEval還遠沒有被現有模型飽和。

關於大版本和精簡版的一致性，在所有模型和框架上，兩個版本的得分差距均在2%以內。這驗證了AutoClawEval-Mini可以作為完整版的可靠低成本替代品，也說明ClawEnvKit的生成機制在擴大規模時不會引入系統性偏差。

關於框架層級與性能的關係，第三層框架（SKILL.md+curl方式）中，NemoClaw得69.0分、Hermes得66.9分，反而優於部分第二層MCP框架（ZeroClaw得57.1分、PicoClaw得53.2分）。框架接入的技術層級並不直接決定性能高低，具體實現方式更關鍵。

關於任務類別難度的多樣性，不同類別的難度差異相當顯著。類別C16對所有框架來說都是高難度區（得分範圍10%到71%），而類別C21和C32則被多數框架輕鬆解決（超過85%）。雖然不同框架的總體平均分相近，但各自的錯誤模式差異明顯，說明框架之間有真實的能力差異，而非整體水平相當。

贊助商廣告

關於工具調用次數與性能的關係，工具調用越多並不意味著性能越好。從效率-性能散點圖上看，Claude Code和OpenClaw在調用次數相對較少的情況下達到了較高的得分，處於帕累托前沿——這說明高效、精準的工具使用比暴力調用更重要。在模型維度，GPT-5.4表現最為出色，而GPT-5-nano則提供了性價比更高的選擇。

**七、評測變成活水：按需生成的考場**

ClawEnvKit最具前瞻性的特性，是它把"靜態考場"變成了"活水考場"。

以往的基準測試集一旦發布就成了固定版本：題目不會變，AI系統隨著訓練數據的積累可能逐漸"背"出答案，評測的區分力也隨之下降。更麻煩的是，如果一位用戶想測試某個還沒被現有基準覆蓋的使用場景，唯一的辦法是等研究者花幾百小時手工構建新一版基準。

ClawEnvKit提供了另一種可能：用戶用自然語言描述自己關心的使用場景，系統就能即時生成一批驗證過的任務環境。舉個具體的例子，一位用戶說"我每天的工作是處理GitHub上的新問題：按標籤分配優先級、指派合適的團隊成員、關閉重複的問題"，ClawEnvKit會提議需要哪些服務端點，如果發現關閉問題的接口還不存在，會主動與用戶確認，獲得同意後就創建這個新服務並納入服務庫，整個過程無需用戶編寫任何代碼。

這種能力帶來了兩個實質性的變化。在評測側，評測從"定期發布的固定版本"變成了"持續刷新的活體流程"，可以跟上AI能力提升的節奏，也可以響應新興任務類型和長尾需求。在訓練側，同樣的機制可以用來按需生成訓練數據，讓訓練集的任務分布能夠針對智能體當前的薄弱環節動態調整，而不是受限於現有用戶日誌里碰巧記錄到的操作類型。

---

說到底，ClawEnvKit做的事情很像把"人工出題"這個瓶頸從AI研究的關鍵路徑上移開了。每一個人工構建的基準集都像是一張精心製作但數量有限的地圖，而ClawEnvKit更像是一台能按你的需求隨時列印地圖的機器——質量不比手工版差，速度快了數千倍，還能根據你的目的地實時更新。

贊助商廣告

這對普通人意味著什麼？直接影響可能感受不到，但間接影響卻相當深遠。AI智能體越來越多地進入日常工具——郵件助手、日程管理、代碼補全、客服機器人。這些系統能不能在真實場景下穩定可靠地運作，很大程度上取決於訓練和評測的質量。當構建"練兵場"的成本從幾百小時降到幾十分鐘，研究者就能更快速地發現智能體的盲區、更及時地修復問題，最終流向用戶手裡的產品也會更可靠。

當然，研究團隊自己也坦承這項工作存在明顯局限。模擬服務終究不是真實的生產API，它不會有訂閱限制引起的速率上限，不會有OAuth認證流程，也不會因為上游服務的更新而悄悄改變響應格式。在模擬環境裡表現優秀的智能體，遇到真實API時仍然可能出岔子。此外，當前系統設計的任務都能在20輪工具調用內完成，而真實世界裡有些工作流程需要跨越數小時乃至數天，中間還涉及人工審批節點——這類"長周期任務"目前還不在系統的處理範圍之內。還有語音交互、圖形界面操作、多智能體協作，以及法律、醫療、金融等專業領域的特殊工作流，都是未來需要擴展覆蓋的方向。

有興趣深入了解技術細節的讀者，可以通過arXiv編號2604.18543查閱完整論文，裡面包含了解析器和生成器的完整提示詞模板、驗證器的12條結構化檢驗規則、15種評分檢驗類型的詳細說明，以及三個典型任務環境的完整示例。

---

Q&A

Q1：ClawEnvKit和普通的AI基準測試集有什麼區別？

A：普通的AI基準測試集是人工構建的固定題庫，製作耗時、發布後不再更新，AI系統可能隨著訓練數據積累而"背"出答案，導致評測失效。ClawEnvKit是一條自動化流水線，輸入一段自然語言描述就能即時生成經過驗證的任務環境，生成速度比人工快約13800倍，質量經實驗驗證與人工構建持平甚至更優，並且可以隨時按需生成新題，不存在"題庫過期"的問題。

贊助商廣告

Q2：Auto-ClawEval測出來的分數代表什麼，得分高說明AI什麼能力強？

A：Auto-ClawEval的綜合得分由三部分構成：安全性、完成度和魯棒性。目前實驗顯示，大部分AI系統在安全性和魯棒性上都接近滿分，真正拉開差距的是完成度，範圍從34%到76%不等。完成度反映的是智能體在多步驟任務中能否調用正確的工具、傳入正確的參數、按正確的順序完成操作，本質上考察的是"真正把事情做完"的能力，而不只是"說得頭頭是道"。

Q3：ClawEnvKit生成的模擬服務和真實API有多大差距？

A：ClawEnvKit的模擬服務暴露與真實API完全相同的接口路徑、參數格式和響應結構，並且注入了25%的隨機錯誤來模擬網路不穩定。研究團隊對1040個任務中高投入低得分的52個案例逐一核查，發現0個是因為評分系統誤判導致的"假失分"，全部都是真實的智能體操作錯誤。主要差距在於模擬服務不涉及OAuth認證流程、實時變化的真實數據，以及因訂閱級別不同而變化的速率限制，這些因素不影響對核心工具調用能力的評估。