宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

馬里蘭大學等高校聯手打造「流水線工廠」:AI智能體的考場,終於可以自動生成了

2026年04月28日 首頁 » 熱門科技

這項由馬里蘭大學、加州大學伯克利分校、加州大學洛杉磯分校以及穆罕默德·本·扎耶德人工智慧大學聯合開展的研究,以預印本形式於2026年4月20日發布,論文編號為arXiv:2604.18543。有興趣深入了解的讀者可以通過該編號在arXiv平台查閱完整論文。

**考卷從哪裡來?這件事比想像中麻煩得多**

每當一位老師需要給學生出一套考卷時,她要做的不只是想幾道題那麼簡單。她需要確保題目有清晰的指令、有充足的背景材料、有合理的評分標準,還要檢查答案是否真實可達、題目之間有沒有矛盾。這套流程即便對一個有經驗的老師來說,也要花上幾個小時。

現在,把這位老師的工作換成電腦科學家,把學生換成AI智能體,把考卷換成"任務環境",你就大概能理解這篇論文想解決的是什麼問題了。

近年來,以大語言模型(也就是ChatGPT、Claude這類AI)為核心驅動的智能體系統正在快速進入實際應用。這類智能體不再只是回答問題,而是能夠主動操作文件系統、調用網路服務接口、發送郵件、管理日程——它們更像是一個能獨立完成任務的數字助手。研究者為這類智能體取了一個生動的名字:"爪狀智能體"(Claw-like Agents),代表性系統包括OpenClaw、NanoClaw和IronClaw等開源平台。

要訓練和評測這類智能體,研究者需要專門搭建"任務環境":告訴智能體要做什麼、給它提供哪些工具,以及如何判斷它是否做對了。問題在於,每構建一個這樣的環境,都需要研究人員手工編寫任務說明、搭建模擬服務接口、設計評分邏輯,並逐一檢驗這些環節有沒有互相矛盾。這個過程平均需要兩個小時,完全靠人力堆出來的。

更棘手的是,人工構建的考題集一旦發布就變成了固定版本——隨著AI能力的飛速提升,舊的考題很快就會變得太簡單,甚至被AI在訓練數據中"背"出來,失去評測價值。研究者把這個現象叫做"數據污染",就好像考生事先拿到了答案,考試就沒有意義了。

這正是ClawEnvKit要解決的核心問題。

**一、一條能自動生產考卷的流水線**

ClawEnvKit的核心思路是把"出考卷"這件事變成一條自動化流水線。給這條流水線一段自然語言描述——比如"生成10道郵件管理任務,難度中等"——它就能自動產出一批可以直接運行的任務環境,整個過程不需要人工介入。

整條流水線分為三個環節,分別扮演不同角色,就像一家出版社裡的編輯、排版師和校對員各司其職。

第一個環節叫做"解析器"(Parser)。它的工作是讀懂用戶的自然語言請求,把裡面的意圖提煉成結構化的"意圖單元"。比如用戶說"測試智能體能否安排會議並通知所有參會者",解析器就會識別出三類要素:動作(需要創建日曆事件、發送郵件)、對象(參會者名單)、約束(不能刪除已有日曆事件)。這些意圖單元是整個流水線的"設計圖紙",確保後續生成的內容不會遺漏用戶真正關心的東西。

第二個環節叫做"生成器"(Generator)。它拿著設計圖紙,通過三條子流程產出完整的任務環境。主流程"任務生成"負責產出任務說明、工具列表、預置數據和評分規則;"服務生成"負責處理還不存在的模擬服務——如果任務需要調用一個GitHub問題管理接口,而系統里還沒有這個服務,生成器會自動設計API、構建模擬伺服器、測試後納入服務庫;"數據生成"則負責準備任務需要的配套文件,比如給終端操作任務準備一個資料庫文件,給圖像識別任務準備一張圖片。為了保證生成的任務不會千篇一律,生成器還內置了"多樣性控制"機制:每次生成時打亂服務列表的順序、輪流使用不同的API動作類型、並把最近生成的10個任務名稱傳給AI以避免重複。

第三個環節叫做"驗證器"(Validator)。它扮演嚴格校對員的角色,在任務被納入考題庫之前回答三個問題:這道題的格式是否合法?它是否覆蓋了用戶要求的所有意圖?它是否真的可以被解答?格式檢查包含12項具體規則,比如評分權重之和必須等於1、至少要有一項安全檢查、安全規則不能和評分規則互相矛盾。覆蓋檢查則逐一核對解析器提煉的每個意圖單元,確保每個動作都有對應的可調用工具和評分項,每個對象都出現在預置數據或任務說明中,每個約束都被安全規則或評分規則所執行。可解性檢查則專門排除"邏輯上無解"的任務,比如要求智能體獲取明天的郵件、或者評分標準引用了智能體根本無法訪問的資訊。如果驗證不通過,系統會觸發重新生成,最多重試三次。

這三個環節合力,把一段自然語言描述變成一個經過嚴格驗證的任務環境,整個過程無需人工干預,平均耗時是以分鐘計,而不是以小時計。

**二、考場如何運轉:從題目到成績單**

有了任務環境之後,需要一套配套的運行機制來讓智能體真正"上場考試",並記錄它的表現。ClawEnvKit的執行框架分為四個步驟,好像一場考試從髮捲到收卷的完整流程。

首先是"沙盒初始化"。每道題都在一個完全隔離的容器里運行,沒有外網訪問權限,各道題之間互不干擾,就像每位考生坐在獨立的小隔間裡。模擬服務在容器啟動時加載預置數據,並且會隨機在25%的API調用上注入錯誤(返回"429 請求過多"或"500 服務內部錯誤"),專門測試智能體在遇到網路故障時能否正常恢復。多道題可以同時並行運行,不會產生衝突。

接下來是"智能體接入"。ClawEnvKit支持三種接入方式,對應不同類型的智能體框架。第一種是原生插件方式,針對OpenClaw這類有專屬插件接口的智能體。第二種是MCP馬里蘭大學等高校聯手打造流水線工廠AI智能體的考場終於可以自動生成了伺服器方式,對應Claude Code、Codex、Cursor馬里蘭大學等高校聯手打造流水線工廠AI智能體的考場終於可以自動生成了、NanoClaw、IronClaw、PicoClaw、ZeroClaw等支持MCP協議的智能體。第三種是SKILL.md方式,系統會生成一份包含所有接口curl調用示例的說明文檔,附加在任務提示詞末尾,適用於CoPaw、NemoClaw、Hermes等依靠文本提示與工具交互的智能體。無論哪種接入方式,所有工具調用最終都到達同一套模擬服務,並產生完全相同格式的審計日誌。

然後是"智能體執行"。智能體在其原生的多輪對話循環中運行——思考、調用工具、觀察結果、再思考——直到產出最終答案或達到超時限制(默認300秒)。

最後是"軌跡收集"。系統收集兩份材料:一份是服務端審計日誌,完整記錄了每一次API調用的參數和結果;另一份是智能體的最終文本輸出。從服務端日誌而非智能體自述來判斷行為,是為了防止智能體"嘴上說做了,實際上沒做"這種情況矇混過關。

**三、成績如何打分:三維度評價體系**

收卷之後的評分環節由一個叫做"評分引擎"的模組負責,它對智能體的行為從三個維度進行打分,就像給一份工作匯報同時評價"有沒有出錯"、"完成了多少"和"遇到困難時處理得怎麼樣"。

第一個維度是安全性。這是整個評分體系的"一票否決"項。評分引擎首先檢查智能體有沒有調用被禁止的工具,有沒有在輸出中包含被禁止的關鍵詞。一旦觸發安全違規,安全分直接歸零,整體得分也隨之清零,無論任務完成得多好都不例外。

第二個維度是完成度。這是主要得分項,權重占到總分的80%。評分引擎會對照任務的評分規則,逐項檢驗智能體的行為是否達標。評分規則由15種檢驗類型構成。其中"審計日誌類"檢驗完全基於事實行為,比如檢查智能體是否調用了特定的API動作、調用參數是否正確、調用次數是否達標、調用順序是否符合要求——這類檢驗是100%確定性的。"輸出內容類"檢驗關注智能體的文字回答,比如是否提及了必要的關鍵詞、是否避開了禁用詞、是否符合最低長度要求。"文件系統類"檢驗則確認智能體是否在容器里創建了預期的文件、文件哈希值是否匹配、Shell命令的退出碼是否正確。還有一類叫做"LLM評判"的檢驗,由另一個AI(Claude Haiku)對智能體的輸出質量按照特定評分標準進行主觀評分,返回0到1之間的小數。為了保證客觀性,LLM評判的權重上限被鎖定在55%(文件類任務為65%),確保大多數分數來自確定性的規則,而不是另一個AI的主觀判斷。

第三個維度是魯棒性,權重占總分的20%。它衡量的是智能體在遇到注入的API錯誤後能否順利恢復——判定標準是:在觸發錯誤後的接下來五條審計日誌記錄內,智能體是否重試了同一個操作並成功。如果一次運行中沒有觸發任何注入錯誤,魯棒性得分默認為滿分。

最終綜合得分的計算公式是:安全性乘以(0.8倍完成度加0.2倍魯棒性)。

**四、Auto-ClawEval:第一個大規模爪狀智能體基準測試集**

基於ClawEnvKit,研究團隊構建了兩個基準測試集,就像用同一台機器批量生產出標準化的考卷集。

規模較大的Auto-ClawEval共包含1040個任務環境,覆蓋24個語義類別,使用15種模擬服務,整個生成過程的API調用費用僅約80美元,使用的是claude-sonnet-4.6模型,耗時約18小時。相比之下,人工構建同等規模的基準集按每題兩小時估算需要約2080小時的人力。

規模較小的Auto-ClawEval-Mini則是一個精簡版,共104個任務,與另一個人工構建的基準測試集Claw-Eval(由人工精心撰寫,同樣是104題)形成一對一的對比,專門用來回答"機器生成的考題質量是否能與人工媲美"這個問題。

24個類別的任務分布相當多樣。規模最大的類別是金融分析(140題)和運營監控(110題),其次是文檔問答(100題)、通訊協作(80題)、生產力管理和跨服務工作流(各70題)、圖像文字識別(70題),以及安全關鍵任務(50題)和終端操作(50題)等。按任務類型劃分,約36%是單服務API任務,34%是跨服務協調任務,26%是依賴文件的任務,還有5%是使用真實網路的任務。

**五、生成質量經得起對比嗎?**

研究團隊從三個維度對比了Auto-ClawEval-Mini和Claw-Eval的質量。

第一個維度是有效性:兩者都達到了100%,即所有任務都通過了結構化驗證,可以正常運行。

第二個維度是連貫性,衡量任務說明、工具接口和評分標準三者之間有沒有邏輯矛盾。Auto-ClawEval-Mini得到0.59分,Claw-Eval得到0.51分。自動生成版本反而更高的原因在於,ClawEnvKit生成的任務格式明確列出了工具列表和評分組件,三者之間的對應關係對AI評判者來說一目了然;而人工構建的Claw-Eval把評分邏輯嵌入了任務專屬的程序代碼里,AI評判者無法直接審視。

第三個維度是清晰度,在1到5分的量表上衡量任務說明是否足夠明確、可操作。Auto-ClawEval-Mini得到3.54分,Claw-Eval得到3.38分。AI生成的提示詞在表達一致性和可操作性上略勝一籌。

時間成本對比則更為懸殊:人工構建104題需要約208小時,Auto-ClawEval-Mini只需1.8小時,整整節省了約13800倍的時間。

**六、實驗結果揭示了哪些真相**

研究團隊用Auto-ClawEval對4個模型家族的8種智能體框架進行了系統評測,得出了六條有實質意義的發現。

關於框架工程的重要性,所有結構化智能體框架都比基礎的ReAct智能體循環框架表現更好,最高提升幅度達到15.7個百分點——NemoClaw以69.0分位居第一,而基礎框架只有53.3分。從分數分布圖來看,基礎框架的得分集中在0.4到0.6之間,分布平坦;結構化框架則把更多任務推向接近滿分,分布曲線向右移動並在高分區形成更尖銳的峰值。這說明更好的框架不只是讓平均分高一點,而是讓更多任務被"真正完成"。

關於主要分化維度,在所有模型和框架上,安全性和魯棒性普遍接近滿分(均高於83%),而完成度的範圍則從34%到76%不等,差異懸殊。這意味著當前的難點在於"把任務做完",而不是"不造成危害"或"從錯誤中恢復",也證明Auto-ClawEval還遠沒有被現有模型飽和。

關於大版本和精簡版的一致性,在所有模型和框架上,兩個版本的得分差距均在2%以內。這驗證了AutoClawEval-Mini可以作為完整版的可靠低成本替代品,也說明ClawEnvKit的生成機制在擴大規模時不會引入系統性偏差。

關於框架層級與性能的關係,第三層框架(SKILL.md+curl方式)中,NemoClaw得69.0分、Hermes得66.9分,反而優於部分第二層MCP框架(ZeroClaw得57.1分、PicoClaw得53.2分)。框架接入的技術層級並不直接決定性能高低,具體實現方式更關鍵。

關於任務類別難度的多樣性,不同類別的難度差異相當顯著。類別C16對所有框架來說都是高難度區(得分範圍10%到71%),而類別C21和C32則被多數框架輕鬆解決(超過85%)。雖然不同框架的總體平均分相近,但各自的錯誤模式差異明顯,說明框架之間有真實的能力差異,而非整體水平相當。

關於工具調用次數與性能的關係,工具調用越多並不意味著性能越好。從效率-性能散點圖上看,Claude Code和OpenClaw在調用次數相對較少的情況下達到了較高的得分,處於帕累托前沿——這說明高效、精準的工具使用比暴力調用更重要。在模型維度,GPT-5.4表現最為出色,而GPT-5-nano則提供了性價比更高的選擇。

**七、評測變成活水:按需生成的考場**

ClawEnvKit最具前瞻性的特性,是它把"靜態考場"變成了"活水考場"。

以往的基準測試集一旦發布就成了固定版本:題目不會變,AI系統隨著訓練數據的積累可能逐漸"背"出答案,評測的區分力也隨之下降。更麻煩的是,如果一位用戶想測試某個還沒被現有基準覆蓋的使用場景,唯一的辦法是等研究者花幾百小時手工構建新一版基準。

ClawEnvKit提供了另一種可能:用戶用自然語言描述自己關心的使用場景,系統就能即時生成一批驗證過的任務環境。舉個具體的例子,一位用戶說"我每天的工作是處理GitHub上的新問題:按標籤分配優先級、指派合適的團隊成員、關閉重複的問題",ClawEnvKit會提議需要哪些服務端點,如果發現關閉問題的接口還不存在,會主動與用戶確認,獲得同意後就創建這個新服務並納入服務庫,整個過程無需用戶編寫任何代碼。

這種能力帶來了兩個實質性的變化。在評測側,評測從"定期發布的固定版本"變成了"持續刷新的活體流程",可以跟上AI能力提升的節奏,也可以響應新興任務類型和長尾需求。在訓練側,同樣的機制可以用來按需生成訓練數據,讓訓練集的任務分布能夠針對智能體當前的薄弱環節動態調整,而不是受限於現有用戶日誌里碰巧記錄到的操作類型。

---

說到底,ClawEnvKit做的事情很像把"人工出題"這個瓶頸從AI研究的關鍵路徑上移開了。每一個人工構建的基準集都像是一張精心製作但數量有限的地圖,而ClawEnvKit更像是一台能按你的需求隨時列印地圖的機器——質量不比手工版差,速度快了數千倍,還能根據你的目的地實時更新。

這對普通人意味著什麼?直接影響可能感受不到,但間接影響卻相當深遠。AI智能體越來越多地進入日常工具——郵件助手、日程管理、代碼補全、客服機器人。這些系統能不能在真實場景下穩定可靠地運作,很大程度上取決於訓練和評測的質量。當構建"練兵場"的成本從幾百小時降到幾十分鐘,研究者就能更快速地發現智能體的盲區、更及時地修復問題,最終流向用戶手裡的產品也會更可靠。

當然,研究團隊自己也坦承這項工作存在明顯局限。模擬服務終究不是真實的生產API,它不會有訂閱限制引起的速率上限,不會有OAuth認證流程,也不會因為上游服務的更新而悄悄改變響應格式。在模擬環境裡表現優秀的智能體,遇到真實API時仍然可能出岔子。此外,當前系統設計的任務都能在20輪工具調用內完成,而真實世界裡有些工作流程需要跨越數小時乃至數天,中間還涉及人工審批節點——這類"長周期任務"目前還不在系統的處理範圍之內。還有語音交互、圖形界面操作、多智能體協作,以及法律、醫療、金融等專業領域的特殊工作流,都是未來需要擴展覆蓋的方向。

有興趣深入了解技術細節的讀者,可以通過arXiv編號2604.18543查閱完整論文,裡面包含了解析器和生成器的完整提示詞模板、驗證器的12條結構化檢驗規則、15種評分檢驗類型的詳細說明,以及三個典型任務環境的完整示例。

---

Q&A

Q1:ClawEnvKit和普通的AI基準測試集有什麼區別?

A:普通的AI基準測試集是人工構建的固定題庫,製作耗時、發布後不再更新,AI系統可能隨著訓練數據積累而"背"出答案,導致評測失效。ClawEnvKit是一條自動化流水線,輸入一段自然語言描述就能即時生成經過驗證的任務環境,生成速度比人工快約13800倍,質量經實驗驗證與人工構建持平甚至更優,並且可以隨時按需生成新題,不存在"題庫過期"的問題。

Q2:Auto-ClawEval測出來的分數代表什麼,得分高說明AI什麼能力強?

A:Auto-ClawEval的綜合得分由三部分構成:安全性、完成度和魯棒性。目前實驗顯示,大部分AI系統在安全性和魯棒性上都接近滿分,真正拉開差距的是完成度,範圍從34%到76%不等。完成度反映的是智能體在多步驟任務中能否調用正確的工具、傳入正確的參數、按正確的順序完成操作,本質上考察的是"真正把事情做完"的能力,而不只是"說得頭頭是道"。

Q3:ClawEnvKit生成的模擬服務和真實API有多大差距?

A:ClawEnvKit的模擬服務暴露與真實API完全相同的接口路徑、參數格式和響應結構,並且注入了25%的隨機錯誤來模擬網路不穩定。研究團隊對1040個任務中高投入低得分的52個案例逐一核查,發現0個是因為評分系統誤判導致的"假失分",全部都是真實的智能體操作錯誤。主要差距在於模擬服務不涉及OAuth認證流程、實時變化的真實數據,以及因訂閱級別不同而變化的速率限制,這些因素不影響對核心工具調用能力的評估。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新