宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

南京大學等高校聯手打造「CLI訓練數據工廠」,用6000條數據讓AI終端代理超越萬億參數大模型

2026年06月25日 首頁 » 熱門科技

這項由南京大學、StepFun、ZODA、上海人工智慧實驗室及華中科技大學聯合開展的研究,以預印本論文形式於2026年6月22日發布,論文編號為arXiv:2606.22883,研究成果以CLI-Universe為核心,聚焦於如何為終端代理型AI模型提供高質量的訓練數據。

**當AI學"幹活"卻沒有好教材**

AI大模型如今已經能做很多事情——寫代碼、回答問題、幫你規划行程。但有一類更進階的能力,叫做"終端代理",說白了就是讓AI像一個真正的程序員或系統管理員一樣,直接在電腦的命令行界面里操作:安裝軟體、調試程序、分析數據、破解安全漏洞……這不是簡單地回答"怎麼做",而是真正地"動手做"。

這類能力的訓練,需要大量真實可用的"練習題"。每道題不僅要有清晰的任務要求,還要有一個可以自動判斷AI做對沒做對的評測機制,甚至還要有一個標準答案過程供AI參考學習。問題在於,這樣的高質量訓練數據極度稀缺。

以往的做法,就像是把一堆舊教材掃描進教室,讓學生湊合著學。研究人員會去GitHub上扒代碼倉庫,從文檔里提取任務,把現成的錯誤日誌改造成"調試練習"——這些材料本來就不是教學用的,強行當題目用,結果要麼題目描述含糊,要麼答案路徑淺顯,要麼判分標準漏洞百出,AI從中得到的訓練信號非常弱。

南京大學等團隊面對這個困境,決定從源頭重建這套"教材製作流水線",他們將這套系統命名為CLI-Universe。

**一、像課程設計師一樣,從零規劃每一道題**

CLI-Universe的核心思路,與傳統方式完全相反。傳統方式是"有什麼材料就出什麼題",而CLI-Universe是"先想清楚要考察什麼能力,再去專門設計對應的題目"。這就像是一個優秀的教務主任,先寫好課程大綱,再讓老師按大綱備課,而不是讓老師隨手抓一本書就開始上課。

這套系統將每道題的設計鎖定在四個維度上。第一個維度是"領域",也就是這道題屬於哪個技術範疇——是軟體工程、調試、系統管理、文件操作、安全滲透、數據處理、數據查詢、數據科學、科學計算、數學、優化、機器學習、模型訓練,還是影片處理、網頁接口、遊戲或個人助手。第二個維度是"技能類型",描述解題需要什麼專項知識——是算法設計、數據處理、系統底層、配置管理、Shell腳本、數學推導、部署運維,還是密碼學。第三個維度是"能力",描述解題過程中AI需要展現哪種推理行為——比如主動探索環境、拆解子任務、從錯誤中恢復、遵守規格要求、維持長上下文記憶、長期規劃、在多個約束間平衡,或是逆向分析。第四個維度是"工程支柱",描述這道題的工程性質——是從零創造新功能、調試修復缺陷、系統底層編程、DevOps部署,還是在已有代碼上疊代或重構。

系統從這四個維度的組合中隨機採樣,生成"錨點",然後在這個錨點框架下頭腦風暴出具體的題目候選。候選題目還會經過創意性、技術紮實性和可行性三方面評分,只有高分題目才能進入下一階段。

**二、用真實技術資料"餵飽"每一道題**

光有框架還不夠。一道只有抽象描述的題目,就像是一道只有"烤一個蛋糕"幾個字的菜譜,根本無法落地操作。CLI-Universe的第二步,是讓一個專門的"調研代理"去網上搜集與這道題相關的真實技術材料。

這個調研代理會去GitHub搜索相關代碼倉庫,去官方文檔查閱接口規範,去開發者論壇尋找真實的報錯案例,去教學網站找實際操作示例。它把這些真實材料里的工具用法、限制條件、已知坑點和輸入輸出規範,一點一點地融入題目描述中,把一道抽象的練習題磨鍊成一道有血有肉的真實任務。

這個過程的效果是可以量化的。研究團隊發現,經過調研代理深度打磨的題目,AI在解題時平均需要18.43次操作步驟,而未經打磨的題目只需5.34步——這說明打磨後的題目確實更難、更貼近真實工程複雜度。與此同時,AI的解題通過率從68.2%下降到了54.9%,降低了13.3個百分點。這聽起來像是壞事,但實際上是好事:通過率降低,恰恰證明題目變難了、更有區分度了,而不是隨隨便便就能矇混過關。

每道打磨好的題目最終會形成一份"藍圖",包含三個核心部分:對外給AI看的任務說明書、僅供內部構造參考答案使用的提示資訊,以及後續搭建測試環境所需的環境清單。藍圖完成後還要經過質量驗證,確保任務描述足夠清晰、任務設計可以被可靠測試。通過引入評分標準後,人類評審員的接受率從72%提升到91%,AI評審員從75%提升到93%,兩者高度一致。

**三、把每道題裝進獨立的"練習沙盒"**

光有題目描述還遠遠不夠。AI做題的時候,需要一個真實可操作的環境——有正確的文件放在正確的位置,有必要的軟體包預先安裝好,有配置好的服務在後台運行。這就像是考試不僅要發試卷,還要準備好實驗室、試管和藥品。

CLI-Universe的第三步,是根據藍圖裡的環境清單,在Docker容器(可以理解為一個輕量級的隔離虛擬機)里搭建每道題的專屬運行環境。

這個過程分兩個子階段。第一個子階段是"資產準備"。系統會按照藍圖要求,去網上下載對應的代碼倉庫、數據集、配置文件、日誌樣本等原始材料。下載回來的材料往往不能直接用,需要做格式標準化、注入人工錯誤、調整參數設置,或者裁剪內容範圍。如果網上找不到合適的現成材料,系統會直接合成——生成帶有已知正確答案的受控變體數據,以及後續測試所需的驗證元數據。

第二個子階段是"環境組裝"。所有資產被打包進Docker鏡像,所有依賴庫被固定版本安裝,所有配置參數被精確設置,文件路徑和組件間的引用關係被逐一核驗。環境組裝完成後,系統還會運行一輪"冒煙測試":檢查依賴是否安裝成功、服務是否正常啟動、文件結構是否符合預期、基本功能是否可以走通。通不過冒煙測試的環境直接丟棄。

**四、三重過濾,只保留真正有價值的題目**

即便環境搭好了,也不等於這道題就能用。CLI-Universe設置了三道質量關卡,把不夠好的題目擋在門外。

第一道關卡是測試用例的構建。一個獨立的"測試代理",在不知道參考答案是什麼的情況下,為這道題生成一套自動化測試腳本。測試腳本要覆蓋任務的正確性、確定性和邊界情況。測試代理會反覆檢查自己寫的測試用例,對照一套質量評分標準(包括是否能準確判斷任務完成、每次運行結果是否一致、是否覆蓋了關鍵邊界情況)來疊代打磨,直到測試套件穩定可靠。

為了驗證這套測試機制的有效性,研究團隊把同樣的測試構建流程應用到Terminal-Bench 2(TB2)這個公開評測集的89道題上,發現用CLI-Universe方法生成的測試套件,與TB2官方測試套件的吻合度達到91%(若用AI作為語義匹配評審員,吻合度為88%)。這說明這套流程生成的測試,與人工精心設計的測試在質量上高度接近。

第二道關卡是參考答案的生成。另一個獨立的"解題代理",在拿到環境和內部提示資訊後,生成一條完整的解題軌跡。這條軌跡只有在能通過所有測試用例的情況下,才會被保留為訓練數據。

第三道關卡分為兩層。第一層叫"提示依賴過濾":系統讓另一個代理在不給提示的情況下嘗試這道題,只有那些"不給提示必然失敗、給了提示才能成功"的題目才會留下來。這排除了那些太簡單、隨便做做就能過的題目——這類題對AI來說沒有訓練價值。第二層叫"失敗到通過驗證":必須驗證在初始環境下測試是失敗的,在執行完參考解題軌跡後測試是通過的,形成一個清晰的"從不行到行"的狀態轉變。這避免了兩種問題:一是測試太寬鬆,初始狀態就能通過,說明這道題根本沒有挑戰性;二是參考解法是假的,其實根本沒有解決問題。

經過從候選生成到最終驗證的完整流水線,大約三分之二的候選題目被淘汰。具體來說,創意階段會淘汰30%;藍圖驗證淘汰14%;環境搭建失敗淘汰14%;最終可執行驗證再淘汰8.4%。最終只有33.6%的候選題目能夠存活下來,被收錄進數據集。

**五、用6000條數據,訓練出超越千億參數模型的AI**

研究團隊用這套流水線生成了高質量題目和對應的解題軌跡,最終篩選出6000條成功軌跡構成CLI-Universe-6K數據集。這些軌跡由Kimi-K2.6(一個大型前沿模型)擔任"教師",由它在這些題目上操作,產生的成功操作過程就是訓練數據。

用這6000條數據微調Qwen3系列模型(一個有8B、14B、32B三種規格的開源模型系列),結果令人矚目。在Terminal-Bench 2.0(TB2.0)這個專門評測AI終端代理能力的權威基準測試上,32B規模的CLI-Universe模型得分達到33.4%。

這個數字意味著什麼?在所有用開源數據訓練的、參數量不超過320億的模型中,CLI-Universe-32B排名第一——超過了同等規模的SkillSynth-32B(29.6分)、Nemotron-Terminal-32B(27.4分)和TerminalTraj-32B(22.0分)。更出乎意料的是,它還超過了一批參數量比它大十倍甚至百倍的模型:4800億參數的Qwen3-Coder得了23.9分,而高達1萬億參數的Kimi-K2-Instruct得了27.8分,均不及CLI-Universe-32B的33.4分。與此同時,未經專項數據訓練的Qwen3-32B原版在TB2.0上只有3.4分,經過CLI-Universe-6K微調後飆升到33.4分,提升了整整30個百分點。

性能提升隨著模型規模單調遞增:8B模型從2.5分提升到10.9分(+8.4),14B模型從4.0分提升到23.0分(+19.0),32B模型從3.4分提升到33.4分(+30.0)。這個趨勢說明,更大的模型從同樣的訓練數據中提取出了更多價值,而且目前還沒有到達飽和點。

當然,與最頂尖的商業模型相比仍有差距:Claude-Opus-4.5得分57.8,Gemini 3 Pro Preview得分56.9,GPT-5.2得分54.0,這些模型依然領先。

**六、拆解每個零件,看看哪塊最關鍵**

研究團隊對CLI-Universe的各個組成部分做了消融實驗——通俗地說,就是輪流拆掉某個零件,看看機器還能不能正常運轉,以此判斷每個零件的價值。實驗在Qwen3-32B上以1000道題的子集進行。

完整系統的得分是26.7分。拆掉"資產策略"(即精心準備的環境材料)後,分數跌至20.5分,損失了6.2分,這是三項中最大的損失,說明多樣化、精心設計的環境是題目質量的核心驅動力。拆掉"查詢評分標準"(即題目描述的質量控制機制)後,分數跌至23.3分,損失了3.4分,說明哪怕環境和測試都到位,題目問題本身的質量仍然是學習效果的天花板。拆掉"測試用例評分標準"(即測試套件的質量控制)後,分數跌至22.8分,損失了3.9分,說明高保真的自動化測試對於產生有效訓練信號至關重要。三個組件各自獨立地貢獻了顯著的性能,它們是互補關係,而非冗餘關係。

在數據選擇策略上,研究團隊比較了兩種方案:保留所有10000條軌跡(不論成功與否)對比只保留6000條成功軌跡。結果是,只保留成功軌跡的效果(33.4分)明顯優於保留全部軌跡(28.2分),高出5.2分。這說明失敗和不完整的操作軌跡會給訓練引入噪聲,在當前模型規模下,數據質量比數據數量更重要。

在教師模型的選擇上,用Kimi-K2.6生成軌跡的效果(33.4分)略優於用DeepSeek-V4-Pro生成軌跡(31.2分),但差距不大,說明這套流水線對具體前沿模型的依賴度較低,換一個優質的教師模型也能得到接近的效果。

**七、能力有沒有真正泛化到其他場景?**

一個合理的疑慮是:CLI-Universe的訓練數據是否只讓AI在Terminal-Bench這個特定評測集上刷了高分,在其他場景下仍然不行?研究團隊在兩個完全不同的評測集上進行了驗證。

在BFCL v4(一個測試函數調用能力的評測集)上,CLI-Universe-32B以58.0分超過Qwen3-32B原版的46.7分,提升了11.3分;CLI-Universe-8B相比Qwen3-8B提升了7.0分。在VitaBench(一個測試多輪工具使用能力的評測集)上,CLI-Universe-32B以27.0分超過Qwen3-32B的15.4分,提升了11.6分;8B版本提升了1.1分。這兩組數據表明,CLI-Universe訓練出的能力——工具調度、環境狀態追蹤、多步規劃——在不同的任務場景下都能發揮作用,而不是對某個特定評測集的過擬合。

在TB2.0的細粒度分類分析中,Qwen3-32B基線幾乎在所有類別上都接近零分,而CLI-Universe-32B則在大多數類別上取得了實質性突破。提升最大的幾個類別包括數據處理(+62.5分)、機器學習(+50.0分)、數據查詢(+50.0分)、模型訓練(+43.8分)、系統管理(+41.7分)和安全(+37.5分)。仍有挑戰的類別是影片處理和遊戲(在32B規模下均為零提升),這指向了未來數據擴展的方向。

**八、AI出錯的時候,究竟在哪裡出錯?**

研究團隊對Terminal-Bench 2上的失敗案例做了深入分析,建立了一套包含9種具體失敗模式的分類框架,歸屬於三大類:執行層失敗、連貫性失敗和驗證層失敗。

對於Claude-Opus-4.6、GPT-5.3-Codex、GLM-5、DeepSeek-V4-Pro這四個頂尖商業模型,失敗的主要原因都集中在"驗證層",占比從47%到60%不等。這意味著這些頂尖模型在執行任務時往往能走到終點附近,但問題出在它們沒有正確驗證自己的工作成果就宣布完成了。具體來看,Claude-Opus-4.6更多表現為"弱驗證"(做了檢查但檢查太粗糙,錯誤沒被發現),占比36%;GPT-5.3-Codex則更多表現為"沒有或錯誤地進行驗證"(直接跳過驗證步驟),占比47%。

CLI-Universe-32B的失敗畫像與頂尖模型截然不同。驗證層失敗降到了27%,而執行層失敗上升為最大的失敗類別,占比44%。其中最突出的具體失敗模式是"步驟重複",從頂尖模型的0%到7%飆升到23%。這說明CLI-Universe-32B更容易在任務進行中陷入循環——反覆執行同一個操作卻無法推進——而不是像頂尖模型那樣做到七八成就草草結束並跳過驗證。

研究團隊還給出了每種失敗模式的詳細案例。比如"步驟重複"的案例中,AI需要從網上下載一個特定版本的源代碼,但找不到下載鏈接,於是它反覆執行同一條curl命令達165次,雖然在推理文字里寫著"換個方法",但實際執行的命令從未改變。"任務偏離"的案例中,AI需要寫一個正則表達式配置文件,但它花了整整10輪都在用Python調試棋盤狀態,目標文件一行都沒有寫。"推理與行動不一致"的案例中,AI在分析文字里三次寫道"應該用逆向分析法",但實際寫出的攻擊代碼始終是暴力枚舉的正向搜索,兩者矛盾從頭到尾沒有解決。

歸根結底,CLI-Universe做的事情,就是在AI學習"幹活"這件事上,把題庫從一堆拼湊的舊材料升級為了一套精心設計的專項訓練課程。它的核心邏輯是:與其拿更多平庸的題目堆量,不如用嚴苛的設計流程和多重質量過濾,保證每一道題都真正有訓練價值。實驗結果證明,6000道這樣的高質量題目,足以讓一個320億參數的模型,在某個專項能力上超越那些參數量比它大三十倍的對手。

這當然不是終點。與Claude、GPT等最頂尖商業模型之間的差距仍然存在。數據集只有6000條軌跡,擴大規模或許能進一步釋放潛力。整條流水線依賴的LLM代理自身的能力上限,也決定了合成數據質量的天花板。此外,影片處理、遊戲等類別目前仍是空白,說明任務覆蓋範圍還有擴展空間。有興趣深入了解完整方法和實驗細節的讀者,可以通過arXiv編號2606.22883查閱完整論文。

Q&A

Q1:CLI-Universe和普通數據合成方法有什麼區別?

A:普通方法是把現成的代碼倉庫、文檔、錯誤日誌"改造"成訓練題目,這些材料本來不是為了教學設計的,質量難以保證。CLI-Universe反過來,先設計好要考察的能力維度,再通過研究代理搜集真實技術材料來充實題目,最後用多重可執行驗證過濾掉低質量題目,整個流程會淘汰三分之二的候選,只留下真正有價值的部分。

Q2:CLI-Universe-6K的6000條數據是怎麼得到的?

A:CLI-Universe流水線先生成了更多候選題目和測試環境,然後讓Kimi-K2.6這個前沿大模型在這些題目上實際操作,記錄它的完整操作過程作為軌跡。只有那些成功通過所有測試用例的軌跡才會被保留,最終精選出6000條成功軌跡構成訓練數據集。

Q3:Terminal-Bench 2.0是什麼評測基準?

A:Terminal-Bench 2.0是一個專門評測AI在命令行終端環境中完成複雜任務能力的權威基準測試,由人工精心設計,涵蓋軟體工程、調試、系統管理、安全分析、數據處理等多個專業領域,任務運行在隔離的Docker容器環境中,通過自動化測試判斷AI是否真正完成了任務。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新