南京大學等高校聯手打造「CLI訓練數據工廠」，用6000條數據讓AI終端代理超越萬億參數大模型

這項由南京大學、StepFun、ZODA、上海人工智慧實驗室及華中科技大學聯合開展的研究，以預印本論文形式於2026年6月22日發布，論文編號為arXiv:2606.22883，研究成果以CLI-Universe為核心，聚焦於如何為終端代理型AI模型提供高質量的訓練數據。

贊助商廣告

**當AI學"幹活"卻沒有好教材**

AI大模型如今已經能做很多事情——寫代碼、回答問題、幫你規划行程。但有一類更進階的能力，叫做"終端代理"，說白了就是讓AI像一個真正的程序員或系統管理員一樣，直接在電腦的命令行界面里操作：安裝軟體、調試程序、分析數據、破解安全漏洞……這不是簡單地回答"怎麼做"，而是真正地"動手做"。

這類能力的訓練，需要大量真實可用的"練習題"。每道題不僅要有清晰的任務要求，還要有一個可以自動判斷AI做對沒做對的評測機制，甚至還要有一個標準答案過程供AI參考學習。問題在於，這樣的高質量訓練數據極度稀缺。

以往的做法，就像是把一堆舊教材掃描進教室，讓學生湊合著學。研究人員會去GitHub上扒代碼倉庫，從文檔里提取任務，把現成的錯誤日誌改造成"調試練習"——這些材料本來就不是教學用的，強行當題目用，結果要麼題目描述含糊，要麼答案路徑淺顯，要麼判分標準漏洞百出，AI從中得到的訓練信號非常弱。

南京大學等團隊面對這個困境，決定從源頭重建這套"教材製作流水線"，他們將這套系統命名為CLI-Universe。

**一、像課程設計師一樣，從零規劃每一道題**

CLI-Universe的核心思路，與傳統方式完全相反。傳統方式是"有什麼材料就出什麼題"，而CLI-Universe是"先想清楚要考察什麼能力，再去專門設計對應的題目"。這就像是一個優秀的教務主任，先寫好課程大綱，再讓老師按大綱備課，而不是讓老師隨手抓一本書就開始上課。

這套系統將每道題的設計鎖定在四個維度上。第一個維度是"領域"，也就是這道題屬於哪個技術範疇——是軟體工程、調試、系統管理、文件操作、安全滲透、數據處理、數據查詢、數據科學、科學計算、數學、優化、機器學習、模型訓練，還是影片處理、網頁接口、遊戲或個人助手。第二個維度是"技能類型"，描述解題需要什麼專項知識——是算法設計、數據處理、系統底層、配置管理、Shell腳本、數學推導、部署運維，還是密碼學。第三個維度是"能力"，描述解題過程中AI需要展現哪種推理行為——比如主動探索環境、拆解子任務、從錯誤中恢復、遵守規格要求、維持長上下文記憶、長期規劃、在多個約束間平衡，或是逆向分析。第四個維度是"工程支柱"，描述這道題的工程性質——是從零創造新功能、調試修復缺陷、系統底層編程、DevOps部署，還是在已有代碼上疊代或重構。

贊助商廣告

系統從這四個維度的組合中隨機採樣，生成"錨點"，然後在這個錨點框架下頭腦風暴出具體的題目候選。候選題目還會經過創意性、技術紮實性和可行性三方面評分，只有高分題目才能進入下一階段。

**二、用真實技術資料"餵飽"每一道題**

光有框架還不夠。一道只有抽象描述的題目，就像是一道只有"烤一個蛋糕"幾個字的菜譜，根本無法落地操作。CLI-Universe的第二步，是讓一個專門的"調研代理"去網上搜集與這道題相關的真實技術材料。

這個調研代理會去GitHub搜索相關代碼倉庫，去官方文檔查閱接口規範，去開發者論壇尋找真實的報錯案例，去教學網站找實際操作示例。它把這些真實材料里的工具用法、限制條件、已知坑點和輸入輸出規範，一點一點地融入題目描述中，把一道抽象的練習題磨鍊成一道有血有肉的真實任務。

這個過程的效果是可以量化的。研究團隊發現，經過調研代理深度打磨的題目，AI在解題時平均需要18.43次操作步驟，而未經打磨的題目只需5.34步——這說明打磨後的題目確實更難、更貼近真實工程複雜度。與此同時，AI的解題通過率從68.2%下降到了54.9%，降低了13.3個百分點。這聽起來像是壞事，但實際上是好事：通過率降低，恰恰證明題目變難了、更有區分度了，而不是隨隨便便就能矇混過關。

每道打磨好的題目最終會形成一份"藍圖"，包含三個核心部分：對外給AI看的任務說明書、僅供內部構造參考答案使用的提示資訊，以及後續搭建測試環境所需的環境清單。藍圖完成後還要經過質量驗證，確保任務描述足夠清晰、任務設計可以被可靠測試。通過引入評分標準後，人類評審員的接受率從72%提升到91%，AI評審員從75%提升到93%，兩者高度一致。

**三、把每道題裝進獨立的"練習沙盒"**

光有題目描述還遠遠不夠。AI做題的時候，需要一個真實可操作的環境——有正確的文件放在正確的位置，有必要的軟體包預先安裝好，有配置好的服務在後台運行。這就像是考試不僅要發試卷，還要準備好實驗室、試管和藥品。

贊助商廣告

CLI-Universe的第三步，是根據藍圖裡的環境清單，在Docker容器（可以理解為一個輕量級的隔離虛擬機）里搭建每道題的專屬運行環境。

這個過程分兩個子階段。第一個子階段是"資產準備"。系統會按照藍圖要求，去網上下載對應的代碼倉庫、數據集、配置文件、日誌樣本等原始材料。下載回來的材料往往不能直接用，需要做格式標準化、注入人工錯誤、調整參數設置，或者裁剪內容範圍。如果網上找不到合適的現成材料，系統會直接合成——生成帶有已知正確答案的受控變體數據，以及後續測試所需的驗證元數據。

第二個子階段是"環境組裝"。所有資產被打包進Docker鏡像，所有依賴庫被固定版本安裝，所有配置參數被精確設置，文件路徑和組件間的引用關係被逐一核驗。環境組裝完成後，系統還會運行一輪"冒煙測試"：檢查依賴是否安裝成功、服務是否正常啟動、文件結構是否符合預期、基本功能是否可以走通。通不過冒煙測試的環境直接丟棄。

**四、三重過濾，只保留真正有價值的題目**

即便環境搭好了，也不等於這道題就能用。CLI-Universe設置了三道質量關卡，把不夠好的題目擋在門外。

第一道關卡是測試用例的構建。一個獨立的"測試代理"，在不知道參考答案是什麼的情況下，為這道題生成一套自動化測試腳本。測試腳本要覆蓋任務的正確性、確定性和邊界情況。測試代理會反覆檢查自己寫的測試用例，對照一套質量評分標準（包括是否能準確判斷任務完成、每次運行結果是否一致、是否覆蓋了關鍵邊界情況）來疊代打磨，直到測試套件穩定可靠。

為了驗證這套測試機制的有效性，研究團隊把同樣的測試構建流程應用到Terminal-Bench 2（TB2）這個公開評測集的89道題上，發現用CLI-Universe方法生成的測試套件，與TB2官方測試套件的吻合度達到91%（若用AI作為語義匹配評審員，吻合度為88%）。這說明這套流程生成的測試，與人工精心設計的測試在質量上高度接近。

贊助商廣告

第二道關卡是參考答案的生成。另一個獨立的"解題代理"，在拿到環境和內部提示資訊後，生成一條完整的解題軌跡。這條軌跡只有在能通過所有測試用例的情況下，才會被保留為訓練數據。

第三道關卡分為兩層。第一層叫"提示依賴過濾"：系統讓另一個代理在不給提示的情況下嘗試這道題，只有那些"不給提示必然失敗、給了提示才能成功"的題目才會留下來。這排除了那些太簡單、隨便做做就能過的題目——這類題對AI來說沒有訓練價值。第二層叫"失敗到通過驗證"：必須驗證在初始環境下測試是失敗的，在執行完參考解題軌跡後測試是通過的，形成一個清晰的"從不行到行"的狀態轉變。這避免了兩種問題：一是測試太寬鬆，初始狀態就能通過，說明這道題根本沒有挑戰性；二是參考解法是假的，其實根本沒有解決問題。

經過從候選生成到最終驗證的完整流水線，大約三分之二的候選題目被淘汰。具體來說，創意階段會淘汰30%；藍圖驗證淘汰14%；環境搭建失敗淘汰14%；最終可執行驗證再淘汰8.4%。最終只有33.6%的候選題目能夠存活下來，被收錄進數據集。

**五、用6000條數據，訓練出超越千億參數模型的AI**

研究團隊用這套流水線生成了高質量題目和對應的解題軌跡，最終篩選出6000條成功軌跡構成CLI-Universe-6K數據集。這些軌跡由Kimi-K2.6（一個大型前沿模型）擔任"教師"，由它在這些題目上操作，產生的成功操作過程就是訓練數據。

用這6000條數據微調Qwen3系列模型（一個有8B、14B、32B三種規格的開源模型系列），結果令人矚目。在Terminal-Bench 2.0（TB2.0）這個專門評測AI終端代理能力的權威基準測試上，32B規模的CLI-Universe模型得分達到33.4%。

這個數字意味著什麼？在所有用開源數據訓練的、參數量不超過320億的模型中，CLI-Universe-32B排名第一——超過了同等規模的SkillSynth-32B（29.6分）、Nemotron-Terminal-32B（27.4分）和TerminalTraj-32B（22.0分）。更出乎意料的是，它還超過了一批參數量比它大十倍甚至百倍的模型：4800億參數的Qwen3-Coder得了23.9分，而高達1萬億參數的Kimi-K2-Instruct得了27.8分，均不及CLI-Universe-32B的33.4分。與此同時，未經專項數據訓練的Qwen3-32B原版在TB2.0上只有3.4分，經過CLI-Universe-6K微調後飆升到33.4分，提升了整整30個百分點。

贊助商廣告

性能提升隨著模型規模單調遞增：8B模型從2.5分提升到10.9分（+8.4），14B模型從4.0分提升到23.0分（+19.0），32B模型從3.4分提升到33.4分（+30.0）。這個趨勢說明，更大的模型從同樣的訓練數據中提取出了更多價值，而且目前還沒有到達飽和點。

當然，與最頂尖的商業模型相比仍有差距：Claude-Opus-4.5得分57.8，Gemini 3 Pro Preview得分56.9，GPT-5.2得分54.0，這些模型依然領先。

**六、拆解每個零件，看看哪塊最關鍵**

研究團隊對CLI-Universe的各個組成部分做了消融實驗——通俗地說，就是輪流拆掉某個零件，看看機器還能不能正常運轉，以此判斷每個零件的價值。實驗在Qwen3-32B上以1000道題的子集進行。

完整系統的得分是26.7分。拆掉"資產策略"（即精心準備的環境材料）後，分數跌至20.5分，損失了6.2分，這是三項中最大的損失，說明多樣化、精心設計的環境是題目質量的核心驅動力。拆掉"查詢評分標準"（即題目描述的質量控制機制）後，分數跌至23.3分，損失了3.4分，說明哪怕環境和測試都到位，題目問題本身的質量仍然是學習效果的天花板。拆掉"測試用例評分標準"（即測試套件的質量控制）後，分數跌至22.8分，損失了3.9分，說明高保真的自動化測試對於產生有效訓練信號至關重要。三個組件各自獨立地貢獻了顯著的性能，它們是互補關係，而非冗餘關係。

在數據選擇策略上，研究團隊比較了兩種方案：保留所有10000條軌跡（不論成功與否）對比只保留6000條成功軌跡。結果是，只保留成功軌跡的效果（33.4分）明顯優於保留全部軌跡（28.2分），高出5.2分。這說明失敗和不完整的操作軌跡會給訓練引入噪聲，在當前模型規模下，數據質量比數據數量更重要。

在教師模型的選擇上，用Kimi-K2.6生成軌跡的效果（33.4分）略優於用DeepSeek-V4-Pro生成軌跡（31.2分），但差距不大，說明這套流水線對具體前沿模型的依賴度較低，換一個優質的教師模型也能得到接近的效果。

贊助商廣告

**七、能力有沒有真正泛化到其他場景？**

一個合理的疑慮是：CLI-Universe的訓練數據是否只讓AI在Terminal-Bench這個特定評測集上刷了高分，在其他場景下仍然不行？研究團隊在兩個完全不同的評測集上進行了驗證。

在BFCL v4（一個測試函數調用能力的評測集）上，CLI-Universe-32B以58.0分超過Qwen3-32B原版的46.7分，提升了11.3分；CLI-Universe-8B相比Qwen3-8B提升了7.0分。在VitaBench（一個測試多輪工具使用能力的評測集）上，CLI-Universe-32B以27.0分超過Qwen3-32B的15.4分，提升了11.6分；8B版本提升了1.1分。這兩組數據表明，CLI-Universe訓練出的能力——工具調度、環境狀態追蹤、多步規劃——在不同的任務場景下都能發揮作用，而不是對某個特定評測集的過擬合。

在TB2.0的細粒度分類分析中，Qwen3-32B基線幾乎在所有類別上都接近零分，而CLI-Universe-32B則在大多數類別上取得了實質性突破。提升最大的幾個類別包括數據處理（+62.5分）、機器學習（+50.0分）、數據查詢（+50.0分）、模型訓練（+43.8分）、系統管理（+41.7分）和安全（+37.5分）。仍有挑戰的類別是影片處理和遊戲（在32B規模下均為零提升），這指向了未來數據擴展的方向。

**八、AI出錯的時候，究竟在哪裡出錯？**

研究團隊對Terminal-Bench 2上的失敗案例做了深入分析，建立了一套包含9種具體失敗模式的分類框架，歸屬於三大類：執行層失敗、連貫性失敗和驗證層失敗。

對於Claude-Opus-4.6、GPT-5.3-Codex、GLM-5、DeepSeek-V4-Pro這四個頂尖商業模型，失敗的主要原因都集中在"驗證層"，占比從47%到60%不等。這意味著這些頂尖模型在執行任務時往往能走到終點附近，但問題出在它們沒有正確驗證自己的工作成果就宣布完成了。具體來看，Claude-Opus-4.6更多表現為"弱驗證"（做了檢查但檢查太粗糙，錯誤沒被發現），占比36%；GPT-5.3-Codex則更多表現為"沒有或錯誤地進行驗證"（直接跳過驗證步驟），占比47%。

贊助商廣告

CLI-Universe-32B的失敗畫像與頂尖模型截然不同。驗證層失敗降到了27%，而執行層失敗上升為最大的失敗類別，占比44%。其中最突出的具體失敗模式是"步驟重複"，從頂尖模型的0%到7%飆升到23%。這說明CLI-Universe-32B更容易在任務進行中陷入循環——反覆執行同一個操作卻無法推進——而不是像頂尖模型那樣做到七八成就草草結束並跳過驗證。

研究團隊還給出了每種失敗模式的詳細案例。比如"步驟重複"的案例中，AI需要從網上下載一個特定版本的源代碼，但找不到下載鏈接，於是它反覆執行同一條curl命令達165次，雖然在推理文字里寫著"換個方法"，但實際執行的命令從未改變。"任務偏離"的案例中，AI需要寫一個正則表達式配置文件，但它花了整整10輪都在用Python調試棋盤狀態，目標文件一行都沒有寫。"推理與行動不一致"的案例中，AI在分析文字里三次寫道"應該用逆向分析法"，但實際寫出的攻擊代碼始終是暴力枚舉的正向搜索，兩者矛盾從頭到尾沒有解決。

歸根結底，CLI-Universe做的事情，就是在AI學習"幹活"這件事上，把題庫從一堆拼湊的舊材料升級為了一套精心設計的專項訓練課程。它的核心邏輯是：與其拿更多平庸的題目堆量，不如用嚴苛的設計流程和多重質量過濾，保證每一道題都真正有訓練價值。實驗結果證明，6000道這樣的高質量題目，足以讓一個320億參數的模型，在某個專項能力上超越那些參數量比它大三十倍的對手。

這當然不是終點。與Claude、GPT等最頂尖商業模型之間的差距仍然存在。數據集只有6000條軌跡，擴大規模或許能進一步釋放潛力。整條流水線依賴的LLM代理自身的能力上限，也決定了合成數據質量的天花板。此外，影片處理、遊戲等類別目前仍是空白，說明任務覆蓋範圍還有擴展空間。有興趣深入了解完整方法和實驗細節的讀者，可以通過arXiv編號2606.22883查閱完整論文。

贊助商廣告

Q&A

Q1：CLI-Universe和普通數據合成方法有什麼區別？

A：普通方法是把現成的代碼倉庫、文檔、錯誤日誌"改造"成訓練題目，這些材料本來不是為了教學設計的，質量難以保證。CLI-Universe反過來，先設計好要考察的能力維度，再通過研究代理搜集真實技術材料來充實題目，最後用多重可執行驗證過濾掉低質量題目，整個流程會淘汰三分之二的候選，只留下真正有價值的部分。

Q2：CLI-Universe-6K的6000條數據是怎麼得到的？

A：CLI-Universe流水線先生成了更多候選題目和測試環境，然後讓Kimi-K2.6這個前沿大模型在這些題目上實際操作，記錄它的完整操作過程作為軌跡。只有那些成功通過所有測試用例的軌跡才會被保留，最終精選出6000條成功軌跡構成訓練數據集。

Q3：Terminal-Bench 2.0是什麼評測基準？

A：Terminal-Bench 2.0是一個專門評測AI在命令行終端環境中完成複雜任務能力的權威基準測試，由人工精心設計，涵蓋軟體工程、調試、系統管理、安全分析、數據處理等多個專業領域，任務運行在隔離的Docker容器環境中，通過自動化測試判斷AI是否真正完成了任務。