清華、北大、螞蟻集團聯手打造「AI偵探團隊」：當一個AI學會了分配工作，它的能力翻了幾倍

這項由清華大學、北京大學、螞蟻集團及中國人民大學高瓴人工智慧學院聯合開展的研究，以預印本形式發布於2026年6月，論文編號為arXiv:2606.09730，有興趣深入了解技術細節的讀者可通過該編號查閱完整原文。

贊助商廣告

有沒有想過，當你委託一個助手去做一件複雜的事情，比如幫你調查某件事的來龍去脈，他回來跟你匯報的方式其實決定了你倆能不能一起把事情做好？如果他把每一個步驟、每一條搜索記錄都原原本本地塞給你，你的腦子可能會當場崩潰。但如果他整理好關鍵資訊，附上出處，簡潔地告訴你他發現了什麼、為什麼這麼判斷，你才能在此基礎上繼續做決策。這套道理放在人工智慧身上，同樣成立。這正是這篇研究所要解決的核心問題。

研究團隊提出了一個叫做 SearchSwarm 的系統，核心思想是讓一個"主偵探"AI負責統籌規劃、分析線索、做最終判斷，而把具體的"跑腿調查"工作交給一批"外勤偵探"去完成。這聽起來簡單，但背後的學問相當深：主偵探怎麼知道哪些工作該外包？外包的時候怎麼交代清楚任務？外勤偵探交回來的報告怎麼驗證真偽？這一整套能力，研究團隊把它叫做"委託智能"（delegation intelligence）。而這篇研究的貢獻，正是探索如何讓AI真正學會這套能力。

最終訓練出來的模型 SearchSwarm-30B-A3B 在四個頂級評測基準上均取得了同等規模模型中的最佳成績：在 BrowseComp 上得分68.1，在中文版 BrowseComp-ZH 上得分73.3，在 GAIA 上得分82.5，在 xbench-DeepSearch 上得分80.8。更引人注意的是，這個體量約30億活躍參數的輕量級模型，在不少測試上表現得比它體積大十倍甚至更多的閉源大模型還要出色。研究團隊已經公開了整套系統的框架設計、模型權重和訓練數據，方便後續研究者繼續在這個方向上探索。

一、問題的根源：AI的"腦容量"是有限的

要理解這項研究的意義，得先理解AI面臨的一個根本性困境。

贊助商廣告

每一個大語言模型在工作時，都有一個"上下文窗口"，可以粗略地理解為它一次能記住和處理的資訊量。超出這個範圍的內容，它就記不住了。對於簡單的問答任務，這通常不是問題。但當任務變得複雜——比如做一項深入的網路調研，需要搜索幾十個網頁、翻閱大量資料、不斷修正假設——模型的上下文很快就會被塞滿。

過去應對這個問題的方法，基本上都是"事後補救"：要麼超出閾值後把舊的對話歷史刪掉，要麼只保留最近幾輪的工具調用結果，要麼把整個過程壓縮成摘要。這些方法有個共同的問題：它們都是被動的，等上下文快滿了才開始處理，而且處理方式相當機械，不管內容重不重要，一刀切地刪掉或壓縮。

研究團隊將這個問題的更優解描述為"主動且智能的上下文管理"。核心思路是：在任務開始之前就做好規劃，把那些需要大量搜索和瀏覽的"體力活"外包給獨立運行的子模型去做，子模型在自己獨立的上下文裡完成任務，然後只把整理好的結論報告給主模型。這樣一來，主模型的上下文始終保持乾淨整潔，用來思考和決策，而不是被大量的網頁內容塞滿。

從這個角度看，SearchSwarm 其實不需要被理解成一個"多個AI協作"的複雜系統——它本質上還是同一個模型在工作，只是這個模型會把自己"分身"成主偵探和外勤偵探兩個角色，主偵探的上下文看到的是經過整理的報告，而不是所有原始資料。研究團隊強調，這與其說是多智能體系統，不如說是一種更聰明的單智能體上下文管理方式。

二、系統框架：主偵探與外勤偵探如何配合

SearchSwarm 的工作方式，可以用一個偵探團隊接手複雜案件來理解。

主偵探（主智能體）收到一個複雜問題，比如"某位1990年代的冷門學者在哪所學校的什麼位置發表過某個特定觀點"。他不會立刻開始自己翻資料，而是先分析案件結構：這個問題涉及哪些獨立的線索？哪些線索可以分開追查？哪些決定只有掌握全局視角的人才能做？

贊助商廣告

規劃好之後，主偵探通過一個叫做 `call_sub_agent` 的工具，把具體的調查任務分配給外勤偵探（子智能體）。每個外勤偵探在完全獨立的環境中工作，他們只知道主偵探交代給自己的那份任務說明，對主偵探的整體調查進展一無所知。他們可以使用搜尋引擎、訪問網頁、查閱學術文獻、運行代碼——但他們不能再進一步分派任務給別人，委託關係只有一層。

外勤偵探完成調查後，提交一份整理好的報告給主偵探。這份報告只包含關鍵發現和對應的資訊來源，不包含所有的中間搜索過程。主偵探讀完報告，把它整合進自己的推理中，但不會盲目相信——他可能發現某份報告與其他報告存在矛盾，或者某個結論的來源不夠可靠，這時候他會再派出新的外勤偵探去核實。

整個過程在數學上被形式化為：主智能體的軌跡由一系列"思考-行動-觀測"步驟構成，當行動是 `call_sub_agent(b)` 時，子智能體在獨立上下文中基於任務說明 `b` 完成一段完整的子軌跡，最終產出報告 `r`，這個報告作為主智能體這一步的"觀測"回流進主流程。子智能體完整的中間步驟，主智能體是看不到的。

三、精心設計的"任務分配說明書"：四大原則

光有分工還不夠，關鍵在於怎麼分工。研究團隊在設計"約束框架"（harness 清華北大螞蟻集團聯手打造AI偵探團隊當一個AI學會了分配工作它的能力翻了幾倍）時，總結了四條核心原則，這些原則決定了整套系統能不能真正有效運轉。

第一條原則是"鼓勵主動外包"。主偵探的上下文是稀缺資源，每一個token（可以粗略理解為一個詞或字）用來看原始網頁，就少一個token用來思考和判斷。搜索、訪問網頁這類工作，雖然步驟多，但認知含量相對較低——它們的本質是"找到資訊"，而不是"判斷資訊的含義"。框架明確指導主偵探：只有當一個子任務簡單到外包的開銷比直接做更大時，才自己動手；否則，把體力活交出去。

第二條原則是"全面的任務說明"。外勤偵探進入任務時，對整個案件一無所知。如果主偵探只給他一句"幫我查這個人在哪裡工作"，外勤偵探很可能去查一些主偵探已經確認過的資訊，白費功夫，或者搞錯了方向。框架要求主偵探在分派任務時，寫一份完整的背景說明：這個子任務在整體調查中的位置是什麼，目前已經確認了什麼事實，還有哪些懸而未決的疑問，哪些方向已經嘗試過但沒有結果，哪些線索被排除了、原因是什麼。這樣外勤偵探才能做真正有用的工作，而不是重複主偵探已經做過的事。

贊助商廣告

第三條原則是"主偵探保留核心判斷權"。外勤偵探可能會犯錯——誤讀來源、做出牽強的推論，或者在真正有爭議的地方選擇了錯誤的一方。由於主偵探是唯一一個能看到所有外勤報告全貌的角色，只有他才能發現報告之間的矛盾，判斷某個結論是否與其他已知事實衝突。框架明確規定：外勤偵探負責收集證據、檢驗具體假設，但所有方向性決策——追哪條線索、什麼時候結案、如何裁判互相矛盾的報告——都必須由主偵探獨立作出，不能被外勤報告牽著鼻子走。

第四條原則是"要求帶來源的報告"。由於主偵探看不到外勤偵探的中間步驟，如果報告裡的每個結論都沒有來源，主偵探無法區分"這是外勤偵探從可靠來源讀到的事實"和"這是外勤偵探自己發揮的推斷"。框架要求每份外勤報告必須給每個重要結論附上內聯引用，指向具體的網址。主偵探收到報告後可以按圖索驥去核實，最終提交給用戶的答案里也會保留這些來源，讓用戶能夠自己驗證。

這四條原則共同構成了一套約束框架，研究團隊通過一個消融實驗驗證了它的效果：在200道 BrowseComp 測試題上，只給模型提供委託工具但不附加任何框架原則，分數從47.7提升到50.0，僅上漲2.3分；加上完整框架後，分數跳升至57.7，相較於基礎配置提升了整整10分。框架的質量，而非工具本身，才是真正的關鍵。

四、如何讓AI真正學會委託：訓練數據的製造過程

框架解決了"如何在推理時引導模型行為"的問題，但還有一個更深的挑戰：如果一個模型本身從來沒有學過如何委託任務，即使給它一份再詳盡的操作說明，它也不會主動去用。研究團隊在實驗中發現，直接把這套框架套在沒有經過針對性訓練的基礎模型上，模型根本不會觸發 `call_sub_agent` 工具，行為與什麼都沒加時完全一樣。委託行為不是靠指令就能喚醒的，它需要通過訓練被真正內化進模型。

贊助商廣告

訓練數據的來源，正是這套框架本身產生的軌跡。研究團隊從兩個開源數據集 RedSearcher 和 OpenSeeker 中收集了大量複雜問題，讓模型在框架引導下去完成這些深度研究任務，記錄下完整的執行過程——包括每一步的思考、工具調用和環境返回——作為訓練素材。

收集數據時用了兩種配置。第一種是同一個模型同時擔任主偵探和外勤偵探，兩個角色的軌跡都作為訓練數據保留。第二種是用一個更強的模型擔任主偵探，配上一個相對較弱的模型擔任外勤偵探，只保留主偵探的軌跡。第二種配置背後的邏輯很有意思：當外勤偵探不那麼可靠時，主偵探就不得不更仔細地審查報告、更主動地去核實疑點，這會產生更有價值的訓練軌跡——任務分解更審慎，結果驗證更嚴格。把兩種配置的數據混合使用，能讓模型學到更全面、更穩健的委託行為。

數據的篩選也相當嚴格。主偵探軌跡只保留最終答案正確的樣本；外勤偵探軌跡只在對應的主偵探軌跡正確時才保留；過短的外勤軌跡會被降採樣；包含有害行為的樣本（比如重複調用完全相同的工具、偽造不存在的來源鏈接、把網頁訪問請求錯誤地通過代碼解釋器執行）會被清除。

主智能體的上下文窗口被設置為128K個token，子智能體為64K。當任何一方的上下文快要撐滿時，模型會被提示立刻給出最終答案——這些在上下文邊緣強制收尾的軌跡也被保留在訓練集裡，目的是讓模型學會在同樣的壓力情境下依然能夠輸出高質量的回答。

訓練時採用標準的監督學習目標：讓模型預測自己在每一步應該輸出什麼（思考內容和工具調用），環境返回的部分（搜索結果、網頁內容、子智能體報告）則被隱藏，不參與損失計算。這樣模型學的是"在看到當前上下文時該怎麼做"，而不是去記憶環境返回的具體內容。

五、實驗結果：一個"小"模型打贏了一批"大"模型

贊助商廣告

SearchSwarm-30B-A3B 的參數量，以現在的標準來看屬於輕量級——約30億活躍參數。然而它在評測中的表現，讓許多體積大得多的模型相當尷尬。

在 BrowseComp 上，它以68.1分超過了 GPT-5.2-Thinking（65.8分）和 Gemini-3.0-Pro（59.2分），與 DeepSeek 清華北大螞蟻集團聯手打造AI偵探團隊當一個AI學會了分配工作它的能力翻了幾倍 V3.2（671億活躍參數，67.6分）幾乎持平。與同規模的基礎模型 Tongyi DeepResearch 相比，SearchSwarm 在這項測試上整整高出24.7分——從43.4跳到68.1。在中文版 BrowseComp-ZH 上，SearchSwarm 以73.3分同樣領跑所有同規模模型。在 GAIA 上，82.5分不僅超過了 GPT-5（76.4分）和 Seed-2.0-Pro（78.6分），只有 Step-3.5-Flash（84.5分，196億活躍參數）在這項測試上略勝一籌。在 xbench-DeepSearch 上，80.8分同樣位列同規模最優。

研究團隊還專門測試了一個對照組：把這套框架直接套在未經訓練的基礎模型上（稱為"Tongyi DR Swarm"），結果發現這個模型一次都沒有觸發 `call_sub_agent` 工具，行為完全等同於沒有框架的原始版本。這個結果直接證明了一件事：委託行為不會從框架中自然湧現，訓練數據是真正讓它落地的關鍵。

六、意外的收穫：委託訓練帶來的能力泛化

研究中有兩個額外發現，讓這套方法的價值變得更加廣泛。

第一個發現是，在委託場景下學到的能力，在沒有委託工具的情況下同樣有效。研究團隊在完全隱藏 `call_sub_agent` 工具的單智能體配置下，分別測試了 SearchSwarm 和基礎模型 Tongyi DeepResearch 的表現。前者在 BrowseComp 子集上得52.0分，後者得43.5分；在 BrowseComp-ZH 上，前者53.3分，後者46.5分。注意，訓練數據里根本沒有任何不使用委託工具的軌跡——SearchSwarm 之所以在單智能體配置下更好，完全是因為委託訓練讓它學會了更系統地分解問題、更有條理地推進子問題的解答、更穩定地維持對整體進展的把握。這些能力是通用的，而不僅僅服務於委託這個特定機制。

第二個發現是，在短答案深度研究任務上訓練出來的模型，在需要撰寫長篇綜合報告的開放式任務上同樣表現出色。研究團隊在 ScholarQA-v2、HealthBench、ResearchQA 和 DeepResearchBench 四個開放式基準上進行了測試，SearchSwarm 的平均得分為64.2，而基礎模型 Tongyi DeepResearch 只有50.0，提升了14.2分。在 ScholarQA-v2 上的提升尤為顯著，從46.5漲到79.2，提升了整整32.7分。研究團隊推測，這種泛化來自兩個方面：一方面，委託訓練教會了模型把複雜問題分解成聚焦的子任務並行探索，這種結構化的調查方式在開放式研究中同樣有用；另一方面，框架要求主智能體在每次給出最終答案時都要附上完整的解釋和內聯引用，子智能體的每份報告也要求每個結論都有出處，這種對"有根據地表達"的持續訓練，讓模型在需要撰寫長篇有據可查的回答時自然更得心應手。

贊助商廣告

七、行為分析：主偵探真的在"指揮"而不是"執行"

為了確認模型的行為與設計意圖一致，研究團隊分析了不同工具在實際運行中的使用比例。

在主偵探端，`call_sub_agent` 是使用最頻繁的工具：在 BrowseComp 和 BrowseComp-ZH 上，它占據了主偵探所有工具調用的73.8%和72.5%；在 GAIA 和 xbench 上，比例略低，約為43%至51%，但仍然是最主要的操作。這說明模型確實學會了把體力活外包出去。

主偵探在直接使用工具時，"訪問網頁"（visit）的比例明顯高於"搜索"（search）——在 GAIA 上，visit 占26.4%而 search 只占11.1%。這個模式很有意思：主偵探更傾向於跟隨外勤報告裡提到的來源鏈接去核實，而不是自己重新發起搜索。這正是"主偵探保留核心判斷權"原則的直接體現。

外勤偵探端則呈現完全相反的模式：search 在各個測試集上的比例在46.5%到76.6%之間，占據絕對主導地位，體現了它作為"資訊搜集執行者"的角色。

此外，GAIA 和 xbench 因為包含更多數學計算類問題，主偵探對代碼執行工具（python）的調用比例（11.6%和14.8%）明顯高於外勤偵探（4.0%和1.7%），說明模型學會了把計算任務留給自己，把資訊檢索工作交出去。

研究團隊還把答題正確和答題錯誤的情況分開來分析。在答題正確的情況下，外勤偵探調用次數集中在一個適中的範圍（BrowseComp 和 BrowseComp-ZH 上峰值約3到5次，GAIA 和 xbench 上約2到3次）；在答題錯誤的情況下，調用次數分布更分散，延伸到更高的範圍，反映了困難問題本身就需要更多輪次的探索，而即便如此仍有一部分問題未能解答。

八、附錄：一道真實題目是如何被偵破的

論文最後以一道真實題目作為案例展示，值得詳細介紹，因為它把整套系統的工作方式展現得淋漓盡致。

題目大意是：在澳大利亞東部某個州，州長共同承諾了聯邦與州政府平攤的資金用於某個重大道路項目，該項目的第一個北部路段在2025年末通車。這個尚未完工的高速公路的主要施工聯合體，此前完成了2018年末破土動工的某個全國鐵路升級工程的首段建設。該項目最初以不同的走廊名稱規劃，總投資略超15億澳元。請問這是哪個高速公路項目？

贊助商廣告

主偵探讀題後，先把七個約束條件分類整理，形成初步假設（全國鐵路升級工程很可能是"內陸鐵路"項目），然後直接分派三個並行的外勤偵探，分別負責：調查2025年末北部路段通車的高速公路項目、調查2018年末破土動工的全國鐵路升級工程首段、調查項目的歷史走廊名稱。三個外勤偵探各自完成調查後都指向同一個答案：昆士蘭州的 Coomera Connector（M9）高速公路。

主偵探讀完三份報告，發現第五個約束有一個微妙問題：高速公路的施工聯合體（FHHMJV）和鐵路項目的施工聯合體（INLink JV）並不是同一個實體，只是都有富頓霍根（Fulton Hogan）公司參與其中。此外，"州長共同承諾資金"這個約束也還沒有具體核實。主偵探隨即又派出兩個新的外勤偵探，專門去核實這兩個關鍵點。

核實報告回來，確認富頓霍根確實在兩個聯合體中都擔任主導角色，昆士蘭州長 Annastacia Palaszczuk 在2020年9月20日的確以聯邦與州50:50的比例共同承諾了15.3億澳元的投資。至此，七個約束條件全部得到文獻支撐，主偵探在最終解釋中逐一列出每個約束是如何被滿足的，並明確說明了為什麼其他候選項（雪梨M12高速公路、科夫斯港繞城路等）被排除，附上了16條來源引用。

這道題的解題過程完美呈現了"鼓勵外包"（第一步就分派而不是自己搜索）、"全面任務說明"（第二輪核實時把工作假設和具體疑點都寫進了任務說明）、"主偵探保留核心判斷"（主偵探自己發現了報告中的漏洞而不是盲目接受）、"帶來源的報告"（每條結論都有鏈接可查）四條原則的完整運作。

說到底，這項研究講了一個很樸素的道理：聰明不是一個人把所有事情都包下來，而是知道哪些事情值得親力親為、哪些事情可以放手交給別人，同時確保交代清楚、結果可查、判斷歸己。這套邏輯在人類組織中早已行之有效，SearchSwarm 的貢獻在於探索出了一條讓AI系統真正習得這種邏輯的路徑——不只是靠指令，而是通過訓練數據把它刻入模型的"本能"。對於那些習慣於把AI當作單打獨鬥的全能助手來看待的人，這項研究提供了另一種視角：或許，合理分工的AI系統，才是應對真正複雜任務的正確形態。

贊助商廣告

對這個方向感到好奇的讀者，可以通過 arXiv:2606.09730 查閱完整論文，或訪問項目頁面 search-swarm.github.io 獲取模型權重和訓練數據。

Q&A

Q1：SearchSwarm 的"委託智能"和普通 AI 助手有什麼區別？

A：普通AI助手在做複雜任務時會把所有搜索結果都堆進自己的記憶空間，很快就撐滿了，只能靠機械地刪除舊內容來騰地方。SearchSwarm 的委託智能則讓主AI主動把"體力活"外包給子AI完成，子AI只把整理好的結論報告給主AI，主AI的"腦容量"始終留給思考和判斷。關鍵區別在於這是主動規劃而非被動應對，而且報告質量由框架約束，而非隨機壓縮。

Q2：SearchSwarm 訓練數據是怎麼來的？

A：研究團隊讓模型在他們設計的約束框架引導下，去完成大量真實的深度研究任務，把整個執行過程——包括思考、工具調用和環境返回——全部記錄下來。只保留最終答案正確的軌跡，同時過濾掉重複工具調用、偽造引用、工具誤用等問題樣本。兩種配置（同一模型自演主次角色、強主弱次搭配）的數據混合使用，保證訓練集既覆蓋正常委託行為，也覆蓋主動核實和防錯的場景。

Q3：SearchSwarm 只能做深度搜索任務嗎？

A：不是。雖然訓練數據全部來自短答案搜索類任務，但模型學到的能力——系統分解問題、有條理地推進子問題、保持整體進展的把握、給出有來源支撐的回答——在開放式長文研究任務上同樣有效。實驗中，SearchSwarm 在 ScholarQA-v2 上相比基礎模型提升了32.7分，在 ResearchQA 上提升了13.5分，說明這套委託訓練帶來的是更通用的研究能力。