這項由阿里巴巴國際數字商務集團研發的Marco DeepResearch技術報告於2026年3月31日發布,論文編號為arXiv:2603.28376v1,研究團隊由多位研究員共同完成,通訊作者是王龍躍。有興趣深入了解的讀者可以通過該論文編號查詢完整論文內容。
當我們想要深入了解一個複雜問題時,通常需要在網上搜索大量資訊,閱讀多個網頁,對比不同來源的內容,最終得出結論。這個過程既耗時又需要很強的分析能力。現在,人工智慧已經可以承擔這樣的工作,就像一個永遠不知疲倦的研究助理,能夠自動瀏覽網頁、搜集資訊、分析數據,並提供深入的研究報告。
然而,現有的AI研究智能體存在一個關鍵問題:它們缺乏"核查驗證"的能力。就好比一個研究員在收集資料時,從不核實資訊的準確性,也不質疑自己的推理過程,結果往往會得出錯誤的結論。阿里巴巴的研究團隊發現,這種缺乏驗證機制的問題貫穿了AI研究智能體的三個關鍵環節:數據準備、學習過程和實際工作時的推理過程。
為了解決這個問題,研究團隊開發了Marco DeepResearch,這是一個8B規模的深度研究智能體。與傳統的AI助手相比,Marco DeepResearch最大的特點是在每個關鍵步驟都加入了"自我驗證"機制,就像一個謹慎的研究員會反覆檢查自己的工作一樣。
這項研究的創新之處在於,它是首次系統性地將驗證機制貫穿到AI研究智能體開發的全過程。在多個權威測試基準上,Marco DeepResearch不僅超越了同等規模的其他AI研究助手,甚至在某些任務上達到了比自己大3-4倍的大型AI系統的性能水平。這種成就就像是讓一個8歲的孩子在某些研究任務上達到了成年專家的水平。
**一、問題的根源:缺乏驗證的AI研究助手為何容易出錯**
當我們使用現有的AI研究智能體時,經常會發現一個令人困擾的現象:它們有時會提供看似合理但實際錯誤的答案。這種現象背後的原因可以用"三重盲點"來解釋。
第一個盲點出現在數據準備階段。目前大多數AI系統的訓練數據都是通過自動化方法生成的問答對。研究團隊發現,為了增加問題的難度,許多系統會故意模糊化問題中的關鍵資訊,比如將"蘋果公司的創始人是誰"改寫為"那家以水果命名的科技公司的創立者是誰"。這種做法雖然增加了問題的複雜性,但往往會產生多個可能的正確答案,就像問"紅色的水果有哪些"時,答案可能是蘋果、櫻桃或草莓等多種選擇。當訓練數據本身就存在歧義時,AI系統自然無法學會給出準確的答案。
第二個盲點存在於學習過程中。現有的AI研究智能體在學習如何解決問題時,通常採用"直達目標"的方式,即從問題直接跳到答案,缺少中間的驗證步驟。這就像一個學生做數學題時,只記住了最終答案,卻不知道如何檢驗答案是否正確。當AI遇到複雜問題時,它往往會接受第一個看起來合理的答案,而不會進一步驗證這個答案是否真正符合問題的要求。
第三個盲點出現在實際工作階段。當我們給AI智能體布置一個研究任務時,它通常會設定一個最大搜索次數的限制,比如最多瀏覽100個網頁。然而,現有系統缺乏有效的"時間管理"機制。它們可能會在錯誤的方向上浪費大量時間和資源,就像一個研究員在圖書館裡漫無目的地翻閱無關書籍,直到時間耗盡還沒找到真正需要的資訊。
這些問題的累積效應就是錯誤傳播。一個小錯誤會引發連鎖反應,導致後續的每個步驟都建立在錯誤的基礎上,最終得出完全偏離實際的結論。研究團隊意識到,要解決這個問題,需要從根本上改變AI研究智能體的設計理念,讓它們學會像經驗豐富的研究員一樣,在每個關鍵步驟都進行自我驗證和質疑。
**二、核心創新:構建會自我驗證的智能研究助手**
Marco DeepResearch的核心理念是將"驗證優先"的思維模式貫穿到AI研究智能體的整個生命周期中。這種設計就像培養一個嚴謹的研究員,不僅要教會他如何收集資訊,更要教會他如何質疑和驗證資訊的可靠性。
**構建可靠的訓練數據:從源頭保證質量**
解決數據質量問題的第一步是改革問答對的生成方式。研究團隊開發了兩套互補的數據合成方法,就像使用兩種不同的方法來驗證同一個實驗結果。
第一種方法基於知識圖譜進行"逆向工程"式的問題構建。傳統方法是先有問題再找答案,而新方法是先確定一個明確的答案,然後反向構建能唯一指向這個答案的問題。這個過程類似於偵探破案:先知道兇手是誰,然後設計一系列線索,確保只有這個兇手符合所有證據。
具體來說,系統首先會在知識庫中選擇一個目標實體作為答案,比如"埃菲爾鐵塔"。然後,它會分析這個實體的各種屬性:空間位置(法國巴黎)、時間資訊(1889年建成)、數值特徵(高324米)、類別特徵(鐵製建築)以及關係資訊(為世界博覽會而建)。接下來,系統會通過知識圖譜搜索,找到能夠通過多步推理到達這個答案的路徑。
關鍵的創新在於"對抗式唯一性驗證"過程。這個過程包含三個角色:生成器、攻擊者和分析器。生成器首先創建2到3個約束條件來描述目標答案。攻擊者則試圖找到滿足這些條件但不是目標答案的其他實體。如果攻擊者成功找到了"反例",分析器就會添加新的約束條件來排除這些反例。這個過程會持續進行,直到找不到任何反例為止,從而確保問題的答案是唯一的。
第二種方法採用智能體探索真實網路環境的方式生成數據。與基於知識圖譜的方法不同,這種方法讓AI智能體在真實的網際網路環境中自主探索,收集資訊並構建問題。這種方法的優勢在於能夠獲得更貼近現實、覆蓋面更廣的問題類型。
在這個過程中,系統採用"證據優先"的問題構建策略。智能體首先在網上探索並收集可靠的證據,然後基於這些已驗證的證據構建問題,而不是憑空想像問題。這就像記者寫新聞報道時,先收集確鑿的事實資料,再圍繞這些事實組織文章結構。
為了確保生成問題的質量,系統還設計了多層質量驗證流程。驗證智能體會檢查事實一致性和證據支撐度,而閉卷過濾器則會排除那些不需要搜索就能回答的簡單問題。剩餘的候選問題會交給獨立的搜索智能體進行解答,最終驗證確認推理深度符合目標難度,並且不存在其他有效答案。
當某個樣本在任何階段驗證失敗時,系統不會簡單地丟棄它,而是採用"診斷-修正"循環。驗證智能體會提供結構化的診斷反饋,指出問題所在,比如約束不足、存在捷徑路徑、深度不夠或證據衝突等。問題生成智能體根據這些反饋對證據選擇、約束設計和問題結構進行針對性調整。這個診斷-修正循環會持續進行,直到樣本同時滿足真實性、唯一性和難度要求。
**學習過程的驗證驅動改進**
在訓練數據準備就緒後,下一個挑戰是如何讓AI智能體學會在解決問題的過程中進行自我驗證。傳統的訓練方法類似於讓學生背誦標準答案,而Marco DeepResearch的方法更像是教學生掌握解題思路和驗證技巧。
研究團隊設計了一個多智能體驗證框架來生成高質量的訓練軌跡。這個框架包含三個角色:主智能體負責分解複雜問題並整合子任務結果,搜索子智能體負責解決每個具體的子任務,驗證子智能體則對子任務輸出和最終答案進行獨立的第三方驗證。
這種設計的巧妙之處在於,驗證智能體使用網路搜索工具獨立驗證答案的正確性,而不是簡單地檢查邏輯一致性。當驗證失敗時,相應的步驟會被修正和重新執行,因此訓練軌跡會明確記錄驗證驅動的糾錯行為模式。最終,多智能體軌跡會被轉換為單智能體ReAct風格的軌跡用於訓練。
除了成功的軌跡,系統還會收集那些最初得出錯誤答案的軌跡。對於這些失敗案例,驗證智能體會診斷失敗原因並提供可操作的反饋。基於這些反饋,系統會重新執行失敗的軌跡,並保留那些成功恢復到正確答案的樣本。這種"從錯誤中學習"的機制讓AI智能體不僅知道如何做對,還知道如何從錯誤中恢復。
**推理時的智能驗證與計算資源優化**
Marco DeepResearch在實際工作時採用了"驗證引導的測試時擴展"策略。這種方法就像給研究員設定一個時間和資源預算,讓他在有限的條件下儘可能做出最好的研究成果。
系統的核心機制是"全部丟棄"策略。當預定義的退化信號被觸發時(比如達到最大步數或無法解決問題),系統會移除所有累積的工具調用歷史和中間推理輸出,只保留原始查詢和系統提示,然後從全新的上下文重新開始。這種重置機制讓智能體能夠探索新的搜索路徑,減少單一軌跡中的錯誤傳播。
驗證引導機制是另一個關鍵創新。每當智能體產生一個候選答案時,系統都會進行基於規則的檢查和以智能體為判斷者的驗證。如果當前時間小於最大限制,智能體可以繼續探索並提出新的候選答案,每個候選答案都會獨立驗證。當達到時間限制或過程收斂時,系統會對所有候選答案進行聯合驗證,生成最終答案。
這兩個組件是互補的:全部丟棄策略通過重置退化上下文提高軌跡質量,而驗證引導的測試時擴展則提高答案質量。它們共同實現更有效的測試時擴展,無需改變模型參數,就能在困難問題上獲得更強的推理時增益。
**三、訓練方法:讓AI學會嚴謹的研究態度**
Marco DeepResearch的訓練過程採用了兩階段方法,類似於培養一個研究員的成長路徑:先進行基礎技能培訓,再通過實踐反饋進行能力提升。
**監督微調:打好基礎技能**
第一階段是監督微調,就像給新手研究員提供標準教材和示範案例。訓練使用token級別的交叉熵損失,並應用損失掩碼,確保只有助手回復token對優化有貢獻。這意味著系統只學習如何生成恰當的回應,而不會學習重複用戶指令或工具響應內容。
損失掩碼的設計很關鍵。對於每個token,如果它屬於助手回復部分,掩碼值為1,貢獻損失計算。如果它屬於指令或工具響應部分,掩碼值為0,不參與優化。這種設計確保AI智能體專注於學習如何生成高質量的推理和回應,而不是簡單地模仿輸入內容。
在訓練數據構成方面,系統結合了開源數據和合成數據。開源數據包括2WikiMultihopQA、BeerQA、ASearcher、DeepDive、QA-Expert-Multi-Hop-QA和REDSearcher等多個高質量數據集。合成數據則包括來自內部應用的真實商業開發數據集,以及通過驗證數據合成方法生成的超過12000個圖譜式和智能體式問答樣本。此外,研究團隊還保留了超過2000個高質量問答樣本用於強化學習訓練。
軌跡數據通過前沿基礎模型合成,包括Qwen3.5-Plus、GLM-5和Kimi-K2等,隨後進行數據清洗,比如工具調用錯誤修正等預處理步驟。
**強化學習:通過實踐反饋提升能力**
第二階段採用強化學習進行進一步優化,類似於讓研究員在實際工作中接受導師的反饋和指導。系統使用組相對策略優化(GRPO)方法,通過組內相對優勢驅動更新。
具體來說,對於每個查詢,系統從舊策略中採樣一組rollout結果,然後優化一個目標函數。這個函數結合了策略比重要性採樣比、相對優勢估計、裁剪機制和KL散度正則化項,確保學習過程穩定且有效。
相對優勢通過組內獎勵標準化計算得出,即用每個樣本的獎勵減去組內獎勵均值,再除以組內獎勵標準差。這種設計讓系統關注相對性能而非絕對分數,有助於減少評估偏差。
獎勵機制採用基於結果的二元獎勵,平衡獎勵質量和計算成本。系統使用兩階段LLM評判管道:快速主要評判器(Qwen-Turbo-Latest)評估所有樣本,不確定或低置信度案例會提升到次級評判器(GPT-4.1)進行重新評估。如果評判結果為正確,獎勵為1,否則為0。
**四、技術實現:構建高效可靠的智能體架構**
Marco DeepResearch的技術實現體現了系統工程的嚴謹性和實用性考量。研究團隊以Qwen3-8B作為骨幹模型,這個選擇平衡了性能和計算效率的需求。
**模型架構與優化**
為了處理長序列研究任務,系統使用YaRN技術將上下文窗口擴展到128K token。這種擴展能力對深度研究任務至關重要,因為複雜的研究問題往往需要整合來自多個網頁的大量資訊。
監督微調和強化學習都在64個A100 GPU上使用Megatron框架進行。為了提高系統效率和穩定性,研究團隊實施了多項工程優化:基於Redis的緩存系統處理重複查詢和頁面訪問,指數退避重試機制應對臨時故障,異步非阻塞工具調用提高並發性能,異步獎勵計算與模型更新流水線化,以及將WebVisit摘要模型作為獨立訓練集群服務的同步部署。
**評估設置與基準測試**
研究團隊在六個深度搜索基準上評估Marco DeepResearch的性能。BrowseComp測量智能體通過網路導航的資訊尋找能力,BrowseComp-ZH是評估中文環境下智能體資訊搜索的對應基準。GAIA(僅文本版)包含通用AI助手的真實多步問題。xBench-DeepSearch涵蓋跨多個領域的深度搜索任務。WebWalkerQA專注於多步網路導航和資訊提取。DeepSearchQA評估通過多源檢索、實體解析和停止標準推理的詳盡答案集生成能力。
基線系統分為三組進行比較。基礎模型工具組包括GLM-4.7、Minimax-M2.1、DeepSeek-V3.2、Kimi-K2.5、Claude-Sonnet/Opus、OpenAI-o3、GPT-5 High和Gemini-3-Pro。30B規模以上訓練智能體組包括Tongyi DeepResearch、WebSailor-v2、MiroThinker多個版本、DeepMiner、OpenSeeker-30B-SFT和SMTL。8B規模及以下訓練智能體組包括MiroThinker-v1.0-8B、WebExplorer-8B-RL、AgentCPM-Explore-4B和RE-TRAC-4B。
**實現細節與系統配置**
評估遵循先前工作的設置,在最多600個工具調用的預算下評估Marco DeepResearch智能體。解碼使用溫度0.7、top-p 0.95和最大生成長度16384個token的參數配置。
訓練數據來源包括開源數據和合成數據兩個主要類別。開源數據涵蓋2WikiMultihopQA、BeerQA、ASearcher、DeepDive、QA-Expert-Multi-Hop-QA和REDSearcher等經典數據集。合成數據包括來自內部應用的真實電商業務開發數據集,以及通過驗證數據合成方法生成的超過12000個圖譜式和智能體式問答樣本。
研究團隊還收集了超過2000個高質量問答樣本專門用於強化學習訓練。軌跡數據通過包括Qwen3.5-Plus、GLM-5和Kimi-K2在內的前沿基礎模型合成,並進行了數據清洗處理,包括工具調用錯誤修正等預處理步驟。
**五、實驗結果:小模型的大能量**
Marco DeepResearch的實驗結果展現了驗證中心設計的顯著效果,證明了通過系統性驗證機制可以讓相對較小的模型達到令人矚目的性能水平。
**主要性能表現**
實驗結果顯示,Marco DeepResearch-8B在大多數基準測試中超越了其他8B規模的開源深度搜索訓練智能體。在探索密集型任務中,它取得了同規模類別中的最佳成績,包括BrowseComp(31.4分)、BrowseComp-ZH(47.1分)、WebWalkerQA(69.6分),以及xBench-DeepSearch(在2505分割上82.0分,在2510分割上42.0分)。
在其他三個基準測試中,Marco DeepResearch智能體仍保持高度競爭力。在GAIA文本版任務中,它僅以0.5分的微弱差距位居第二,僅次於RE-TRAC-4B。值得注意的是,Marco DeepResearch-8B在多個基準上接近甚至超越了一些競爭性的30B規模深度搜索智能體,比如Tongyi DeepResearch。
這些結果驗證了提出的問答數據合成、軌跡構建方法和測試時擴展策略的有效性,證明優化後的8B模型可以有效縮小與大型基礎模型在複雜網路導航和資訊尋找任務中的性能差距。
**詳細分析與驗證效果**
為了深入理解Marco DeepResearch的優勢來源,研究團隊進行了全面的分析實驗。數據統計分析表明,與現有多跳和深度搜索開源數據集相比,合成樣本具有更長的token序列和更多的工具調用輪次。這種轉變對深度搜索訓練很重要:更長的軌跡提供跨步推理的密集監督,更深的工具交互讓模型接觸更真實的長期決策模式。
通過對比分析,研究團隊發現在相同的ReAct風格軌跡構建方法下使用相同前沿智能體時,生成數據顯示出比開源數據更低的可回答率(29.0%對51.7%),表明分布更困難。人工評估100個樣本發現,少於10%存在明顯的問題-答案不匹配,其餘問答樣本都有效但具有挑戰性。
問答數據驗證的效果通過對照實驗得到證實。在相同數據規模下,集成對抗唯一性驗證步驟相比沒有驗證的基線版本,在多數基準上提升了下游性能。通過過濾嘈雜和模糊樣本,驗證為後續軌跡構建和訓練產生了更清潔、更可靠的數據。
驗證驅動軌跡構建的消融研究顯示,使用明確驗證模式的多智能體軌跡增強單智能體ReAct軌跡後,在所有基準上一致提升性能,平均改進2.03分。這些結果驗證了帶有驗證模式的軌跡的貢獻。
強化學習階段在所有五個基準上都顯示出相對於監督微調檢查點的一致收益。改進範圍從0.8到6.7分,平均收益為2.6分,確認強化學習訓練在構建的挑戰性問答數據上提供了監督微調之上的穩健額外優化。
**測試時擴展策略驗證**
驗證引導的測試時擴展策略展現了顯著效果。與強化學習基線相比,性能在GAIA上提升8.7分,在xBench-DeepSearch-2505上提升7.0分,在BrowseComp-200-sample上提升15.0分,在BrowseComp-ZH上提升17.8分,平均收益達到12.1分,表明了測試時擴展策略的潛力。
上下文窗口擴展的實驗證實了長上下文訓練對需要許多工具調用和跨頁面證據聚合的深度搜索任務的重要性。將訓練上下文窗口從64K擴展到128K在兩個基準上都產生一致收益:BrowseComp-200-sample提升2.3分,BrowseComp-ZH提升0.8分,平均改進1.6分。
**六、研究意義與未來展望**
Marco DeepResearch的成功不僅僅是技術上的突破,更重要的是它證明了"驗證優先"設計理念在AI智能體開發中的重要價值。這項研究為AI研究智能體的發展提供了新的思路和方向。
**對AI智能體發展的啟示**
這項研究最重要的貢獻在於系統性地解決了現有深度研究智能體中缺乏明確驗證的瓶頸問題。通過在問答數據合成、軌跡構建和推理三個關鍵階段引入驗證機制,Marco DeepResearch展示了如何防止錯誤傳播並充分利用測試時計算資源。
驗證中心設計的成功說明,AI系統的可靠性不僅依賴於模型規模的增大,更需要在架構設計層面引入系統性的質量控制機制。這種設計理念可能會影響未來AI智能體的開發方向,推動研究者更加重視驗證和質量保證機制的設計。
實驗結果證明,通過精心設計的驗證機制,相對較小的模型可以在特定任務上達到甚至超越大型模型的性能。這種發現對於資源受限的應用場景具有重要意義,也為AI技術的民主化和普及提供了新的可能性。
**技術創新的深遠影響**
Marco DeepResearch在多個技術層面的創新為後續研究奠定了基礎。對抗式唯一性驗證方法為自動化高質量數據生成提供了新思路,這種方法可能被應用到其他需要高質量訓練數據的AI任務中。
驗證驅動的軌跡構建方法展示了如何在訓練過程中顯式地教會AI系統進行自我檢查和糾錯。這種能力對於開發可信賴的AI系統至關重要,特別是在需要高可靠性的應用場景中。
測試時的驗證引導擴展策略提供了一種在不改變模型參數的情況下提升性能的方法。這種方法的靈活性使其可以根據具體任務的重要性和可用計算資源進行動態調整。
**實際應用前景**
Marco DeepResearch的成功為深度研究智能體的實際應用開闢了新的可能性。在學術研究領域,這樣的智能體可以協助研究者進行文獻調研、數據收集和初步分析,大幅提高研究效率。
在商業應用方面,驗證機制增強的研究智能體可以用於市場分析、競爭情報收集、技術趨勢分析等需要大量資訊搜集和分析的任務。其可靠性的提升使其更適合應用於對準確性要求較高的商業決策支持場景。
在教育領域,這種智能體可以作為學生的研究助手,幫助他們學習如何進行系統性的資訊搜集和分析,同時通過驗證機制確保資訊的準確性和可靠性。
**挑戰與改進方向**
儘管Marco DeepResearch取得了顯著成果,但仍存在一些挑戰和改進空間。驗證機制雖然提高了結果的可靠性,但也增加了計算成本。如何在保持驗證效果的同時進一步優化計算效率是一個值得研究的問題。
當前的驗證機制主要基於網路搜索和邏輯推理,對於一些需要專門知識或實時資訊的問題,驗證的準確性可能還有提升空間。未來的研究可以探索結合更多驗證源和方法的多模態驗證機制。
另外,如何讓驗證機制適應不同領域和任務的特殊需求也是一個重要的研究方向。不同領域可能需要不同的驗證標準和方法,開發更加靈活和可定製的驗證框架具有重要價值。
說到底,Marco DeepResearch的成功證明了"質量勝過數量"這一樸素道理在AI發展中的重要性。通過系統性地引入驗證機制,一個相對較小的模型可以在複雜任務上展現出令人矚目的能力。這種成就不僅是技術上的進步,更是AI系統設計理念的重要轉變。隨著這種驗證中心設計思想的推廣應用,我們有理由期待更加可靠、高效的AI智能體在各個領域發揮重要作用,真正成為人類研究和工作的得力助手。
Q&A
Q1:Marco DeepResearch和普通AI助手有什麼區別?
A:Marco DeepResearch最大的特點是在每個關鍵步驟都加入了"自我驗證"機制,就像一個謹慎的研究員會反覆檢查自己的工作。普通AI助手往往缺乏這種核查驗證能力,容易在收集資料時不核實資訊準確性,也不質疑自己的推理過程,結果往往會得出錯誤結論。而Marco DeepResearch會像經驗豐富的研究員一樣,在數據準備、學習過程和實際工作的每個環節都進行質疑和驗證。
Q2:為什麼Marco DeepResearch只有8B規模卻能超越30B的大模型?
A:這主要得益於"驗證優先"的設計理念。Marco DeepResearch通過系統性的驗證機制解決了錯誤傳播問題,而不是單純依靠增大模型規模。它在訓練數據生成時確保問答對的唯一性和正確性,在學習過程中教會AI進行自我檢查和糾錯,在實際工作時採用驗證引導的策略優化計算資源使用。這種精心設計的質量控制機制讓相對較小的模型能夠在特定任務上達到甚至超越大型模型的性能。
Q3:Marco DeepResearch的驗證機制具體是如何工作的?
A:Marco DeepResearch的驗證機制貫穿三個層面。在數據準備階段,採用"對抗式唯一性驗證",通過生成器、攻擊者、分析器三個角色的博弈確保問題答案的唯一性。在訓練階段,使用多智能體框架,讓驗證智能體獨立檢查搜索結果和最終答案,失敗時會修正重執行。在實際工作時,每當產生候選答案都會進行規則檢查和智能體驗證,並採用"全部丟棄"策略在遇到問題時重新開始,避免錯誤累積。






