宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

螞蟻集團打造的「超強小腦」:一個只有4B參數的AI研究助手,如何以一敵十挑戰百億級大模型?

2026年05月01日 首頁 » 熱門科技

這項由螞蟻集團Venus團隊主導的研究以預印本形式發布於2026年4月,論文編號為arXiv:2604.19859,有興趣深入了解的讀者可以通過該編號查詢完整原文。

**研究背景:為什麼我們需要一個"迷你"但聰明的研究助手?**

當你需要查詢一個複雜問題的答案時,比如"某種罕見疾病的最新治療方案是什麼"或"某個歷史事件背後的多方證據如何相互印證",你可能會在搜尋引擎上反覆查找、點開一個個網頁、比對不同來源的資訊,花上數小時才能整理出一個相對可靠的結論。這種繁瑣的"深度研究"工作,正是螞蟻集團這支研究團隊想要交給AI來完成的事情。

他們開發的系統叫做**DR-Venus**,其中DR代表"Deep Research",也就是深度研究。這個AI助手的特別之處在於,它不只是回答你一個問題,而是像一個勤奮的研究員一樣,自主地在網上搜索資訊、打開網頁、閱讀內容、提煉證據,然後綜合多方資料給出一個完整的答案。更關鍵的是,它完成這些工作所使用的"大腦"只有40億個參數——在AI領域,這個規模屬於相當小巧的範疇,大約相當於一個能部署在手機或邊緣設備上的輕量級模型,而不是那種需要大型數據中心才能運行的龐然大物。

為什麼這件事值得關注?因為目前市面上能做類似"深度研究"任務的AI系統,要麼體量龐大(動輒300億參數以上),要麼依賴閉源數據和複雜的訓練流程,普通人和中小企業很難復現或部署。而DR-Venus的研究團隊提出了一個核心問題:在數據量有限、模型體積受限的情況下,能不能把一個小模型訓練得足夠強大,強到能與那些"大塊頭"一較高下?

答案是肯定的。這篇論文的核心發現是:通過精心設計訓練數據的質量和利用效率,一個僅有40億參數的模型,不僅能全面超越大多數90億參數以下的同類競品,還能在多個關鍵測試上逼近甚至超越那些參數量是它七八倍的大型系統。

---

**一、深度研究任務究竟是什麼?為什麼它特別難?**

普通的AI問答,就像在一個巨大的知識庫里翻找答案——你問一句,它查一下,給你一個回答。但"深度研究"完全不同。以偵探破案作為貫穿理解的核心比喻:普通問答像是翻查檔案館的已有記錄,而深度研究則像是偵探親自上街調查,挨家挨戶敲門詢問,再把零散的線索拼湊成完整的案情。

具體來說,DR-Venus在工作時會經歷這樣一個循環:收到用戶的查詢問題後,它首先進行網路搜索,得到一批相關鏈接和摘要;接著它會挑選關鍵鏈接,實際"點進去"閱讀網頁的詳細內容;讀完之後,它判斷是否已經掌握足夠的證據,如果還不夠,就繼續新一輪搜索和瀏覽;直到它確信已經收集到足夠可靠的資訊,才會綜合所有線索給出最終答案。

這個過程可能需要幾十步、甚至兩百多步的來回操作,每一步都涉及判斷、選擇和推理。對於人類偵探來說,這需要經驗和直覺;對於AI來說,這需要模型具備穩定的"長線規劃"能力——不能在第十步就放棄調查,也不能在第五十步忘記第三步得到的關鍵證據。研究團隊將這種多輪交互的任務形式正式定義為"長時域深度研究",並將其作為訓練和評估的核心場景。

在技術層面,團隊把這個問題形式化地描述為:給定一個用戶查詢,模型在每一個回合生成一個"思考過程"和一個"行動"(搜索或瀏覽或給出答案),環境返回觀察結果(搜索結果或網頁內容),這樣一輪一輪地推進,直到模型給出最終答案為止。整個過程形成一條"軌跡",就像偵探的辦案筆記,記錄了每一步的推理和行動。

---

**二、訓練這個"小偵探"的第一步:清洗案件檔案**

要訓練一個好偵探,最直接的方式是給他看大量優質的破案案例,讓他從中學習推理模式和調查技巧。DR-Venus的第一個訓練階段正是這個思路——用監督微調(Supervised Fine-Tuning,簡稱SFT)的方式,讓模型從已有的深度研究軌跡中學習。

原始的"案例檔案"來自一個公開數據集,叫做REDSearcher,共包含10001條深度研究軌跡,每條軌跡都記錄了AI完成一項深度研究任務的全過程——包括每一步的搜索查詢、瀏覽的網頁、中間的推理過程,以及最終的答案。然而,這批檔案的質量參差不齊,就像偵探學校圖書館裡有些案例記錄清晰規範,有些則混亂不堪,充斥著無效資訊和錯誤結論。

研究團隊設計了一套四步清洗流程,逐步提升這批檔案的質量。第一步是"格式對齊",把所有檔案統一轉換成與實際部署環境完全一致的格式,包括系統提示詞的寫法、工具調用的參數格式、工具返回內容的結構等。這一步就像把所有案例記錄統一轉換成同一種語言和格式,確保模型學到的習慣和它實際工作時的環境完全吻合,不存在"學校教的"和"實際用的"之間的落差。

第二步是"去除雜質"。研究團隊的實際工作環境只支持兩種工具:搜索和瀏覽。但原始軌跡中有些案例還使用了Python解釋器等其他工具,這些對於當前任務來說是"多餘的技能"。團隊選擇的處理方式不是直接丟掉整個案例,而是精準地把涉及不支持工具的那幾步操作切除,保留案例中其餘有效的部分。這一步共處理了1064條軌跡,刪除了3378個不支持的工具調用。與此同時,他們還發現了大量"重複行動"——同樣的網頁被訪問了好幾次,同樣的搜索被重複執行。這種冗餘主要發生在瀏覽環節,說明模型在網頁閱讀階段容易原地打轉。經過去重處理,共刪除了15728個重複操作。

第三步是"正確性篩查"。即使格式正確、沒有冗餘,如果一個案例的最終結論是錯的,讓模型從中學習只會讓它學會錯誤的推理模式。團隊使用了一個更強的大模型(Qwen3-235B)作為"督導偵探"來評判每個案例的最終答案是否正確,只保留答案正確的案例。經過這一步,共保留了9365條有效軌跡,正確率達到93.65%。

第四步是最具創意的"重採樣"策略,也是整個數據處理流程中最值得關注的設計之一。深度研究的本質是長時域任務,那些只有二三十步就結束的案例,其實訓練價值相對有限;而那些需要一百多步、經歷大量搜索與瀏覽、最終綜合多條證據才得出答案的複雜案例,才是最接近真實深度研究挑戰的訓練素材。

基於這個判斷,團隊給不同長度的案例分配了不同的"出現頻率":軌跡步數在50步以下的案例,以正常頻率出現;51到100步的案例,出現頻率翻倍;100步以上的複雜案例,出現頻率提升到五倍。這個策略把訓練數據集從9365條擴展到18745條,同時大幅提升了長軌跡的比例——100步以上的複雜案例比例從原來的13.29%提升到了33.21%。

用偵探比喻來說:與其讓新偵探反覆練習簡單的小案子,不如多給他分配那些需要長期追蹤、多方取證的複雜懸案,這樣他才能真正鍛煉出長線作戰的能力。

---

**三、訓練這個"小偵探"的第二步:用獎懲機制打磨實戰技巧**

僅僅靠"模仿優質案例"還不夠,即使是讀了大量案例的偵探,在實戰中仍然可能犯錯——格式不規範、在關鍵時刻放棄瀏覽轉而依賴不可靠的搜索摘要、或者在明明需要繼續深挖時過早下結論。DR-Venus的第二個訓練階段,正是要通過強化學習(Reinforcement Learning,簡稱RL)來糾正這些實戰中的問題。

強化學習的基本邏輯類似於訓練一隻小狗:做對了給獎勵,做錯了給懲罰,通過大量的試錯循環,讓模型逐漸學會什麼樣的行為最有效。但對於深度研究這種長時域任務,傳統的強化學習面臨一個嚴重問題:在一個長達兩百步的任務軌跡中,只有最後給出正確答案才能獲得獎勵,而前面199步的每一個操作都沒有任何反饋。這就好像訓練偵探時,只告訴他"你這個案子破了/沒破",卻從不告訴他哪些偵查步驟做得好、哪些步驟走了彎路——學習效率極其低下。

更糟糕的是,對於一個能力相對有限的小模型來說,它自己生成的很多"實戰案例"根本就沒有最終破案(得到正確答案),整批練習材料里可能找不到一個成功的範例,導致獎勵信號完全消失,訓練陷入停滯。研究團隊把這個現象稱為"優勢崩塌"。

為了解決這個問題,團隊採用了一種叫做IGPO(Information Gain-based Policy Optimization,基於資訊增益的策略優化)的方法。IGPO的核心思想可以用偵探比喻來理解:每當偵探完成一個偵查步驟,不等到最終破案,就立刻評估這一步是否讓他"更接近真相"。如果這一步提供的線索讓他對正確答案更有把握,就給予即時獎勵;如果這一步的線索毫無用處甚至帶偏了方向,就給予即時懲罰。

在技術層面,"更接近真相"的程度被定量化為"資訊增益"(Information Gain):在某一步行動之前,模型能夠正確生成最終答案的概率是多少;在這一步行動之後,這個概率提升了多少。概率提升得越多,說明這一步越有價值,給予的獎勵越高。這樣一來,即使整條軌跡最終沒有得到正確答案,每一個有效的中間步驟也都能獲得反饋,訓練信號從"每條軌跡一個信號"變成了"每個步驟一個信號",密度大幅提升。

在這個框架上,研究團隊還額外設計了兩個針對深度研究任務特點的改進。第一個是"瀏覽感知的資訊增益分配":在搜索任務中,搜索步驟通常只返回簡短摘要,提供的資訊有限;而瀏覽步驟則深入讀取完整網頁,獲得更具體可靠的證據。因此,團隊將資訊增益獎勵主要分配給瀏覽步驟,同時把瀏覽步驟之前的那些搜索步驟也納入獎勵範圍,因為正是這些搜索步驟引導模型找到了值得深入閱讀的頁面。

第二個改進是"逐步驟格式懲罰":如果模型在某一步的輸出格式不規範(比如工具調用寫法錯誤、標籤不完整),就對這一步施加懲罰,而不是因為一步格式錯誤就懲罰整條軌跡。對於動輒兩百步的長任務,這種精準的逐步懲罰比粗糙的全軌跡懲罰要合理得多,避免了"城門失火、殃及池魚"式的錯誤信號。

此外,團隊還引入了一個叫做"IG-Scale"的自適應調節機制,用來平衡"逐步獎勵"和"最終答案獎勵"之間的比重。當模型能夠較穩定地得到正確答案時,"最終答案獎勵"信號足夠強,不需要過多依賴逐步獎勵;但當任務難度很高,模型很少能成功破案時,"最終答案獎勵"幾乎消失,此時應該讓逐步獎勵發揮更大的引導作用。這個機制會自動檢測兩類獎勵信號的相對強度,動態調整逐步獎勵的縮放比例,使訓練過程更加穩定。

最後,為了讓每一步的獎勵不僅反映"當前這一步的價值",還能反映"這一步對未來的影響",團隊引入了折扣累積獎勵的概念:每一步的實際獎勵值,等於這一步本身的獎勵加上未來所有步驟獎勵的折扣累加,距離越遠的未來步驟權重越低。這就像偵探在評估一條線索時,不只看它當下的直接價值,也考慮它可能開啟的後續調查路徑的價值,只是越遠的未來越難預測,所以權重打個折扣。

---

**四、實戰檢驗:小模型究竟有多能打?**

研究團隊在六個不同的深度研究基準測試上對DR-Venus進行了全面評估,這些測試覆蓋了英文和中文的深度網路搜索任務、通用AI助手任務,以及多步資訊整合任務。

以最受關注的兩個測試為例——BrowseComp(英文深度瀏覽測試)和BrowseComp-ZH(中文版),測試的是模型在面對複雜、難以直接搜索到答案的問題時,能否通過多輪深度瀏覽找到正確答案。這類問題往往需要綜合多個不同網頁的資訊,不是簡單搜一搜就能解決的。

在BrowseComp上,DR-Venus-4B-SFT(僅經過第一階段監督微調的版本)得分26.8,DR-Venus-4B-RL(完整訓練版本)得分29.1。作為對比,同量級(90億參數以下)的其他競品模型得分大多在5到24之間,最強的競品AgentCPM-Explore-4B得分24.1。在中文版BrowseComp-ZH上,DR-Venus-4B-RL得分37.7,同樣全面領先所有90億參數以下的對手。

更令人印象深刻的是與大型模型的比較。OpenResearcher-30B-A3B是一個參數量是DR-Venus七倍多的大模型,但在BrowseComp上只有26.3分,DR-Venus-4B-RL以29.1分超過了它;在另一個測試xBench-DS-2505上,DR-Venus-4B-RL得分74.7,而擁有300億參數的Tongyi-DR-30B得分是75.0,兩者差距僅有0.3分。

在六個測試中,與僅進行監督微調的版本相比,加入強化學習後的完整版DR-Venus在五個測試上都有明顯提升:BrowseComp提升2.3分,BrowseComp-ZH提升2.0分,xBench-DS-2505提升5.7分,xBench-DS-2510提升5.4分,DeepSearchQA提升1.9分。這說明強化學習階段對於把一個"會模仿"的模型變成一個"真的擅長"的模型,具有不可替代的作用。

消融實驗(也就是逐步去掉某個設計,看看性能會下降多少的對比實驗)的結果進一步驗證了每個設計選擇的價值。去掉重採樣策略後,BrowseComp得分從26.8下降到22.8,BrowseComp-ZH從35.7下降到33.9;用普通的GRPO(傳統軌跡級強化學習)代替IGPO後,BrowseComp得分不升反降,從26.8跌到25.3,而IGPO則帶來了26.8到29.1的提升。這組對比清楚地說明,對於長時域深度研究任務,傳統的"只看最終結果"的稀疏獎勵強化學習不僅沒用,反而可能有害;只有像IGPO這樣提供逐步密集反饋的方法,才能真正有效地改善小模型的長線表現。

---

**五、"天花板"究竟有多高?小模型的隱藏潛力**

研究團隊做了一個很有意思的分析,叫做Pass@K測試。普通評估通常只測試模型回答一次的準確率(Pass@1),但Pass@K測試的是:如果允許模型嘗試K次,至少有一次成功的概率是多少?這個指標揭示的是模型的"能力上限",而不只是"平均發揮水平"。

結果令人驚訝。在BrowseComp上,DR-Venus-4B-SFT的Pass@1隻有26.8,但Pass@16(允許16次嘗試)高達61.7;完整訓練版的DR-Venus-4B-RL的Pass@1是29.1,Pass@16達到63.7。在中文版BrowseComp-ZH上,這個趨勢更加明顯:DR-Venus-4B-SFT的Pass@1是35.7,但Pass@16飆升到78.5,大幅超越了擁有300億參數的Tongyi-DR-30B(Pass@1僅46.7),甚至超越了Gemini-3-Pro(Pass@1為66.8)和GPT-5 High(Pass@1為65.0)這兩個頂級商業大模型。

用偵探比喻來解釋:一個經驗稍淺的偵探如果只被允許提交一次破案報告,勝率可能不如經驗豐富的老偵探;但如果允許他多次嘗試、每次從不同角度切入,他最終找到真相的概率其實並不輸給老偵探。換句話說,這個小模型的"潛在能力"遠比它的"日常表現"要強得多。

這個發現的實際意義在於:通過讓模型多次嘗試並選取最佳答案(這種技術通常被稱為"測試時擴展"),即使是一個部署在手機或邊緣設備上的小模型,也有可能在關鍵任務上達到接近甚至超越大型商業系統的水準。這為小模型的實際應用打開了一扇新的大門。

---

**六、"瀏覽"比"搜索"更重要:工具使用習慣的秘密**

研究團隊還分析了模型在成功完成任務和失敗完成任務時,使用"搜索"和"瀏覽"兩種工具的比例差異,得出了一個具有實踐意義的發現。

在所有六個測試中,有一個幾乎普遍存在的規律:成功破案的軌跡,瀏覽操作(深入閱讀完整網頁)的比例始終高於失敗軌跡。監督微調版的正確軌跡中,瀏覽占所有操作的平均比例為23.71%;而錯誤軌跡中這個比例只有17.49%(整體平均為17.49%)。

這個差異揭示了深度研究任務的本質:光靠搜尋引擎返回的簡短摘要(通常只有幾句話)往往不足以回答覆雜問題,必須真正"深入網頁"去讀取詳細內容,才能獲得充分可靠的證據。那些只停留在搜索摘要層面就試圖下結論的軌跡,更容易出錯。

經過強化學習訓練後,這個趨勢進一步強化。完整版模型的整體瀏覽比例從17.49%上升到22.46%,正確軌跡的瀏覽比例從23.71%上升到28.96%。更重要的是,強化學習修正了一個在監督微調版中存在的"反直覺"現象:在xBench-DS-2510測試中,監督微調版的錯誤軌跡瀏覽比例(15.57%)反而略高於正確軌跡(14.51%),這說明模型此時還沒有真正學會"有效地瀏覽",只是漫無目的地多瀏覽了一些。強化學習之後,這個關係被糾正為正確軌跡(22.99%)明顯高於錯誤軌跡(17.50%),說明模型已經學會把瀏覽這個工具用在刀刃上,而不是隨機使用。

---

**歸根結底,這項研究說明了什麼?**

說到底,DR-Venus這個項目回答了一個很多人都在問的問題:AI領域是不是只有越大的模型才越強,小模型永遠是配角?這項研究給出的答案是:不一定。

關鍵不只在於模型有多大,更在於你如何訓練它。通過精心清洗數據、聰明地重用現有數據、以及設計出能給小模型提供足夠密集學習信號的訓練方法,一個只有40億參數的模型,可以在深度研究這個極具挑戰性的任務上打敗很多"大塊頭",甚至在允許多次嘗試的條件下超越頂級商業大模型。

對於普通用戶來說,這意味著未來可能真的會有能部署在個人設備上的AI研究助手——不需要上傳數據到雲端、不需要擔心隱私泄露、響應速度快、使用成本低,卻依然能夠勝任複雜的多步驟資訊檢索和綜合研究任務。

研究團隊已經將模型權重、訓練代碼和核心方法全部公開,任何有興趣的研究者都可以在這個基礎上繼續探索。一個值得思考的問題是:如果數據質量和訓練方法這麼重要,那麼未來是否存在某種極限,讓小模型無論怎麼訓練都無法突破?Pass@K實驗暗示,目前小模型的表現瓶頸更多在於"一次命中的穩定性"而非"潛在能力",這意味著在測試時如何更聰明地採樣和選擇,可能是下一個重要的研究方向。

對這項研究感興趣的讀者,可以通過arXiv編號2604.19859獲取完整論文,或前往GitHub上的inclusionAI/DR-Venus項目以及HuggingFace上的inclusionAI/dr-venus模型集合,獲取全套代碼和模型權重。

---

Q&A

Q1:DR-Venus和普通AI聊天機器人有什麼區別?

A:普通AI聊天機器人主要依賴訓練時儲存的知識來回答問題,知識有截止日期且無法主動上網查找。DR-Venus則能夠自主進行多輪網路搜索和網頁瀏覽,像一個真正在上網做研究的助手,可以處理需要綜合多個來源資訊才能回答的複雜問題,而且能獲取最新的網路資訊。

Q2:IGPO是什麼,為什麼它比普通強化學習更有效?

A:IGPO是一種專為長時域任務設計的強化學習方法,全稱是"基於資訊增益的策略優化"。普通強化學習只在任務最終完成時給出獎勵信號,對於需要兩百多步的深度研究任務來說,中間絕大多數步驟都沒有任何反饋,學習效率極低。IGPO的改進是在每一步都評估這一步讓模型"更接近正確答案"了多少,從而把稀疏的終點獎勵變成密集的逐步獎勵,大幅提升小模型在長時域任務上的學習效果。

Q3:為什麼深度研究任務中瀏覽比搜索更重要?

A:搜尋引擎返回的通常只是網頁的簡短摘要,幾句話很難包含回答覆雜問題所需的充分細節。瀏覽則是真正打開網頁閱讀完整內容,能獲得更具體、更可靠的證據。DR-Venus的分析發現,成功完成深度研究任務的軌跡中,瀏覽操作的比例始終高於失敗軌跡,說明深度閱讀而非淺層檢索才是解決複雜資訊查詢問題的關鍵。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新