小紅書入局AI智能體開源DeepAgent，在計劃什麼更新？

想像這樣一個超級助手，不僅能幫你訂機票、查資料、寫代碼，還能在遇到新問題時自己學會使用新工具，就像一個真正聰明的人類助手一樣。

贊助商廣告

2025年10月24日，小紅書和中國人民大學的研究團隊開源DeepAgent系統，標誌著小紅書正式下場AI Agent賽道。

傳統的AI助手就像按照固定食譜做菜的廚師，只能嚴格按照既定步驟操作。如果食譜上沒寫，它就不知道該怎麼辦。而DeepAgent就像一個經驗豐富的大廚，能根據實際情況靈活調整，甚至自己去找新的調料和工具。這項研究的突破性進展在於，DeepAgent能夠在一個連續的思考過程中，自主決定需要什麼工具、主動去尋找和使用這些工具，還能管理自己的"記憶"，避免被海量資訊淹沒。

研究團隊在八個不同的測試場景中驗證了DeepAgent的能力，這些場景涵蓋了從使用上萬個不同工具到完成複雜的購物、遊戲等任務。實驗結果顯示，DeepAgent的表現大幅超越了現有的各種AI助手系統，特別是在需要動態發現和使用大量工具的開放場景中，優勢更加明顯。這項研究為打造更加通用、更加智能的AI助手邁出了重要一步，讓我們距離擁有真正像人類一樣工作的AI助手又近了一大步。

AI助手的困境：為什麼現有方案像在走迷宮

要理解DeepAgent的創新，我們得先看看現在的AI助手有什麼問題。假設你在一個巨大的圖書館裡找書，現在的AI助手就像一個只會按照預定路線走的機器人。它會嚴格按照"先去A區查目錄，再去B區找書架，然後去C區取書"這樣的固定流程。這種方式在簡單任務中還行，但遇到複雜情況就麻煩了。

比如說，你想組織一個電影節，需要在Vimeo上找紀錄片、找電影圈的嘉賓、還要獲取YouTube影片鏈接。傳統的AI助手會這樣工作：首先，它要你提前告訴它需要用哪些工具，就像你出門前必須把一天要用的所有東西都裝進背包一樣。然後它會一步步按照預設的計劃執行：第一步搜索，第二步篩選，第三步整理結果。這個過程看起來很有條理，但問題是，真實世界的任務往往不會按照預想的那樣發展。

贊助商廣告

就拿最常見的ReAct方法來說，它的工作方式是"思考-行動-觀察"的循環。就像一個小學生做算術題，每做一步都要停下來想一想，然後再做下一步。這種方式在處理簡單問題時還可以，但當任務變得複雜，需要調用很多不同工具、處理大量資訊時，這種一步步的方式就顯得笨拙了。更關鍵的是，這些傳統方法缺乏全局視野，它們只關注當前這一步該做什麼，卻不能站在更高的角度思考整個任務應該如何完成。

另一個大問題是工具的使用。現在有些AI助手確實能使用工具，比如OpenAI的o1模型可以上網搜索、瀏覽網頁、寫代碼。但這些工具都是事先定好的，就像給它配備了一個固定的工具箱。如果遇到新問題需要新工具，它就傻眼了。想像一下，如果你的私人助手只會用你給他的那幾個工具，遇到新情況不懂得自己去找合適的工具來解決，這樣的助手能有多大用處呢？

最後還有個致命問題：記憶管理。隨著AI助手執行的任務越來越複雜，它需要記住的資訊也越來越多。就像你讀一本很長的偵探小說，如果不做筆記總結，到最後可能連前面的線索都忘光了。現有的AI助手在處理長時間、多步驟的任務時，要麼被海量的歷史資訊拖慢速度，要麼在資訊堆積中迷失方向，找不到重點。這就像一個管家的辦公桌上堆滿了各種便簽紙，最後連自己都搞不清哪些是重要的，哪些是可以扔掉的。

正是因為這些問題，研究團隊才決定開發DeepAgent，讓AI助手真正像人一樣工作。

DeepAgent的魔法：在一次完整思考中搞定所有事

DeepAgent的核心創新可以用一個簡單的對比來理解。傳統AI助手像是一個需要不斷問你"接下來我該幹什麼"的新手員工，而DeepAgent更像是一個經驗豐富的項目經理，給他一個目標，他就能自己規劃、自己找資源、自己執行，全程只需要在最後向你匯報結果。

這種工作方式最大的不同在於，DeepAgent把所有的思考、工具發現和行動執行都融合在一個連續的推理過程中。就像一個真人在處理複雜任務時的思維方式：他不會機械地分成"現在是思考階段"、"現在是行動階段"，而是邊思考邊行動，思考和行動自然地交織在一起。

贊助商廣告

具體來說，當你給DeepAgent一個任務，比如"幫我找到最適合學習編程的在線課程"，它會這樣工作。首先，它開始思考這個問題，就像你自己思考一樣："要找編程課程，我需要知道哪些平台有課程數據，還要能夠比較不同課程的質量。"然後，它會主動搜索可用的工具，就像你會想"我應該去哪個網站查"一樣。找到合適的工具後，它立即使用這個工具獲取資訊，比如調用Udemy的API搜索課程。拿到結果後，它繼續在同一個思考流程中分析這些資訊，決定是否需要使用其他工具做進一步調查，比如去Reddit搜索用戶評價。

這整個過程就像你做一道複雜的菜。你不會嚴格按照"第一步思考5分鐘，第二步切菜10分鐘，第三步再思考5分鐘"這樣的機械流程，而是邊做邊想：切菜的時候想著待會兒火候該怎麼控制，炒菜的時候根據實際情況決定要不要加料，全程是一個自然流暢的過程。DeepAgent就是這樣工作的，它的思考和行動渾然一體，不被人為的流程限制。

更妙的是，DeepAgent在尋找工具時採用的是"按需檢索"策略。它不要求你事先準備好所有工具，而是在需要的時候自己去找。研究團隊給它配備了一個強大的工具搜索系統，就像給它裝上了一個智能搜尋引擎。當它意識到"我需要一個能查詢電影資訊的工具"時，它會用自然語言描述這個需求，系統就會從成千上萬個可用工具中找出最合適的那幾個。這就像你想做一道新菜，不確定該用什麼調料，於是打開手機搜索"適合燉肉的香料"，系統會給你推薦八角、桂皮、香葉等選項。

這種設計帶來的好處是顯而易見的。DeepAgent可以適應任意規模的工具集，無論是十個工具還是一萬個工具，它都能應對自如。在實驗中，研究團隊讓它使用包含一萬六千多個真實API的工具庫，DeepAgent依然能夠準確找到需要的工具並正確使用。這種能力是傳統方法根本做不到的，因為傳統方法需要把所有可能用到的工具都事先加載到AI的"工作記憶"中，工具一多就會超載。

贊助商廣告

而且，DeepAgent始終保持著對整個任務的全局把控。它不會像傳統助手那樣只盯著眼前的一小步，而是始終記得最終目標是什麼，已經完成了什麼，還需要做什麼。這種全局視角讓它能夠做出更明智的決策，避免在細枝末節上浪費時間。就像一個優秀的項目經理，他清楚地知道項目的最終交付物是什麼，當前進度如何，接下來應該把精力放在哪裡，而不會在不重要的小事上糾纏不清。

記憶管理的智慧：像大腦一樣整理資訊

如果說自主思考和工具發現是DeepAgent的兩大法寶，那麼智能的記憶管理就是它的第三個秘密武器。這個問題在長期任務中特別重要。想像你在偵破一個複雜的案件，隨著調查深入，線索越來越多，如果不做好筆記和整理，很快就會被資訊淹沒。

DeepAgent面臨的挑戰是這樣的：在處理複雜任務時，它可能需要調用幾十次工具，每次工具調用都會返回一堆資訊，這些資訊加上它自己的思考過程，很快就會堆積成海量的文本。如果把所有這些歷史記錄都原封不動地保留，兩個嚴重問題就會出現。第一，處理這些資訊的計算成本會急劇上升，就像你的電腦記憶體不夠用了一樣會卡頓。第二，更糟糕的是，DeepAgent會在海量的歷史資訊中迷失方向，難以找到真正重要的線索，就像在一堆亂七八糟的便簽紙中找那張記著關鍵資訊的紙條。

研究團隊給DeepAgent配備了一個巧妙的"記憶摺疊"機制。這個機制的靈感來自人類大腦處理記憶的方式。我們的大腦不會記住所有細節，而是會把重要資訊提取出來，把不重要的細節壓縮或遺忘。比如你讀完一本小說，不會記得每一句話，但會記得主要情節、關鍵人物和重要轉折點。

DeepAgent的記憶摺疊機制就是這樣工作的。當它執行一個長期任務時，比如已經進行了二十多步操作，積累了大量的歷史資訊，這時它可以主動觸發記憶摺疊。就像一個人在忙碌了一天後坐下來整理思路，DeepAgent會停下來，把之前所有的思考過程和工具調用歷史壓縮整理成一個結構化的記憶摘要。

贊助商廣告

這個記憶摘要不是簡單的文字總結，而是按照人類大腦記憶的方式分成三個部分，就像我們的大腦有不同類型的記憶系統一樣。第一部分叫"情節記憶"，記錄的是整個任務的大事件和關鍵決策點，就像你回憶自己的經歷時會想起"我先去了超市，然後去了銀行，最後去了郵局"這樣的主要情節。第二部分是"工作記憶"，記錄當前最重要的資訊，包括現在正在做什麼、遇到了什麼困難、下一步打算怎麼辦，這就像你腦子裡時刻記著的"現在要做的事"。第三部分是"工具記憶"，記錄用過哪些工具、哪些工具好用、哪些工具有坑，這就像你積累的工作經驗："上次用A工具遇到了問題，B工具效果更好。"

有了這個記憶摺疊機制，DeepAgent可以"喘口氣"重新出發。摺疊記憶之後，那些冗長的歷史記錄就被替換成了簡潔的結構化摘要，DeepAgent可以基於這個乾淨的記憶狀態繼續工作，不會被之前的海量資訊拖累。更重要的是，這個機制給了DeepAgent一個反思的機會。當它發現之前的探索路徑走入了死胡同，通過記憶摺疊，它可以重新審視整個任務，調整策略，開啟新的嘗試。就像你玩一個很難的遊戲關卡，死了好幾次之後，坐下來冷靜分析之前哪裡做錯了，然後用新策略再試一次。

為了確保記憶摺疊不會丟失關鍵資訊，研究團隊設計了一套標準化的數據格式，就像給記憶裝上了一個結構清晰的文件夾系統。這樣，即使資訊被壓縮了，重要的線索也不會丟失，而且DeepAgent能夠很方便地查找和使用這些記憶。這種設計比那些簡單地把歷史記錄一股腦兒塞給AI，或者粗暴地刪除舊記錄的方法要聰明得多。

實驗結果證明了這個記憶機制的威力。在那些需要幾十步操作才能完成的複雜任務中，配備了記憶摺疊機制的DeepAgent表現明顯更好，不僅速度更快，成功率也更高。這說明，給AI助手裝上一個像人腦一樣的記憶管理系統，確實能讓它變得更聰明、更可靠。

贊助商廣告

訓練AI助手的秘訣：模擬環境加精準獎勵

有了這麼好的設計，下一個問題就是：怎麼教會DeepAgent正確使用這些能力？這就像你招了一個天賦異稟的員工，但如果不培訓好，他也發揮不出潛力。研究團隊開發了一套專門的訓練方法，叫做ToolPO，全稱是"工具策略優化"。

訓練AI面臨的第一個難題是環境問題。DeepAgent要學會使用成千上萬個真實的API工具，但在訓練過程中如果真的去調用這些真實API，會遇到一堆麻煩。有些API調用一次要花錢，有些API不穩定經常出錯，有些API響應很慢，如果讓DeepAgent在訓練時反覆調用這些真實API成千上萬次，不僅成本高昂，而且訓練過程會變得很不穩定，就像你想訓練一個廚師，但食材供應時有時無，質量時好時壞，這樣怎麼訓練得好？

研究團隊想出了一個聰明的辦法：用AI模擬這些API。他們讓一個輔助的大語言模型扮演這些API的角色。當DeepAgent在訓練中想調用某個API時，比如"查詢某部電影的評分"，這個輔助模型就會根據API的文檔說明，生成一個合理的返回結果。這就像你在學習炒菜時，不是真的用昂貴的食材練習，而是用便宜的替代品先把手藝練熟，等真正掌握了技巧再用真材實料。

這個模擬環境不僅解決了成本和穩定性問題，還有一個意外的好處：訓練速度大大加快。因為不需要真的去網路上調用API等待響應，模擬環境可以瞬間返回結果，整個訓練過程就像開了快進一樣。實驗中，使用模擬API訓練的DeepAgent在真實環境中使用真實API時，依然表現出色，說明這種"模擬訓練"的方式是行得通的。

訓練的第二個難題是獎勵問題。訓練AI就像訓練一隻狗，做對了要獎勵，做錯了要提醒，AI才能學會正確的行為。但對於DeepAgent這種複雜的任務，只在任務最後給一個總分是不夠的。想像你在訓練一個人做一道複雜的菜，如果只在最後嘗一口告訴他"做得不好"，他怎麼知道是哪一步出了問題？是鹽放多了，還是火候不對，還是順序錯了？

贊助商廣告

研究團隊設計了一個"精細獎勵"系統。這個系統不僅會在任務結束時給出總評，還會在過程中對每一次工具調用進行單獨評分。如果DeepAgent正確地選擇並調用了工具，立即得到一個小獎勵；如果調用錯誤或者參數不對，就得到一個負分。這就像教人做菜時，不僅在最後評價成品，還在每個步驟都給予指導："這一步做得對，火候正好"、"這裡鹽放多了，下次少放點"。

更巧妙的是，研究團隊還給記憶摺疊功能也設計了獎勵機制。如果DeepAgent在合適的時機使用記憶摺疊，讓任務完成得更高效，它也會得到獎勵。這就像在教一個學生，不僅要教他知識，還要教他什麼時候該停下來總結複習，培養良好的學習習慣。

整個訓練過程使用了一種叫做"強化學習"的技術。簡單來說，就是讓DeepAgent不斷嘗試完成各種任務，每次嘗試後根據表現給予獎勵或懲罰，它逐漸學會什麼樣的行為能獲得更高獎勵，就會越來越多地採取那些好的行為。經過大量訓練，DeepAgent學會了如何巧妙地搜索工具、如何準確地調用API、如何在恰當的時機摺疊記憶，就像一個熟練的工匠掌握了自己的手藝。

訓練數據也很講究。研究團隊收集了四大類任務數據：一類是通用工具使用，教它如何使用各種各樣的工具；一類是真實環境交互，比如玩遊戲、網購等，教它如何與環境互動；一類是深度研究任務，教它如何上網搜索資訊、瀏覽網頁；還有一類是數學推理，教它如何用代碼解決數學問題。這種多樣化的訓練讓DeepAgent成為一個全能型選手，而不是只擅長某一類任務的專才。

真實考驗：八大戰場的全面驗證

說得再好聽，最終還是要看實際表現。研究團隊把DeepAgent放到了八個不同的測試場景中，這些場景有的考驗工具使用能力，有的考驗在複雜環境中完成任務的能力，全方位檢驗DeepAgent是否真的像宣傳的那樣厲害。

第一組測試是通用工具使用場景。這裡包括ToolBench這個巨無霸數據集，裡面有超過一萬六千個真實世界的API工具，測試AI能否在海量工具中找到合適的並正確使用。還有API-Bank，包含七十多個API和七百多個測試用例，考察AI的規劃能力、工具檢索能力和調用能力。另外還有TMDB電影資料庫和Spotify音樂播放器的模擬場景，看AI能否像真人一樣操作這些應用。最後是ToolHop，這是一個需要連續調用三到七個不同工具才能完成的多跳推理任務。

贊助商廣告

在這些通用工具測試中，DeepAgent的表現相當搶眼。在最難的場景中，當需要AI自己去大量工具中檢索需要的工具時（不是事先告訴它用哪些），DeepAgent的成功率達到了百分之六十四，而傳統的ReAct方法最好也就百分之五十五。在Spotify和TMDB這些實際應用場景中，DeepAgent的成功率都超過了百分之五十，而基準方法大多只有百分之二十到三十。

第二組測試是下游應用場景，更接近真實世界的任務。ALFWorld是一個文字版的虛擬房間遊戲，AI要像人一樣在房間裡走來走去，拿東西放東西，完成指定任務。WebShop是一個模擬購物網站，AI要根據用戶需求搜索商品、比較價格、選擇最合適的商品加入購物車。GAIA是一個通用AI助手測試，需要AI回答各種複雜問題，可能需要搜索網頁、閱讀文件、看圖片、運行代碼等各種能力的綜合運用。最後是HLE（人類最後的考試），這是一個超高難度的測試，包含了研究生水平的各學科問題。

在這些實際應用中，DeepAgent同樣表現出色。在ALFWorld遊戲中，它的成功率達到了百分之九十二，明顯超過各種基準方法。在WebShop購物任務中，它不僅成功完成購買的比例更高，購物得分也更優。在GAIA測試中，它的綜合得分達到了百分之五十三，而傳統方法大多只有百分之三十到四十。這些結果說明，DeepAgent不僅在工具使用的技術指標上表現好，在實際完成有用任務時也確實更可靠。

研究團隊還做了很多深入分析。他們發現，DeepAgent的優勢在開放場景中更加明顯。什麼意思呢？當工具庫很大，沒有人告訴AI該用哪些工具，完全需要它自己去找時，DeepAgent比傳統方法的優勢最大。這驗證了"按需檢索工具"這個設計思想的正確性。另外，訓練確實有用，經過ToolPO訓練的DeepAgent比只用基礎模型的版本平均提升了三到四個百分點，在某些任務上提升甚至達到百分之六以上。

記憶摺疊機制的作用也得到了驗證。在移除記憶摺疊功能後，DeepAgent在需要長時間交互的任務中表現明顯下降，特別是在GAIA這種複雜任務上，性能從百分之五十三降到了百分之四十五。這說明，給AI配備智能記憶管理系統確實能讓它在複雜長期任務中表現得更好。

贊助商廣告

研究團隊還測試了DeepAgent能否適應不同規模的基礎模型。他們用三十億參數和兩百三十五億參數的不同模型做了實驗，發現無論用哪個模型，DeepAgent的設計都能帶來明顯提升，而且模型越大，提升越明顯。這說明DeepAgent的方法具有很好的可擴展性，未來隨著基礎模型越來越強大，DeepAgent的表現還能繼續提升。

至頂AI實驗室洞見

DeepAgent代表的是AI助手發展的一個重要方向：從機械執行預定流程，向真正智能的自主工作轉變。就像人類從使用簡單工具進化到能夠創造和靈活運用各種工具一樣，AI助手也需要這樣的進化。

這項研究展示了AI確實可以像人一樣工作。不是說AI變得跟人一模一樣了，而是說在解決問題的方式上，它可以採用更接近人類的靈活策略：根據任務需要動態地尋找和使用工具，保持對整體目標的清晰認知，智能地管理自己的記憶和注意力。這種工作方式比那些機械的、預設的流程要高效得多，也可靠得多。

未來你的AI助手可能真的能像一個得力助手一樣幫你做事。你不需要告訴它每一步該怎麼做，不需要提前幫它準備好所有工具，甚至不需要擔心任務太複雜它會搞砸。你只需要告訴它你想要什麼結果，它就能自己想辦法，找工具，完成任務，最後給你一個滿意的答案。

從論文來看，即使是表現最好的DeepAgent，在某些任務上的成功率也還沒有達到百分之百。特別是在那些需要深度推理和常識判斷的任務中，AI還有很長的路要走。但進步是明顯的，方向是對的。

五年後、十年後，當這種技術成熟並普及，我們每個人都可能擁有一個真正智能的AI私人助手。它能幫你管理日程，能幫你研究問題，能幫你處理複雜的工作任務，就像有一個永遠不知疲倦、博學多識的助理隨時待命。

END

本文來自至頂AI實驗室，一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

Q&A

Q1：DeepAgent和ChatGPT這類AI助手有什麼不同？

A：最大的區別是工作方式。ChatGPT等傳統AI助手是按照預設流程一步步工作的，就像按食譜做菜。而DeepAgent更像經驗豐富的大廚，能在一個連續思考過程中自主決定需要什麼工具、主動去找工具並使用，全程保持對任務的全局把控。特別是在處理複雜任務時，DeepAgent還能智能管理自己的"記憶"，不會被海量資訊淹沒。

贊助商廣告

Q2：DeepAgent能用在哪些實際場景中？

A：DeepAgent特別適合需要使用多種工具和長期交互的複雜任務。比如組織活動時需要在多個平台搜索資訊、聯繫人員、預訂服務；做研究時需要搜索文獻、分析數據、生成報告；甚至是玩複雜的策略遊戲或完成購物任務。研究顯示它在這些場景中的表現都明顯超過傳統AI助手。

Q3：記憶摺疊機制是什麼意思？

A：這是DeepAgent的一個關鍵創新，就像人腦整理記憶一樣。當AI執行長期任務積累了大量資訊時，記憶摺疊機制會把這些資訊壓縮整理成結構化的摘要，分為三部分：情節記憶記錄主要事件，工作記憶記錄當前狀態，工具記憶記錄使用經驗。這樣既節省了計算資源，又讓AI能在海量資訊中抓住重點，還能在走入死胡同時"重新開始"嘗試新策略。