這篇研究來自阿里巴巴集團通義實驗室,於2026年3月29日以預印本形式發布,論文編號為arXiv:2603.27490v1,有興趣深入了解的讀者可通過該編號查詢完整原文。
**一個悄然湧現的瓶頸**
假設你有一位助理,需要幫你在浩如煙海的網際網路上追查一個極為隱秘的答案——也許是某位鮮為人知的說唱歌手在哪一年發布了哪首歌,也許是一道連頂級學者都撓頭的硬核題目。這位助理需要連續搜索、訪問網頁、核查資訊、推翻假設、重新出發,整個過程可能要進行數十步甚至上百步。
問題就藏在這裡:這位助理的"工作桌"——也就是它能同時看到的內容——是有限的。隨著搜索進行,工作桌越擺越滿,舊的搜索記錄、錯誤的推測、已經沒用的網頁內容全都堆在上面,新的線索反而越來越難以落腳。最終,工作桌被徹底塞滿,助理不得不停下來——哪怕答案就在眼前一步之遙。
這就是當前大語言模型(AI大腦)驅動的自主搜索助手所面臨的核心困境:有限的"記憶容量"與無限延伸的搜索需求之間,存在一道難以逾越的鴻溝。
通義實驗室的研究團隊針對這一困境,提出了一個名為**AgentSwing**的新框架。簡單來說,這套框架讓AI搜索助手能夠在恰當的時機,以恰當的方式,主動整理和切換自己的"工作桌",而不是死守一種固定的清桌策略走到底。這篇文章將帶你完整理解這項研究的來龍去脈。
---
**一、工作桌塞滿了,到底是誰的錯**
要理解AgentSwing解決的問題,先得弄清楚AI搜索助手的工作方式。
當你向一個深度搜索AI提問時,它並不像人類那樣漫無目的地刷網頁。它會按照一套"思考—調用工具—獲取結果"的循環來工作:先在腦子裡想想下一步該查什麼,然後調用搜尋引擎或者直接訪問某個網址,獲得結果之後再繼續思考。每一輪這樣的循環,就是一個"交互回合"。一道複雜的題目,可能需要幾百個這樣的回合。
整個過程中,AI的"工作記憶"(也就是它能同時處理的文本長度,通常被稱為"上下文窗口")會被每一輪的思考內容、搜索指令、搜索結果逐漸填滿。大多數主流AI模型的上下文窗口雖然已經很大,但面對動輒幾百輪的深度搜索任務,依然是杯水車薪。
更麻煩的是,隨著搜索深入,早期的內容往往變成了"污染"而非"營養"。那些已經被推翻的錯誤假設、反覆出現的無效搜索結果、越來越長的重複記錄……它們不僅占據寶貴空間,還會實實在在地干擾AI的判斷,讓它在給出最終答案時出現偏差。研究者把這種現象形象地稱為"上下文腐敗"(Context Rot)——就像一個工作桌上堆滿了發霉的舊文件,反而讓新來的重要文件找不到地方放,而且那些腐爛的氣息還會影響你的判斷。
面對這個問題,現有的解決方案主要有三種。第一種叫"拋棄一切"(Discard-All):工作桌滿了就全清空,只留下最初的問題,從頭再來。第二種叫"只留最近"(Keep-Last-N):清桌時只保留最近幾輪的內容,前面的全扔掉。第三種叫"壓縮總結"(Summary):請另一個AI來把積累的內容濃縮成一段摘要,再繼續工作。
這三種策略各有千秋,但它們有一個共同的致命弱點——**它們都是"一招鮮吃遍天"的固定策略**。不管當前工作桌上的內容是什麼狀態,它們都照章辦事,不加區分。
---
**二、研究團隊給"成功"下了一個新定義**
在提出解決方案之前,研究團隊做了一件非常有意義的事情:他們為深度搜索任務的"成功"建立了一套全新的衡量框架。
在此之前,衡量一個AI搜索助手好不好,通常就看一個數字:Pass@1,也就是一次性給出正確答案的比例。但研究團隊發現,這個數字其實是兩件完全不同的事情混在一起的結果。
他們把這兩件事拆開來看。第一件事叫**搜索效率(η,讀作"伊塔")**:AI在用完允許的回合數之前,能不能成功給出一個答案(不管對不對)。就像考試時,你能不能在鈴聲響之前至少寫完答案——哪怕寫錯了。第二件事叫**終止精度(ρ,讀作"羅")**:在AI確實給出了答案的那些題目里,答對了多少。就像考試交卷的那些同學裡,真正寫對的比例。
最終的成績(Pass@1)= 搜索效率 × 終止精度。這個公式看起來簡單,卻揭示了深刻的內在矛盾。
以"拋棄一切"策略為例。這種策略每次清空工作桌,讓AI從零開始,每次重啟的嘗試都只有一個相對短小的上下文,答案的質量會更高——終止精度很強。但問題是,每次重啟都等於浪費了前面積累的資訊,而且每次重啟後能用的工作空間很小,完成任務的概率相對較低——搜索效率較弱。
反過來,不做任何清桌處理的"基礎版"AI,有著最高的搜索效率(工作桌一直在用,能持續到最後),但也有著最低的終止精度(工作桌上垃圾太多,干擾判斷)。
研究團隊用實際數據驗證了這一點。他們在實驗中逐漸增大"拋棄一切"策略觸發前允許使用的上下文空間,發現隨著允許的上下文越來越大,答題的正確率(終止精度)會穩步下降——這正是"上下文腐敗"在起作用。而基礎版AI對應的是最大上下文場景,因此它的終止精度在所有配置中是最低的。
此外,研究團隊還引入了一個更公平的比較指標——**對齊終止精度(ρ對齊)**:只在那些"所有策略都給出了答案"的題目上進行比較,這樣就排除了"某個策略根本沒給出答案"對比較造成的干擾。
這套框架為後續的分析和設計提供了清晰的坐標系:任何新策略,都可以在這張"效率—精度"的二維地圖上找到自己的位置。
---
**三、四種策略在地圖上的位置各不相同**
有了這張"效率—精度"地圖,研究團隊把四種策略(基礎版、拋棄一切、只留最近、壓縮總結)全都畫了上去,結果發現它們分布在地圖的不同角落,形成了一條彎曲的"靜態策略邊界"。
基礎版(不做任何清桌)占據了高效率低精度的角落——它幾乎總能給出答案,但答案的質量不太可靠。拋棄一切策略占據了低效率高精度的角落——它給出的答案質量很高,但常常還沒給出答案就已經把回合數用完了。壓縮總結和只留最近這兩種策略則處於中間地帶,在效率和精度之間各有取捨。
研究團隊還在多個真實評測基準上做了對比實驗。這些基準包括**BrowseComp**(一個專門測試深度網路搜索能力的英文評測集,共選取200道題)、**BrowseComp-ZH**(對應的中文版本,289道題全部參與評測)和**HLE**("人類最後的考試",一個匯集了各領域極難題目的綜合評測集,選取了500道純文字題)。
在這些評測上,所有的清桌策略都比基礎版好——只要允許的回合數足夠多。但當回合數很少時,清桌策略反而可能不如基礎版,因為每次重啟都會浪費寶貴的機會。
這個發現揭示了一個根本性的局限:**任何固定策略都只是在地圖上的某個點上優化,而真正的最優路徑應該是能夠在地圖上自由遊走的**。
---
**四、AgentSwing:給AI助手裝上"情景切換"能力**
正是基於這個洞察,AgentSwing誕生了。
AgentSwing的核心思想,類似於一支探險隊在深山中尋路時,遇到岔路口不是隨便選一條走,而是先讓幾個小分隊各走幾步,然後根據每個小分隊實際探出的情況,再決定大部隊跟著哪個小分隊走。
具體來說,AgentSwing的運作分為兩個階段。
**第一個階段叫"並行上下文管理"**:當AI助手的工作桌使用量超過預設閾值(例如占滿了工作桌的20%或40%),系統就會同時啟動三種清桌策略,把當前的工作桌內容分別按照"拋棄一切""只留最近""壓縮總結"三種方式處理一遍,生成三個不同的"清桌後版本"。此時,原始的未清桌狀態和三個清桌後的版本同時存在。
**第二個階段叫"前瞻路由機制"**:系統不會立刻選擇哪個版本繼續。相反,它讓每個清桌後的版本各自獨立地繼續工作K個回合(實驗證明K=3時效果最好),相當於讓三支小分隊各自向前探了三步。探完之後,系統把三支小分隊的實際進展情況,連同原始的未清桌版本,一起展示給AI,讓AI自己判斷哪個方向看起來最有希望。AI選定一個方向後,其他分支被丟棄,被選中的那個版本成為新的主線,繼續工作。
這個設計的精妙之處在於:路由決策不是基於"清桌後的樣子好不好看",而是基於"清桌後實際走了幾步,走得好不好"。就像你評價一條山路,不是看它在地圖上畫得好不好,而是實際走幾步感受一下坡度和障礙。
值得一提的是,AgentSwing中所有的清桌操作和前瞻探索,都由同一個AI模型來完成——包括最後的選擇決策。這種設計簡單而實用,也意味著它可以應用在任何支持工具調用的AI模型上,無需額外訓練或專門的判斷模型。
---
**五、實驗結果:在多個維度上全面領先**
研究團隊用三個不同規模和來源的開源AI模型來驗證AgentSwing的效果,分別是GPT-OSS-120B(OpenAI開源的120億參數模型)、DeepSeek-v3.2(深度求索的最新版本)、以及通義實驗室自己研發的Tongyi-DR-30B-A3B(一個300億參數的混合專家架構模型)。
結果顯示,AgentSwing在所有模型、所有評測基準上,都超過了最好的單一固定策略。以BrowseComp英文版為例,GPT-OSS-120B使用AgentSwing得分60.0,而最好的單一策略"只留最近"只有52.5,基礎版更是只有39.5。DeepSeek-v3.2配合AgentSwing在BrowseComp中文版上達到了71.3,在HLE上達到了44.4,超越了包括Claude-4.5-Opus、Gemini-3.0-Pro等多個知名閉源商業模型的成績。通義自家的30B模型配合AgentSwing,也在同等規模的開源模型中排到了前列。
更值得關注的是AgentSwing的**回合效率**。在BrowseComp上,AgentSwing在僅使用約200個回合時,就能達到"拋棄一切"策略需要600個回合才能達到的成績——也就是說,效果相同,成本只需三分之一。同時,AgentSwing的最終成績上限也比任何單一策略更高,隨著回合數增加,它的提升空間更大。
在那張"效率—精度"的二維地圖上,AgentSwing突破了靜態策略邊界,占據了一個此前沒有任何固定策略能到達的位置——既有接近"只留最近"的搜索效率,又有接近"拋棄一切"的終止精度。
研究團隊還專門分析了AgentSwing在"所有策略都觸發了清桌操作"的那些困難題目上的表現。在GPT-OSS-120B上,這樣的題目共有122道。"拋棄一切"策略在其中完成了51道,答對35道,Pass@1為28.7%。AgentSwing完成了90道,答對51道,Pass@1為41.8%,同時平均用了190.3個回合,比"拋棄一切"的297.2個回合少了約三分之一。這組數據清楚地說明:AgentSwing的優勢不是靠消耗更多資源換來的,而是靠更聰明的策略選擇獲得的。
---
**六、前瞻探索到底有多重要:一組消融實驗**
為了驗證"向前探幾步再做決定"這個設計的必要性,研究團隊做了一組對比實驗。
如果把前瞻機制去掉,改成"清桌後隨機選一個方向走",成績會從60.0下滑到51.0(GPT-OSS-120B在BrowseComp上)。如果"看了清桌後的樣子但不讓各路繼續走,直接選",成績是50.0。而加上前瞻探索3步之後,成績跳到了60.0。前瞻探索5步的成績則略有回落(55.0),這是因為走太多步可能會導致某個分支提前把上下文窗口撐滿。
這組實驗說明,AgentSwing的關鍵不只是"並行運行多個策略",更關鍵的是"讓每個策略都實際跑幾步,再根據真實表現做決策"。選擇的依據是前瞻中真實發生了什麼,而不是清桌後看起來的樣子。
研究團隊還研究了不同策略組合方式的效果。只用"拋棄一切"單策略做AgentSwing,得分58.0;同時納入"拋棄一切+壓縮總結"兩種策略,得分上升到60.0;納入全部三種策略,得分進一步提升到60.5。這說明候選策略的多樣性本身也是有價值的——不同策略在不同情境下各有優勢,選擇池越豐富,路由機制能發揮的空間就越大。
研究團隊還統計了在實際運行中,AgentSwing最終選擇了哪種策略,發現這個選擇並不均勻,而且不同的底層AI模型有不同的偏好。DeepSeek-v3.2和通義模型更傾向於選"壓縮總結",而GPT-OSS-120B則更常選"拋棄一切"。這說明路由行為是真實反映了不同模型對不同上下文管理方式的適應性差異,而非隨機選擇。
---
**七、一個真實案例:AgentSwing如何在關鍵時刻撥開迷霧**
抽象的數字有時難以讓人真切感受到差異,研究團隊提供的一個具體案例或許更有說服力。
題目大意是這樣的:有一位美國說唱歌手,1990年代出生,生於十月,14歲加入了一個幫派,星座是天秤座。在2015到2020年之間,他發布了一首病毒式傳播的熱門歌曲,出自他在2015到2019年間發布的某張專輯,這首歌里還有另一位美國說唱歌手作為合唱嘉賓,而那位嘉賓的父親在監獄裡待了15年(以2016年1月21日為基準)。請問這首病毒式傳播的歌曲叫什麼名字?
使用DeepSeek-v3.2的AI助手工作了23個回合後觸發了清桌操作。在這23個回合里,它經歷了一段曲折的偵查過程:一開始鎖定了Nipsey Hussle,但發現他是八月生的,排除;然後鎖定了Lil Durk,跟蹤了很多線索,但發現他的幫派入伙時間對不上(是17歲而非14歲),而且相關歌曲也超出了時間範圍;最後,在第21到23回合,AI嘗試了新的搜索角度,終於找到了一個關鍵線索:$tupid Young。
此時工作桌已經很滿。它同時包含了有用的新線索($tupid Young),也充斥著大量無關的舊內容(對Nipsey Hussle、Lil Durk、Hit-Boy的錯誤追蹤記錄)。
三個清桌策略在前瞻階段表現截然不同。"拋棄一切"策略把一切清空重來,重新開始搜索"十月出生的說唱歌手",完全放棄了好不容易找到的$tupid Young線索,回到了起點。"壓縮總結"策略保留了一個以Lil Durk為中心的總結,但這個總結繼承了前期錯誤假設的偏見,在前瞻階段繼續花時間驗證Lil Durk,浪費了三步。"只留最近"策略只保留了最近幾輪的內容,恰好包含了$tupid Young這條關鍵線索。在前瞻的第一步,它就嘗試訪問$tupid Young的維基百科頁面;第二步確認了他生於1992年10月3日,天秤座,符合所有身份線索;第三步已經開始搜索他的熱門歌曲和合唱嘉賓資訊,找到了候選歌曲"Mando"。
路由機制看到這三路的探索結果,毫不猶豫地選擇了"只留最近"。隨後,AI在幾個回合內驗證了Mozzy("Mando"的合唱嘉賓)的父親確實曾在監獄服刑15年,確認了歌曲發布於2017年,最終給出了正確答案:"Mando"。
這個案例完整展示了AgentSwing的工作原理:不是給每種情況規定死答案,而是讓實際情況說話。
---
**八、代價幾何:額外的計算開銷值得嗎**
有一個合理的疑問:AgentSwing需要並行運行三套前瞻探索,這肯定要花更多的計算資源。這額外的開銷究竟有多大?
研究團隊專門做了對比分析。他們在那些"各策略都觸發了清桌"的困難題目上,統計了每道題完成時的總回合數和總處理的token數量(token可以理解為AI處理文字的基本計量單位)。
結果顯示,AgentSwing的總回合數處於中間水平,比"拋棄一切"少很多,和"壓縮總結""只留最近"相近。在token總量上,AgentSwing雖然因為前瞻探索增加了一些,但"只留最近"這種策略因為在每個回合都保留了較長的歷史,累計token其實也不少。"拋棄一切"在token數量上最省,但代價是需要更多回合才能完成任務。
綜合來看,AgentSwing的額外開銷是真實存在的,但並不誇張。考慮到它帶來的性能提升,這個代價是值得的。
---
**九、這項研究的邊界在哪裡**
研究團隊在文章末尾坦率地討論了這項工作的局限。
AgentSwing目前是一個"外掛"式的機制——它控制的是AI工作桌的管理方式,而不是AI本身的能力。一個更根本的方向,是訓練出天生就能在小上下文裡高效工作、在長上下文裡保持精準的AI模型,把這些能力內化為模型本身的質素,而不是靠外部控制來補償。
另一個局限是路由決策的質量。目前AgentSwing的選擇是由AI模型自己來做的,這在大多數情況下是有效的,但AI模型的自我評估能力並不總是可靠。如果有一個專門訓練的路由器、驗證器或軌跡評估器,能更準確地預判哪條路更有希望,路由決策的質量還能進一步提高。
此外,研究團隊也指出,候選策略集合的多樣性和互補性對AgentSwing的效果有直接影響。目前使用的三種策略(拋棄一切、只留最近、壓縮總結)已經覆蓋了效率—精度譜系的主要位置,但未來探索更多專門化、更有針對性的候選策略,可能會帶來進一步提升。
---
歸根結底,AgentSwing做的事情,本質上就是把一個原本"死板"的機制變成了一個能"看情況"的機制。當AI搜索助手的工作桌快滿的時候,與其機械地按照同一套清桌規則處理,不如先讓幾種不同的處理方式各自試走幾步,再根據實際走出來的路況做決定。這個思路樸素而有效,卻讓整體性能產生了顯著的飛躍。
對於普通用戶來說,這項研究意味著未來的AI搜索助手在處理那些需要大量步驟、反覆查證的複雜問題時,將變得更加可靠和高效——無論是幫你查一個冷門問題的答案,還是協助專業人員進行學術文獻梳理、市場情報收集,都將因為這類機制的進步而受益。
有興趣進一步了解的讀者,可以通過論文編號arXiv:2603.27490在arXiv平台上找到完整原文,代碼也已開放在Alibaba-NLP/DeepResearch這個代碼倉庫中。
---
**Q&A**
Q1:AgentSwing和普通AI搜索助手的清桌策略有什麼區別?
A:普通的清桌策略(比如"拋棄一切"或"只留最近")是固定不變的,無論當前搜索到了什麼狀態,都按同一套規則處理。AgentSwing的區別在於:它會在每次需要清桌時,同時運行三種不同的清桌方式,讓每種方式各自獨立地往前走三步,再根據實際走出來的效果選出最合適的一條路繼續。相當於"先試探,再決定",而不是"無腦執行固定動作"。
Q2:AgentSwing的"搜索效率"和"終止精度"分別是什麼意思?
A:"搜索效率"指的是AI助手在用完允許的交互回合之前,能不能給出一個答案(哪怕答錯了),衡量的是"能不能完賽"。"終止精度"指的是在那些確實給出了答案的題目里,答對的比例,衡量的是"完賽了答得準不準"。最終成績等於兩者相乘。AgentSwing的優勢在於,它同時在這兩個維度上都表現得更好,而不是只顧一頭。
Q3:AgentSwing用DeepSeek-v3.2在HLE上達到44.4分意味著什麼?
A:HLE(人類最後的考試)是一個匯集了各領域極難題目的測試集,被認為是目前公開基準中最具挑戰性的之一。DeepSeek-v3.2配合AgentSwing達到44.4分,超過了Claude-4.5-Opus的43.4分和Gemini-3.0-Pro的45.8分(接近持平),以及GPT-5.1 High的42.7分。考慮到DeepSeek-v3.2是一個開源模型,而對比的都是定價昂貴的閉源商業模型,這個成績的意義在於說明:通過更聰明的上下文管理策略,開源模型完全有能力在最頂級的評測上與商業模型一較高下。






