上交大與騰訊聯合研發：當AI助手不再只是「等你開口」，它學會了在空閒時提前幫你準備好答案

這項由上海交通大學與騰訊聯合開展的研究，以預印本論文形式發布於2026年5月，論文編號為arXiv:2605.25971v1，有興趣深入了解的讀者可通過該編號在arXiv平台查詢完整論文。

贊助商廣告

**一個你可能每天都在經歷的小小不滿**

你有沒有遇到過這樣的情景：早上開完一個簡短的會議安排，下午又要花上大把時間跟AI助手一遍遍解釋背景、提問、等它搜索資料、再整理成型？明明上午那次對話里，所有的線索都已經擺在那裡了——項目進度、風險清單、會議時間——但AI就是那麼安靜地"睡著了"，等你下午再次發問時才從頭開始動工。

這種"反應遲鈍"的感覺，來自於今天幾乎所有AI助手共同的設計邏輯：它們是純粹的"被動響應者"。用戶問一句，它答一句，問題結束，立刻休眠。兩次對話之間的那段空檔時間，就這麼白白浪費掉了。

上海交通大學與騰訊的研究團隊認為，這恰恰是一個被嚴重忽視的機會。他們把這段"空檔期"稱為"空閒時間窗口"，並提出了一個新的設計思路：與其讓AI在你不說話的時候什麼都不做，不如讓它利用這段時間悄悄預判你接下來最可能需要什麼，提前把相關資訊準備好，等你開口的那一刻，答案已經就緒。

圍繞這個核心思路，研究團隊構建了一套名為**ProAct**的主動式AI助手框架，並配套設計了一個專門用來評估這類"主動預判能力"的評測基準——**ProActEval**。評測結果顯示，與傳統被動式助手相比，ProAct能讓用戶完成同等任務所需的對話輪次減少14.8%，用戶主動提問的次數減少11.7%，而AI"自說自話、無中生有"的錯誤率也下降了28.1%。

**一、助手只會"等你開口"，到底輸在哪裡**

要理解這項研究的意義，可以借用一個生活中的場景來思考。假設你雇了一位秘書，每天和他共事。早上你告訴他："下午三點我有個項目進度匯報會。"然後你去忙別的事，秘書也跟著發呆。到了兩點五十，你突然回來說："快，幫我整理一份項目進展摘要，還要有風險清單，最好附上幾張圖表。"秘書這才慌裡慌張地開始查資料、整理數據。

贊助商廣告

一個優秀的人類秘書絕對不會這樣工作。他在早上接到會議安排的那一刻，就會開始思考："匯報會肯定需要進展摘要、風險報告、數據圖表……"然後在你忙碌的那幾個小時裡，默默把這些東西準備好。等你回來，他直接遞上一份完整的資料包。

今天的AI助手更像前者——知道你有會但坐等你來要資料；ProAct想打造的，是後者——聽到"有會"就開始悄悄備料。

研究團隊指出，這種"被動等待"的設計在心理學上有一個對應的概念叫"反應性應對"，而他們所追求的，是心理學研究中一種更高效的策略——"前瞻性應對"。前瞻性應對的核心是：在需求真正浮現之前，提前感知、積累資源、做好準備。人類中的高效者，往往都是前瞻性應對的高手。研究團隊認為，AI助手也應該具備這種能力。

**二、ProAct如何把"空閒時間"變成準備時間**

ProAct的整體設計，可以理解為一套"預判-準備-交付"的循環流水線。每一次用戶和AI完成一輪對話之後，AI不是立刻休眠，而是進入一個主動工作的"後台模式"。

這個後台模式由兩個緊密協作的模組驅動。第一個叫做"未來狀態預測"，第二個叫做"空閒時間資訊獲取"。前者負責預判用戶接下來最可能需要什麼，後者負責評估這些預判是否值得立刻去準備，並實際完成準備工作。

支撐這兩個模組運轉的，是一套持續更新的"持久記憶"系統。這套記憶系統不僅記錄了你說過的每一句話，還維護著一份關於你的"用戶畫像"——你的習慣、偏好、正在進行的項目、已經解答過的問題、還懸而未決的知識空白。每一次新的對話，都會給這份記憶增添新的內容。而這份記憶，正是AI預判你未來需求的核心依據。

"未來狀態預測"模組的工作邏輯是這樣的：它會同時從兩個角度分析你的下一步需求。一方面是"近景預測"，也就是根據你剛才說的話，推斷在當前這個話題延伸下去，你最可能問的下一個問題是什麼。另一方面是"遠景擴展"，也就是翻查你的歷史記憶，看看你長期關注的話題、未完成的任務或者之前留下的知識缺口，判斷有沒有值得主動補充的資訊。

贊助商廣告

除此之外，記憶系統自身也會主動發出"補貨信號"——當系統發現某些資訊已經過時、某些知識存在空白、某些事實缺乏依據時，這些"記憶缺口"本身也會被轉化成預判候選項，加入待處理隊列。

預判完成後，會產生一批候選"未來需求"。每一個候選項都包含四個要素：預判的具體需求是什麼、這個預判是基於哪些對話內容或記憶線索得出的、預判的置信度有多高、以及如果要準備這個需求，應該從哪裡搜集資訊。

緊接著，"空閒時間資訊獲取"模組登場。它的任務是為每一個候選需求打一個"值不值得現在就準備"的分數。這個分數綜合考慮四個維度：用戶對這條資訊的實際相關程度、當前記憶中對這方面知識的缺口有多大、這條資訊相比已有記憶能提供多少新增價值、以及這條資訊的時效性。只有綜合得分超過門檻值的候選項，才會獲得"立即準備"的資格；得分偏低的則會被暫時擱置，等待時機，或者靜默存入記憶備用。

對於通過篩選的候選需求，系統會進一步檢查現有記憶中是否已經有足夠的支撐資訊。如果已有充分依據，就直接復用，避免重複搜索；如果只有部分相關資訊，就只搜集缺失的那部分；如果幾乎是空白，才會進行完整的分解式搜索——把大問題拆解成若干子問題，逐一搜索、提取、核驗，直到資訊足夠完整。

最終，搜集整理好的資訊會被封裝成一個"知識產物"，包含它所支撐的預判需求、一段準備說明，以及完整的資訊來源溯源鏈條。這條溯源鏈條非常重要，它確保了後續在實際回答中使用這些預備資訊時，依然有紮實的事實依據，不會因為提前準備而降低準確性。

**三、"要不要現在就告訴你"——一道精心設計的篩選關卡**

準備好了知識產物之後，還有最後一關：要不要現在就主動推送給用戶？什麼時候推、以什麼方式推，是另一個需要精細把控的決策。

贊助商廣告

研究團隊設計了一套"效用感知交付策略"來處理這個問題。每一份準備好的知識產物，都會被評估一個"推送分數"：資訊的預期價值減去打擾用戶的成本，再加上一個中性偏移量。這個分數超過一定門檻，才會觸發主動推送；如果達不到門檻，資訊就會悄悄存入記憶，等到用戶主動觸及相關話題時再自然融入回答，或者等到下一輪對話來臨時作為輔助背景。

具體來說，交付方式分為三種：主動推送是指AI直接告訴用戶"我幫你準備好了這些，你應該用得上"；融入回答是指在用戶問下一個問題時，把預備好的資訊自然地編織進答案里；靜默儲存則是完全不打擾用戶，只是默默讓這些資訊待命，隨時可用。

這種區分很重要。一個頻繁打斷你的AI助手，哪怕每次推送的資訊都有用，也會讓人煩不勝煩。研究團隊明確把"不打擾用戶"列為整個系統需要優化的約束條件之一，與"減少用戶努力"、"控制計算成本"、"避免錯誤資訊"並列。

**四、專門為"主動預判能力"打造的評測標尺**

評估一個AI助手的反應式回答能力相對容易——問它一個問題，看答案準不準就行了。但評估它"主動預判"的能力，就複雜得多：你怎麼證明AI確實預判到了用戶的需求，而不是碰巧說對了？你怎麼量化"減少了用戶的等待和提問"這件事？

為此，研究團隊專門設計了ProActEval這套評測框架。整個框架包含200個場景，覆蓋40個不同的生活和工作領域。每個場景都圍繞一套精心設計的"用戶需求鏈"展開。

每個場景的核心是兩份材料。一份是"事實清單"，裡面包含該場景下所有相關的具體事實，全部使用虛構的人名、機構名、地址、郵箱和網址，確保評測結果的可核驗性——AI的每一條回答，都可以精確對照事實清單判斷準確與否，任何"無中生有"的內容都會被計入錯誤。另一份是"用戶需求圖譜"，記錄了這個場景下用戶可能產生的所有需求，每個需求都標註了重要程度、所依賴的具體事實、出現的先後順序，以及最關鍵的一個欄位——"在哪個需求被滿足之後，這個需求就變得可以預判了"。

贊助商廣告

舉個例子來說明這個設計的精妙之處。在一個財務規劃場景里，用戶第一個需求是詢問公司401k養老金計劃的僱主匹配比例。當AI回答了這個問題之後，用戶接下來問"怎麼註冊參與這個計劃"就變得高度可預判——因為知道了有匹配福利，下一步自然是想去參與。這種"前一個需求滿足後，後一個需求就可以被預判"的鏈條關係，在ProActEval里被系統性地標註出來，形成了整個評測的核心結構。

評測時，一個AI用戶模擬器會按順序提出各個需求。如果被測系統已經主動提前涵蓋了某個需求，模擬器就會直接跳過這個需求，不再專門提問——這種"跳過"直接體現為用戶提問次數的減少，也就是對用戶努力程度的量化。被測系統在整個過程中，看不到任何評測專用的隱藏欄位，只能使用公開資訊來運作，確保測試的公平性。

研究團隊還圍繞五種不同的"認知情境類型"組織了場景。這五種類型分別是：記憶基礎知識型（主要考察對穩定事實的記憶和調取）、資訊轉譯與缺口填補型（考察跨語言或格式轉換時的完整性）、溯源與依賴推理型（考察理清事物因果鏈條的能力）、交接與一致性控制型（考察跨話題切換時的連貫性）、以及準備就緒與後續跟進型（考察為延遲發生的任務提前做好準備的能力）。

用來度量系統表現的指標也頗為全面。效率方面，有"達到80%關鍵需求覆蓋所需輪次"和"達到100%關鍵需求覆蓋所需輪次"兩個指標，還有"用戶主動提問次數"這個直接度量用戶努力的指標。覆蓋率方面，有總體需求覆蓋率和關鍵需求覆蓋率。事實準確性方面，有正確傳達事實的比例和"無中生有"錯誤的比例。特別針對主動預判能力，還有一個"預判召回率"，專門度量AI在用戶提問之前就主動涵蓋了多少可預判需求。

**五、實驗結果：預判能力到底值不值**

研究團隊用ProActEval對三種不同配置進行了全面對比測試，覆蓋全部200個場景。

贊助商廣告

第一種是純粹的被動響應模式，不啟用任何主動預判或後台資訊獲取功能，作為基準參照線。第二種是"無方向的空閒資訊獲取"模式，會在空閒時間進行資訊搜索，但沒有預判模組指引方向，搜索目標是隨機的背景性資訊。第三種是完整的ProAct配置，也就是預判模組和資訊獲取模組全部啟用，獲取行為由預判結果精確指導。

對比結果非常鮮明地回答了一個關鍵問題：光是"在空閒時搜點東西"有沒有用？答案是：幾乎沒什麼用。"無方向的空閒資訊獲取"模式雖然在每個場景上平均消耗了將近7萬個額外的計算單元，完成任務所需的輪次卻只比純被動模式減少了不到1%，用戶提問次數的減少也微乎其微。這說明，盲目搜索換不來真正的效率提升。

而完整的ProAct配置則大不相同。在達到100%關鍵需求覆蓋這個目標上，所需的對話輪次從8.11輪降低到了6.91輪，降幅14.8%。用戶主動提問的次數從9.14次降到了8.08次，降幅11.7%。"無中生有"的錯誤率從13.2%降低到了9.5%，降幅28.1%。總體需求覆蓋率從89.2%提升到了95.6%，關鍵需求覆蓋率從93.8%提升到了97.7%。預判召回率這個指標，在完整ProAct下達到了0.428，而另外兩種模式均為0——意味著ProAct實際上提前覆蓋了42.8%的可預判需求，另外兩種模式則完全沒有這種能力。

研究團隊還專門把ProAct與另一個公開可用的"主動式AI助手"方案ProactiveAgent進行了直接比較。ProactiveAgent採用的是另一種主動設計思路，但評測結果顯示，它在1572個可預判需求中只主動覆蓋了32個，預判召回率為0.020；而ProAct覆蓋了703個，預判召回率為0.447。這說明"主動"這件事本身還不夠，關鍵在於主動的方向是否精準指向了真正值得預判的內容。

研究團隊還做了一組"搜索預算分析"實驗，在一個匹配的50場景子集上，把每輪空閒時間的搜索次數從4次逐步提升到16次，觀察效果如何變化。結果呈現出一條典型的收益遞減曲線：隨著搜索次數增加，預判召回率確實在持續提升，但完成任務的輪次和用戶提問次數在超過一定點後就不再明顯下降，甚至出現輕微波動，而計算成本則在線性攀升。這個發現很有實踐意義：搜索預算不是越大越好，存在一個最優的"性價比區間"，超過這個區間只是在燒算力而不是在幫用戶。

贊助商廣告

**六、持久記憶系統：ProAct的"長期地基"**

為了驗證ProAct的記憶系統是否真的能可靠地支撐這種長期、跨話題的預判能力，研究團隊還在另一個專門測試"AI助手長期記憶能力"的基準——MemBench上進行了評測。

這個測試重點考察AI能否從大量歷史對話中準確推斷出用戶的偏好和情緒狀態。比如，通過翻閱用戶過去幾十次關於食物、電影、書籍的討論，判斷這個用戶喜歡什麼風格的東西；或者通過歷史對話推斷出用戶在某個時間段的情緒變化。

在10000個詞元的歷史對話規模下，ProAct的推斷準確率達到了84.3%，遠高於同類方法中最好的基準成績74.2%，提升幅度約13.6%。在100000個詞元的更大規模歷史對話下，ProAct達到了86.3%，同樣超過所有對比方法。值得注意的是，其他大多數方法的準確率在歷史對話量增大時出現了明顯下降，而ProAct不僅沒有下降，反而略有提升，說明它的記憶系統在處理長歷史資訊時具有相當的穩定性。

ProAct的記憶系統在讀寫效率上也表現均衡。讀取一條記憶大約需要0.04秒，寫入一條新知識大約需要0.06秒，這個速度在實際部署中完全可以接受。

**七、失敗案例分析：主動並非萬能**

研究團隊對實驗中出現的失敗情況進行了系統歸納，這部分內容其實很有參考價值。

在200個測試場景中，有6個場景（占3%）的最終關鍵需求覆蓋率反而比純被動模式更低。研究團隊分析原因發現，這類退步主要源於一種"空間競爭"效應：AI主動推送的預備資訊占據了回答空間，反而影響了對當前用戶實際問題的覆蓋。這提示了一個設計教訓：主動推送必須和反應式回答保持兼容，兩者不能相互擠壓。

還有一類失敗模式叫做"準確率與實用性脫鉤"。在192個有非零預判召回率的場景中，有82個場景的用戶提問次數並沒有因此減少。分析發現，這主要是因為有些預判資訊來得太晚，或者用戶本來就打算在那一輪問這個問題，所以提前準備好了也不算節省提問次數。這說明評估主動式AI助手，光看預判準不準是不夠的，還要看這個預判到底有沒有幫到用戶。

贊助商廣告

此外，當搜索預算很大時，系統傾向於追逐邊際價值越來越低的需求，同時大量推送行為會改變對話走向，導致某些核心需求反而沒有被及時處理。這進一步證實了"搜索預算不是越大越好"這個結論。

還有一個有趣的結構性發現：主題比較集中、需求之間有清晰因果鏈條的場景，比主題高度分散、需求之間缺乏邏輯關聯的場景，更容易從主動預判中獲益。這和直覺相符——如果一件事自然而然地引出下一件事，預判就容易做准；如果每個需求都是孤立的，預判的依據就很薄弱。

**八、研究的局限與潛在風險**

研究團隊在論文中坦誠地列出了幾點局限性。目前所有的測試都在人工設計的合成場景中完成，每個場景的事實是預先確定、可精確核驗的。這種"封閉世界"設定意味著實驗結論是針對這類受控環境的，能否直接推廣到開放式的真實對話場景，還有待進一步研究。

研究團隊也直接點出了持久記憶和未來需求預測在真實部署中可能帶來的隱私問題。一個記錄了你所有偏好和行為的AI系統，如果缺乏嚴格的數據控制機制，可能會對用戶隱私造成風險。研究團隊建議真實部署中必須引入數據最小化原則、明確的數據保留期限控制、操作日誌、刪除機制，以及用戶對主動記憶使用的明確授權。

此外，AI系統評估本身依賴於另一個大模型作為"評判者"，這個"以AI評AI"的設置本身也有自身的可靠性局限，評判結果並非絕對客觀。

說到底，ProAct代表的不是某一個具體產品或工具，而是一種對AI助手該怎麼運作的重新思考。過去我們默認AI助手的角色是"等你來找它"；ProAct提出的思路是，好的助手應該像那位有經驗的秘書一樣，在你還沒開口之前，就把你需要的東西悄悄備好。

當然，這不意味著AI助手應該變成一個不停打擾你的"過度熱情的銷售員"。研究團隊花了相當大的篇幅來設計那道"值不值得告訴你"的篩選關卡，背後的道理正在於此：主動的價值，在於精準，而不在於頻繁。

贊助商廣告

這項研究目前還處於受控實驗階段，從合成場景到真實世界還有不少距離要走。但它提出的問題——AI助手如何在不被激活的時間裡真正"為你服務"——是一個正在被越來越多研究者關注的方向。感興趣的讀者可以通過arXiv編號2605.25971查閱完整論文，代碼也已公開，有技術背景的讀者可以進一步探索。

---

Q&A

Q1：ProAct的"空閒時間預判"和普通AI助手的區別到底在哪裡？

A：普通AI助手只在用戶發問後才開始工作，對話結束就進入休眠狀態，兩次對話之間的時間完全閒置。ProAct則會在每次對話結束後，利用空閒時間分析對話歷史和用戶記憶，預判用戶接下來最可能需要什麼，提前搜集相關資訊備用。關鍵區別不只是"會主動搜索"，而是搜索方向由預判模組精確指導，實驗顯示無方向搜索幾乎沒有效果，而有方向的預判搜索才能真正減少用戶的提問次數和等待時間。

Q2：ProActEval和其他AI記憶評測基準有什麼不同？

A：現有的記憶類評測基準主要測試AI能否準確回憶已有資訊，屬於被動記憶測試。ProActEval專門為主動預判能力設計，每個場景都包含一條"需求預判鏈"，明確標註了哪些需求在特定前提被滿足後變得可預判。評測時，如果AI提前主動覆蓋了某個需求，用戶模擬器就跳過該需求不再提問，這樣"減少提問次數"這個效果被直接量化出來，而不是只看回答準不準。

Q3：ProAct在增加"主動預判"功能後會不會更容易產生錯誤資訊？

A：實驗結果顯示反而是相反的情況。與純被動響應模式相比，ProAct的"無中生有"錯誤率下降了28.1%，從13.2%降至9.5%。研究團隊認為原因在於：提前搜集資訊並形成帶有來源溯源的知識產物，讓回答時有更紮實的事實依據，而不是被迫在用戶催問時臨時生成內容。當然，如果主動推送了不相關或低質量的資訊，也可能影響回答準確性，這在極少數退步場景中確實有體現，說明推送篩選機制的質量同樣重要。

贊助商廣告