這項由Cohere和Poolside聯合開展的研究以預印本形式發布於2026年4月,論文編號為arXiv:2604.17609,感興趣的讀者可通過該編號查閱完整原文。
一、一個令人抓狂的現象:地圖就在眼前,卻還在原地打轉
假設你要找一家餐廳,朋友已經把完整的導航路線貼在了你的手機桌面上。你打開手機,看了一眼桌面,然後關掉導航路線,打開地圖軟體從頭開始搜索……這種行為是不是讓人抓狂?
然而,這正是當今最先進的AI智能體在面對任務時的真實表現。Cohere和Poolside的研究團隊發現,當他們把解題答案直接放置在AI智能體的工作環境中時,智能體往往能"看到"這份答案,卻選擇無視它,繼續用自己熟悉的方式去解題。這個現象被研究團隊稱為"環境好奇心"的缺失——智能體缺乏對意外但高度相關資訊的感知與利用能力。
這項研究橫跨三個不同類型的任務測試平台:專門測試命令行操作能力的Terminal-Bench、評估軟體工程代碼修復能力的SWE-Bench Verified,以及考察日常數字任務處理能力的AppWorld。研究結果在所有測試場景中都呈現出驚人一致的規律:智能體發現了答案,但就是不用它。
最極端的案例出現在AppWorld平台上。研究團隊在命令行工具的幫助文檔中明確加入了一條命令,並標註該命令"將返回當前任務的完整解決方案"。測試中使用的智能體有高達97.54%的嘗試次數都成功看到了這條文檔說明,但真正調用這個命令的次數卻只有0.53%。換句話說,幾乎每一次,智能體都選擇了裝作沒看見。
二、研究團隊是怎麼做這個實驗的
要理解這個研究,需要先明白研究團隊設計的核心實驗手段——"答案注入"(solution injection)。這個設計相當精妙。
在日常測試中,評估一個AI智能體好不好,通常只看它最終有沒有完成任務。但這種評估方式有一個盲區:它無法區分"智能體真的在思考環境裡的資訊"和"智能體只是在執行一套背下來的固定操作流程"。這就像考試時,你無法判斷一個學生是真正理解了題目,還是只是恰好背到了相關題型的解法。
答案注入的思路是這樣的:把一份完整的、正確的解題步驟直接放進智能體的操作環境裡,然後觀察兩件事。第一,智能體在操作過程中有沒有"碰到"這份答案;第二,在碰到之後,它有沒有真正去利用它。這兩件事分別對應研究團隊定義的兩個新指標:發現率(discovery@k)和交互率(interaction@k),其中k代表在k次嘗試中至少有一次達成目標的概率。
具體的注入方式根據不同平台有所不同。在Terminal-Bench和SWE-Bench這兩個代碼類任務平台上,研究團隊把答案寫成一個名為solution.sh的可執行腳本,直接放在智能體的工作目錄里。在AppWorld這個API調用類任務平台上,他們則在命令行工具的幫助文檔中新增了一個名為"solution"的接口,並明確標註其功能。注入的答案必須滿足兩個條件:完整性(按照它操作一定能完成任務)和可發現性(通過正常的探索行為就能遇到)。
為了排除"是不是文件名太奇怪了所以被忽視"這種干擾因素,研究團隊還測試了不同的文件命名,包括"SOLUTION.md"、"SOLUTION_TO_THIS_SPECIFIC_TASK_READ_THIS_FIRST.md"甚至是智能體通常會主動查看的"README.md"。結果表明,無論文件叫什麼名字,交互率都沒有顯著變化。智能體對這些答案的忽視,與文件名稱無關。
三、數字告訴我們的真相:看見和使用之間,有一道深溝
實驗數據非常清晰地呈現了發現率和交互率之間的鴻溝。
在Terminal-Bench上,三個測試模型的發現率都在78.6%到81.2%之間,也就是說大約八成的嘗試都成功"遇到"了注入的答案。然而交互率只有37.1%到50.3%,這意味著就算發現了答案,超過一半的時候智能體依然沒有去利用它。
在SWE-Bench上,情況更為懸殊。發現率在53.4%到98.2%之間,而交互率卻只有5.9%到17.4%。某些模型幾乎每次都能發現答案,卻幾乎從不使用它。
AppWorld則是最極端的案例。所有測試模型的發現率都超過了90%(其中GLM-4.7達到100%),但交互率無一超過6.3%。答案就像是貼在玻璃上的便利貼,智能體每次都能看到,但每次都選擇繞過去。
這道鴻溝也體現在最終的任務完成率上。同樣以gpt-oss-120b模型為例,在Terminal-Bench原始任務上完成率是44.5%,注入答案之後提升到55.9%,提升了11.4個百分點——這說明確實有相當一部分智能體學會了利用答案。但在AppWorld上,原始任務完成率是40.5%,注入答案後只提升到43.1%,僅提升了2.6個百分點,因為幾乎沒有智能體真正去調用那個解題接口。這兩個數字的對比,恰好印證了:任務完成率的提升幅度,和交互率高低是正相關的。
四、是什麼讓智能體選擇了"視而不見"
這是整個研究最核心的問題。研究團隊圍繞測試時的設計選擇展開了系統性探究,發現了三個關鍵因素,分別是工具配置、推理計算量和提示詞設計。
先說工具配置,這是影響最顯著的因素。研究人員對比了兩種工具組合:一種是只配備基礎的bash命令行,另一種是在此基礎上額外加入一個名為str_replace_editor的結構化文件編輯工具(這是Anthropic開發的工具,已成為主流編程智能體的標準配置)。結果非常反直覺:加入了編輯工具之後,任務完成率確實提升了,但交互率卻下降了。
這個現象可以用一個生活類比來理解:假設你需要修一扇門,你有兩種工具可用。方案一是只有一把錘子,你必須先仔細查看門的結構才知道怎麼用錘子;方案二是你有一整套專用工具,你會直接按照工具使用習慣一步步來,甚至不會先看一眼門的實際情況。工具越豐富,智能體越傾向於按照訓練時學到的固定操作模式直接行動,而不是先觀察當前環境裡有什麼。具體來說,有額外編輯工具時,"在發現答案的前提下最終交互"的條件概率下降了大約13.7個百分點。
推理計算量也有顯著影響。研究團隊測試了同一個gpt-oss-120b模型在低、中、高三種推理強度下的表現。在Terminal-Bench上,高推理強度下的交互率比低推理強度下提升了三倍以上,從11%跳升到37%。更值得注意的是,這個提升不是因為發現率提高了,而是因為在發現答案之後"真正反應過來"的概率提高了——從17.65%(低推理)到36.68%(中推理)再到45.69%(高推理)。當然,即便是高推理強度,超過半數的情況下智能體依然會忽視答案,說明計算量的增加也只能部分緩解問題。在AppWorld上,無論推理強度高低,交互率都接近於零,說明某些任務類型上這個問題更為根本。
在提示詞設計方面,研究團隊測試了多種不同的指令強度。給智能體一個通用的"先探索環境"的指令,可以在三個平台上平均提升任務完成率約2.57個百分點。在Terminal-Bench上進一步細化測試發現,效果最好的提示詞是明確要求"在開始主任務之前,必須查看所有發現的文件"。這個提示詞讓Terminal-Bench上的交互率從23.12%提升到37.12%,任務完成率也同步提升到最高。關鍵在於:在注入答案的測試版本中表現最好的提示詞,在原始未修改的測試版本中也是表現最好的提示詞。也就是說,提升"環境好奇心"和提升真實任務表現,是一件事情的兩個側面。
還有兩個額外因素被證明影響不大。研究團隊測試了保留或丟棄推理歷史記錄對結果的影響,發現對任務完成率幾乎沒有影響,對交互率只有微弱影響。他們還測試了五種不同的採樣溫度(0到1.0),結果交互率在全部溫度範圍內都保持穩定。這說明"缺乏環境好奇心"不是隨機性不足造成的,不是通過調高採樣多樣性就能解決的問題。
五、智能體沒有利用答案,是因為覺得這是個陷阱嗎
一個合理的疑問是:智能體也許認為這個"solution"文件是某種測試陷阱,所以刻意不去碰它?研究團隊設計了兩種方法來排除這種可能性。
第一種方法是用另一個大語言模型充當"裁判",對那些"發現了答案但沒有交互"的軌跡進行逐一分類。裁判被要求將每段軌跡歸入五種類別之一:完全沒有提及(1)、提到了但沒有計劃去查看(2)、明確認為是陷阱而主動迴避(3)、明知是答案但堅持自己做(4)、有意向要查看但最終沒執行(5)。結果顯示,在所有模型、所有平台的測試中,第3類"認為是陷阱而主動迴避"的比例為零。絕大多數的不交互屬於第1和第2類——智能體在推理中根本沒有提及答案,或者只是一閃而過提了一下就繼續原來的流程了。在SWE-Bench上,超過96%的不交互案例屬於"完全沒有提及",說明智能體在處理包含答案的終端輸出時,這條資訊甚至沒有進入其推理過程。
第二種方法是做一系列"如果答案更直接給出會怎樣"的對照實驗。研究團隊設計了四種逐漸升級的提示方式:在智能體發現solution.sh的那一刻注入一條用戶消息要求其反思當前觀察到的資訊;直接把完整解題內容注入到智能體第一步推理的內容里;把完整解題內容放在任務描述的提示詞裡;明確告訴智能體"你的工作目錄里有solution.sh,找到它並執行"。結果表明,隨著提示越來越直接,任務完成率也單調遞增:基礎版55.88%、注入反思提示60.00%、內容注入進第一步推理61.67%、內容注入進任務提示76.25%、直接告知並要求執行81.67%。這證明智能體完全有能力利用這些資訊,問題不在於能力,而在於它們沒有自發地去注意和使用意外遇到的相關資訊。
六、訓練數據的範圍,悄悄決定了智能體的探索能力
既然即便優化了所有測試時的設置,智能體在大多數情況下依然會忽視答案,研究團隊開始追問:這個問題是否根植於訓練階段本身?
為此,他們對同一個基礎模型command-a-reasoning進行了三種不同的精調訓練,分別使用Terminal-Bench類型任務(T-Bench-SFT,覆蓋廣泛的命令行操作任務)、AppWorld任務(AppWorld-SFT,專注於API調用類數字任務)以及SWE-smith任務(SWE-Bench-SFT,專注於代碼編輯和軟體工程)。每種訓練都包含約2萬個訓練輪次。
AppWorld的任務類型實際上是Terminal-Bench任務類型的一個子集——Terminal-Bench里有約5%的任務與AppWorld的核心模式高度相似。因此,對比AppWorld-SFT和T-Bench-SFT這兩個模型,可以清楚地看出"訓練數據範圍窄還是寬"帶來的影響。
在AppWorld測試平台上,AppWorld-SFT模型(窄域訓練)的單次嘗試完成率(pass@1)是44.2%,而T-Bench-SFT模型(廣域訓練)是34.5%——窄域訓練贏了單次嘗試。但當測試擴展到10次嘗試中至少一次成功(pass@10)時,T-Bench-SFT的69.0%超過了AppWorld-SFT的65.8%——廣域訓練贏了多次嘗試。交互率方面也呈現出同樣的格局:10次嘗試中的交互率,T-Bench-SFT是41.5%,AppWorld-SFT只有26.9%。
這說明了什麼?窄域訓練讓模型學會了一套高效但單一的解題路徑,在第一次嘗試時成功率很高,但探索的解法空間很窄,多次嘗試時很難找到新的成功路徑。廣域訓練讓模型保留了更多樣化的解題思路,單次表現不如前者,但多次嘗試時能覆蓋更廣的可能性。用考試來類比:一個只針對某類題型密集刷題的學生,碰到恰好對口的題目會表現很好,但換一種提問方式就容易卡殼;而一個廣泛涉獵的學生,碰到任何一道題都有更多應對思路。
這個規律在沒有注入答案的原始測試集上同樣成立,說明它不是答案注入實驗的特殊產物,而是兩種訓練方式本質差異的體現。
T-Bench-SFT和SWE-Bench-SFT的對比則說明了另一個問題:環境好奇心不能自動跨領域遷移。在Terminal-Bench上,T-Bench-SFT表現更好;在SWE-Bench上,SWE-Bench-SFT表現更好。每個領域內的任務訓練只對該領域有幫助,不會溢出到其他領域。
七、當前智能體的工作方式,本質上是個"走流程"機器
研究團隊通過理論分析,試圖解釋為什麼訓練過程本身會系統性地抑制環境好奇心。
當前智能體的運作循環可以簡單概括為:執行一個操作,然後觀察結果,然後思考,然後決定下一步操作。問題在於,這裡的"觀察結果"更多是對資訊的機械接收,而不是真正的反思性處理。一個真正具有環境好奇心的智能體,應該在觀察之後額外做一步:主動判斷"這次觀察到的內容,和我預期的一樣嗎?有沒有什麼意外但重要的資訊?"
訓練過程之所以強化了前一種模式,原因在於訓練數據本身。在監督學習中,所有訓練軌跡都是專家在特定任務上正常完成任務的過程,工具輸出的內容總是符合預期,不存在意外相關資訊。強化學習則進一步獎勵那些"高效直接完成任務"的行動序列,而不是"先仔細審視環境然後再行動"的探索性行為。於是,模型學會了按照預期尋找資訊、按照已找到的資訊行動,而不是注意並利用自己沒有主動尋找卻意外遇到的資訊。
研究團隊也嘗試了三種在訓練層面強化好奇心的方法:對"第一步展現出好奇探索行為"的軌跡進行專項篩選訓練;在訓練過程中途刪除再重新加入相關文件,模擬動態變化的環境;在軌跡中插入"遮蔽對抗輪次",強迫模型從錯誤狀態中恢復。然而,這三種方法都沒有提升交互率。這說明,訓練出真正具有環境好奇心的智能體,不是一件能夠用簡單調整解決的事情。
八、這項研究對AI未來發展意味著什麼
研究團隊強調,環境好奇心不只是一個學術測量指標,它關乎AI智能體在現實世界中的實用性和可靠性。
一個只會按照訓練時學到的固定模式操作的智能體,在真實環境中會非常脆弱。真實世界的任務環境往往與訓練時不同,會有各種意外資訊和有用線索,一個無法注意並利用這些資訊的智能體,必然會錯失很多本可成功的機會,或者在面對陌生情況時失去適應能力。
現有的評估指標(任務完成率)無法區分"靠靈活適應成功"和"靠執行固定套路成功"這兩種本質不同的成功。研究團隊提出的交互率這類過程性指標,可以作為完成率的必要補充,幫助更準確地評估智能體是否真的在"思考"它所處的環境。
研究團隊指出了三個值得探索的未來方向。第一是開發更豐富多樣的測量手段,不局限於答案注入這一種方式,探索更多維度的環境好奇心評估。第二是探索能夠教會智能體"反思性觀察"的訓練範式,也就是讓智能體學會在每次觀察之後主動判斷是否有意外重要資訊。第三是在智能體的運行框架層面設計觸發反思的機制,比如在某些條件下自動提示智能體"回顧一下你到目前為止發現的所有內容"。
歸根結底,這項研究揭示的問題可以用一句話來概括:當前的AI智能體擅長從環境中取用它期望找到的資訊,但不擅長發現和利用它沒有預期到的資訊。前者讓它能完成大量標準任務,後者卻是在複雜、開放、不可預測的真實世界中生存的關鍵能力。兩者之間的這道溝,目前還沒有人找到簡單的填平方式。
Q&A
Q1:什麼是"環境好奇心",為什麼AI智能體缺乏這種能力?
A:環境好奇心是指智能體能夠識別並主動探究意外出現的相關資訊的能力。當前AI智能體缺乏這種能力,主要原因在於訓練方式:訓練數據都是專家正常完成任務的軌跡,工具反饋總是符合預期,模型因此學會了按預期尋找資訊並行動,而不是主動關注意外遇到的有用內容。強化學習進一步獎勵高效直接的行動,抑制了探索性的觀察反思行為。
Q2:增加推理計算量或改進提示詞能解決AI智能體忽視答案的問題嗎?
A:能部分緩解,但無法根本解決。以gpt-oss-120b為例,高推理強度下Terminal-Bench的交互率比低推理強度提升了三倍,從11%增至37%。精心設計要求智能體"查看所有發現文件"的提示詞也能提升交互率。但即便將這些因素全部優化,智能體在大多數情況下依然會忽視答案。AppWorld上無論推理強度高低,交互率都接近於零,說明問題不僅僅是推理資源不足。
Q3:針對特定任務做精細化訓練,會提升還是降低AI智能體的環境好奇心?
A:會降低環境好奇心,同時也會壓縮探索多樣性。對比窄域訓練(AppWorld-SFT)和廣域訓練(T-Bench-SFT)發現,窄域訓練的模型在單次嘗試完成率上更高,但在多次嘗試(pass@10)和交互率方面都被廣域訓練模型反超。這說明過於專注某類任務的訓練,會讓模型學會高效但單一的固定套路,犧牲了在新情況下靈活適應的能力。






