上海科技大學與北京通用人工智慧研究院聯手，讓AI在"答題"時學會另闢蹊徑

這項由上海科技大學資訊科學與技術學院及北京通用人工智慧研究院（BIGAI）聯合開展的研究，以預印本形式於2026年4月27日發布在arXiv平台，論文編號為arXiv:2604.24927。研究提出了一種名為"探索性採樣"（Exploratory Sampling，簡稱ESamp）的新型解碼方法，專門針對大型語言模型在生成多樣化答案時陷入"換湯不換藥"困境這一核心問題。

贊助商廣告

當你讓一位廚師連續做十道不同的菜，結果他每次都換個擺盤方式、卻始終用同一道配方時，你大概會感到失望。當前主流的大型語言模型（也就是ChatGPT這類AI）在被要求給出多個答案時，正面臨著類似的困境——它們可以生成看起來措辭各異的回答，但骨子裡走的幾乎都是同一條解題思路。這個問題在需要大規模"撒網捕魚"式搜索答案的場景下格外致命：如果你同時讓AI生成64個解法，希望其中有一個能押中正確答案，但這64個解法實際上只是同一種思路的64種表達，那多出來的63次嘗試幾乎是白費功夫。

研究團隊把解決這一困境的思路，建立在一個關於人類學習經驗的樸素觀察之上——人在面對陌生領域時往往更容易出錯，而對熟悉的東西則駕輕就熟。ESamp正是藉助這個道理，在AI內部悄悄埋下一個"新鮮感探測器"，讓AI在生成答案時自動往自己還沒走過的思維小路上多走幾步。

一、為什麼AI生成的多個答案總是"撞衫"

在深入了解ESamp之前，有必要先理解這個問題究竟有多普遍、多棘手。

測試時擴展計算（test-time scaling）是近年來提升AI推理能力的熱門策略。它的核心思路非常直觀：與其只讓AI生成一個答案，不如讓它同時生成很多個，再從中挑出最好的那個，就像考試前多做幾套模擬題、總有一套能壓中真題一樣。這套策略確實有效，通過重新排序、自我驗證或多數投票等篩選機制，往往能大幅超越只輸出單一答案的貪心解碼方式。

然而，這種策略的上限，深深依賴於那批候選答案究竟有多"不一樣"。如果AI每次生成的答案雖然用詞不同、句式各異，但核心邏輯和推理路徑都如出一轍——比如遇到數學題都先設同一個未知數、都用同一套代入法——那麼你從64個答案里挑一個，和從1個答案里挑一個，差距其實並不大。更糟糕的是，當AI系統性地犯同一類錯誤時，無論你抽多少個樣本，都無法繞過這個盲點。

贊助商廣告

現有的解決思路大致分兩類。一類是結構化搜索，比如"思維樹"（Tree of Thoughts）方法，讓AI像下棋一樣向前搜索多個分支，明確地探索不同路徑。這種方法效果不錯，但代價高昂——每次生成都需要大量額外計算和等待時間，在實際部署中很不划算。另一類是啟發式採樣約束，比如調高"溫度"參數讓輸出更隨機，或者用Top-p、Min-p等技術限制採樣範圍。這類方法計算開銷小，但它們只是在詞語層面引入隨機性，就像用骰子決定每句話用哪個同義詞，並不能真正改變底層的推理策略。

研究團隊認為，真正有效的多樣性應該發生在語義層面，也就是模型內部的"想法"層面，而不僅僅是表面的文字變化。這正是ESamp試圖解決的核心矛盾。

二、AI的內心世界：藏在深層的"思維地圖"

要理解ESamp的工作原理，需要先了解一點關於大型語言模型內部結構的知識，但不用擔心，這裡只需要掌握一個關鍵直覺。

大型語言模型本質上是一個由許多層"變換器層"疊加而成的深層神經網路。每一層都會對輸入的文字資訊進行一次加工和提煉，就像一道菜在流水線上被反覆加工，每經過一個工序，就變得更接近最終成品。最淺的第一層剛剛開始處理原始文字，得到的是比較粗糙的初步表徵；而經過幾十層變換之後，深層的表徵已經充分融合了上下文語義，包含了豐富的推理資訊，是AI"真正在想什麼"的最直接體現。

研究團隊把深層表徵比作AI大腦里的"語義地圖坐標"。如果兩個不同的答案對應的深層表徵在這張地圖上的位置非常接近，那它們在語義上就是相似的，即便文字表達可能有所不同。反過來，如果兩個答案的深層表徵相距甚遠，說明AI真正走上了不同的思維路徑。

ESamp的核心目標就是：在生成下一批答案時，讓它們落在語義地圖上還沒被探索過的區域。

三、"新鮮感探測器"是怎麼工作的

ESamp的關鍵創新在於引入了一個叫做"潛在蒸餾器"（Latent Distiller，簡稱LD）的輕量級輔助模組。

贊助商廣告

這個蒸餾器的構造非常簡單，就是一個兩層的小型神經網路（MLP），大約只消耗不到200MB的顯存，對於動輒幾十GB的主模型來說幾乎可以忽略不計。它被賦予的任務是：根據AI處理文字之後第一層輸出的"粗糙草稿"，預測經過所有層處理之後最終形成的"精煉成品"。換句話說，蒸餾器試圖用淺層資訊直接猜出深層結論。

在生成開始之時，蒸餾器的參數是隨機初始化的，對任何事情一無所知。隨著AI逐詞生成答案，蒸餾器會持續接受訓練：每生成一個詞，它就拿自己的預測結果與AI深層真實輸出對比，計算預測誤差，然後更新參數向正確方向靠攏。這個過程像是蒸餾器在實時追著AI背後"速記"——AI去過哪些思維區域，蒸餾器就逐漸學會預測那些區域的深層表徵。

於是，一個奇妙的現象出現了。當AI再次走入蒸餾器已經"記熟"的思維區域時，蒸餾器的預測誤差很小，因為這是它見過的老路；但當AI走進一片陌生的思維領地時，蒸餾器就會預測失准，誤差急劇升高。這個預測誤差，正是ESamp用來衡量"當前思路是否足夠新鮮"的核心信號——誤差越大，代表這條路越值得探索。

這個設計直接借鑑了強化學習領域的經典算法RND（隨機網路蒸餾），原本用於讓遊戲AI主動去探索地圖上沒去過的角落。ESamp把同樣的思路搬進了語言生成的過程中，讓AI主動探索自己思維空間裡還沒走過的角落。

四、從"新鮮感"到"生成傾向"：數學原理通俗說

光有"新鮮感信號"還不夠，ESamp還需要把這個信號變成影響每一步詞語選擇的實際力量。這裡涉及一套優雅的數學推導，但其直覺非常好理解。

研究團隊把語言生成的過程建模為一個"馬爾可夫決策過程"，也就是把每一步選詞都視為一個決策，每個決策都會影響後續的所有選詞。他們希望找到一個最優策略，使得生成的內容既儘量探索新穎的語義區域，又不至於和原始AI的生成習慣偏離太遠，保證答案依然連貫可讀。

贊助商廣告

這個目標被寫成一個帶KL散度約束的優化問題——KL散度可以理解為衡量"新策略和原始AI習慣相差多遠"的尺子，而這個優化問題有一個漂亮的解析解：新的詞語分布正比於原始分布乘以一個基於新鮮感獎勵的指數因子。

更妙的是，當研究團隊把蒸餾器的預測誤差具體代入這個公式時，結果在數學上等價於一個非常簡潔的操作：把AI原本的詞語評分（logits）與蒸餾器對應的詞語評分做一個線性組合，具體公式是`新評分 = (1+β) × 原始評分 - β × 蒸餾器評分`，其中β是一個控制探索力度的超參數。

把這個公式分解來看，裡面其實包含兩層語義資訊。第一層是"新鮮感強度"，由蒸餾器預測誤差向量的整體大小決定：如果當前生成的上下文已經高度熟悉，整體誤差很小，探索信號就弱；如果當前上下文非常新穎陌生，整體誤差很大，探索信號就強，AI會被更強烈地推向未知領域。第二層是"語義方向"，由誤差向量與各個候選詞的詞向量之間的餘弦相似度決定：它不是盲目地提升所有陌生詞彙的概率，而是專門提升那些能把生成方向引向新奇語義區域的詞彙的概率。

這兩層設計合在一起，使得ESamp懲罰的是"語義上重複"而非"字面上重複"，這正是它比簡單調高隨機性高明之處。

五、一個班級里的協作探險：批量生成時的神奇協同

ESamp最令人稱道的特性之一，發生在同時生成多個答案的場景中。

當AI被要求一次性生成16個或64個候選答案時，這些答案是並行生成的——就像一個班級的同學同時做同一道題。在普通的採樣方法下，大家雖然各自獨立作答，但因為受到相似的訓練偏好驅動，往往不約而同地走上同一條解題思路，最終交上來的卷子大同小異。

ESamp的巧妙之處在於，所有並行生成的序列共享同一個蒸餾器。這個共享機制創造了一個隱式的協調機制，功能類似於多人探險遊戲裡的"已探索地圖"系統。當第一個序列走進某片語義區域時，蒸餾器快速學習了這片區域的表徵映射，這條路在蒸餾器眼中就變成了"熟悉的老路"。於是，當後續序列也試圖走向同一片區域時，蒸餾器給出低誤差，探索獎勵減弱，新評分公式自然壓低了走這條路的概率——這些序列就被悄悄推開，被迫尋找其他方向。

贊助商廣告

研究人員把這個機制比作"先到先得"的資源分配策略。第一個探索某片語義領地的序列，等於為整個批次"占領"了那塊區域，後來者會自動被引導至尚未被占領的空白地帶。這種協調完全不需要序列之間顯式通信，完全通過共享蒸餾器的參數更新來實現，既高效又優雅。

從實驗數據中可以直觀地看到這種協同效果：在BookCorpus創意寫作數據集上，研究團隊追蹤了並行生成的多個序列在不同生成步驟中的平均兩兩餘弦相似度（這個指標越低代表語義越多樣）。普通採樣方法的曲線在最初迅速下降後很快趨於平緩，多樣化進程停滯；而ESamp的曲線則保持著持續下降的趨勢，直到生成結束，語義分歧不斷加深。

六、悄無聲息的速度代價：異步流水線設計

一個顯而易見的擔憂是：蒸餾器需要實時訓練，難道不會大幅拖慢AI生成速度？

研究團隊對此設計了一套精妙的異步流水線，利用了大模型生成過程中天然存在的"空檔期"。整個方案的核心邏輯可以用一家工廠的流水線來理解。

AI生成每個詞的過程分為幾個階段：首先，嵌入層和第一個變換器層處理當前詞，產出淺層表徵；然後，剩餘幾十個中間變換器層依次處理，這個階段是計算最重的"重活"，需要相對較長的時間；接著，最後一層輸出深層表徵，經過語言模型頭投影到詞彙空間，得到候選詞評分；最後，採樣、去標記化、任務調度等工作主要在CPU上執行，這段時間GPU相對空閒。

ESamp的蒸餾器被安排在兩個"夾縫"時間裡工作。蒸餾器的推理（預測深層表徵）在第一層輸出後立即啟動，與中間那幾十層的繁重計算同步進行；蒸餾器的訓練（反向傳播更新參數）則被安排在CPU處理採樣任務的空閒期里進行。兩個任務都不占用主流程的關鍵路徑時間，就像一個員工在等電梯的時候順手回了郵件一樣。

通過CUDA流事件同步（類似精確的計時信號）、預分配GPU顯存環形緩衝區（避免臨時申請內存的延遲）以及對批次中前綴處理和解碼處理分別激活的輕量級元數據檢查，這套異步系統在標準Llama-3-8B模型上，蒸餾器的整個計算只需不到0.5毫秒，而中間變換器層的執行時間約為15-20毫秒，餘量非常充裕。

贊助商廣告

在開源版本中，研究團隊還進一步將蒸餾器的前向預測路徑用Triton語言重寫為專用GPU核心，僅對篩選後的候選詞應用干預（而非對全詞彙表投影），並加入CUDA圖捕獲以減少重複的核心啟動開銷，最終在RTX 4090 GPU上，ESamp的實際吞吐量僅比基礎vLLM慢約1.2%，完全在可接受範圍內。在多用戶高並發場景下（32個請求批次、每請求16個樣本），開銷也僅上升至約4.25%。

七、實驗驗證：數學競賽、科學問答、編程挑戰、創意寫作

研究團隊在四個截然不同的領域對ESamp進行了大規模驗證，力求證明這不是一個只在特定場景下奏效的"偏科生"方案。

在數學領域，他們選擇了AIME 2024和AIME 2025——美國邀請數學考試，這是面向頂尖高中生的高難度數學競賽，需要複雜的多步驟邏輯推導。在科學領域，他們使用了GPQA-Diamond，包含198道由博士級專家雙重驗證的生物、物理、化學選擇題，連大多數非專業人士都會答錯。在編程領域，他們採用LiveCodeBench v5，包含167道來自LeetCode、AtCoder、Codeforces競賽平台的編程題，且這些題目都是在主流AI訓練數據截止時間之後發布的，儘可能排除了AI"背題"的可能。在創意寫作領域，他們使用BookCorpus書籍語料庫，給AI提供一段故事文字的前半部分，讓它續寫後512個詞。

評估指標的設計也經過深思熟慮。Pass@k是核心指標，表示在k個生成樣本中至少有一個正確答案的概率，直接衡量候選集的有效覆蓋度。語義相似度用生成文本的嵌入向量兩兩餘弦相似度計算，越低說明語義越分散。Vendi分數是一個基於矩陣譜的多樣性指標，刻畫批次內有效的語義聚類數量，越高代表越多樣（但在數學題場景中，由於正確答案只有一個，更分散的答案里也會包含更多錯誤方向，所以Vendi高不一定好）。困惑度（PPL）用于衡量生成文本的語言流暢度，越低表示語言越自然。

對比的基線方法涵蓋了當前主流的所有類別：普通溫度採樣（最基礎的隨機方法）、Min-p採樣（一種自適應截斷概率的啟發式方法）、FIRE方法（首個詞用高溫度、後續詞用低溫度的組合策略）、思維樹（Tree of Thoughts，代表結構化搜索方法）、對比解碼（Contrastive Decoding，用大小模型logit差值引導生成的邏輯層干預方法），以及OverRIDE（在詞彙空間中在線訓練輔助頭以抑制重複詞彙的測試時干預方法）。

贊助商廣告

被測試的模型橫跨多個系列和規格：Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct（通用指令跟隨模型）、Qwen3-8B（通用推理模型，配置為"不思考"模式以防止過長的推理鏈耗盡上下文窗口），以及GPT-OSS-20B（OpenAI開源的另一模型系列，配置為"低思考強度"模式）。

Pass@k曲線的整體趨勢令人印象深刻。很多專門為多樣性設計的方法在k值較小時表現不錯，但隨著k增大，普通的溫度採樣反而後來居上——這說明它們的探索策略缺乏持續性，只是短期有效。ESamp則在各模型、各任務上普遍展現出與最強方法持平或超越的表現，尤其在k值較大時優勢更加穩固。

以GPT-OSS-20B在AIME數學競賽上的結果為例，ESamp僅用8個樣本就達到了其他基線方法需要64個樣本才能達到的Pass@k水平，效率提升極為顯著。在推理能力更強的模型上，ESamp的效果往往更加突出——研究團隊推測，這是因為推理模型本身具有自我反思和修正的能力，更能利用ESamp提供的多樣化語義方向生成真正不同的解題路徑。

ESamp在數學任務（AIME24/25）上的增益通常高於問答（GPQA）和編程（LiveCodeBench），研究團隊認為這與數學題開放式的解題空間有關：數學問題往往存在多種有效的解法路徑，給語義探索留下了更大的發揮餘地。

在創意寫作任務中，ESamp展現出了一個其他方法普遍無法兼顧的特質：它同時達到了最高Vendi多樣性分數、最低語義相似度，以及最低困惑度（也就是最佳語言流暢度）。這意味著ESamp真正打破了"多樣性和連貫性之間的取捨"——其他方法提高隨機性往往以犧牲文本質量為代價，而ESamp的探索更具方向性，生成的文本既新穎又自然。

在單樣本準確率（Pass@1）方面，ESamp與基準方法基本持平，在多數情況下沒有顯著的準確率損失，甚至在GPT-OSS-20B的多個任務上還有所提升（例如AIME24的Pass@1從57.2提升至62.7，LiveCodeBench v5從43.4提升至51.8）。僅在少數情況（如Qwen2.5-7B在AIME25）出現輕微下滑，這與ESamp側重於提升候選集覆蓋度而非單次命中率的設計目標是一致的。

贊助商廣告

八、拆解實驗：哪些設計真正有效

研究團隊通過一系列嚴謹的消融實驗，驗證了ESamp各個組件的必要性。

首先是超參數β的敏感性測試。在Qwen2.5-7B上的AIME25實驗中，β=0.1（探索力度弱）會使方法退化為接近普通採樣，Pass@64為40.0%；β=0.25（默認值）效果最佳，Pass@64達46.7%；β=0.5（探索力度過強）反而適得其反，Pass@64降至30.0%，原因是過度懲罰了高置信度的詞彙，導致生成內容質量下滑。更進一步，在Qwen3系列從4B到14B的不同規模模型上，β=0.25均表現穩定，無需針對模型規模重新調參。

其次是logit融合公式的對比。ESamp採用的`(1+β) × logitref - β × logitdist`公式，與簡單的`logitref - β × logitdist`相比表現更優。原因在於前者在對角線上"放大"了原始分布的相對強度，更好地保留了基礎模型的概率質量分布，防止探索信號完全壓制模型原有的生成偏好。

第三個關鍵實驗是"噪聲消融"：研究團隊把蒸餾器的真實誤差向量替換為同等大小的隨機高斯噪聲，結果Pass@k幾乎退化回普通採樣水平。這有力地證明ESamp的增益不是來自隨機擾動，而是來自誤差向量中攜帶的結構化語義資訊——那個向量準確編碼了當前表徵空間中"蒸餾器尚未學會預測的那部分資訊"，指向了真正陌生的語義方向。

第四個實驗是"表徵空間 vs 詞彙空間"的對比。研究團隊構建了一個在詞彙空間操作的蒸餾器變體——用同樣的MLP結構，但通過凍結的語言模型頭投影到詞彙空間，用KL散度作為訓練目標。結果這個變體不僅不穩定，性能還大幅低於潛在空間的ESamp，在AIME25的Pass@64上從63.9暴跌至43.3。這印證了在連續低維表徵空間中估計新鮮度遠比在離散高維詞彙空間中穩定可靠。

第五個實驗比較了共享蒸餾器與每個提示詞獨立維護一個蒸餾器的方案。在AIME數學題上，由於不同題目的推理結構差異很大，獨立蒸餾器（每題一個）明顯優於共享蒸餾器；但在LiveCodeBench編程題上，共享蒸餾器反而略好，可能因為更大的有效批次提供了更強的在線學習信號。研究團隊指出，根據任務特性自適應切換共享策略是未來值得探索的方向。

贊助商廣告

第六個實驗驗證了ESamp與其他方法的可組合性。將ESamp與FIRE（特殊溫度調度方法）組合使用，Qwen3-8B在AIME24的Pass@64從ESamp單獨的80.0和FIRE單獨的73.6進一步提升到83.3，說明兩者各自作用在不同層面，可以疊加增益。將ESamp與自一致性（Self-Consistency，基於多數投票聚合答案）結合使用，在Maj@32上從53.7微升至54.5，改善幅度較小但方向一致，因為ESamp鼓勵發散而多數投票鼓勵收斂，兩者目標存在天然張力。

九、一場AI寫故事的品味測試

為了檢驗ESamp在創意寫作上的多樣性增益是否僅僅是數字上的把戲，研究團隊還做了一場單盲的"AI評委"實驗：用Gemini 3 Flash Preview充當裁判，在不知道哪組答案來自哪種方法的情況下，對2000個BookCorpus提示詞下的16個並行生成結果進行多樣性和質量排名（排名越低越好）。

結果顯示，ESamp獲得最佳多樣性排名（1.63分，低於Vanilla的1.97和OverRIDE的2.40），同時質量排名保持在接近Vanilla的水平（1.97 vs 1.83），遠優於OverRIDE的2.20。這驗證了定量指標不是虛假信號——ESamp確實產出了被獨立評判者認為更有意義的多樣化內容。

研究團隊還提供了一個具體的案例對比，同樣面對一道關於9公里徒步和咖啡館停留時間的數學題。ESamp生成的16個答案展現出豐富的解題個性：有些用標準代數消元法先解速度、有些以咖啡館時間t為主變量建立更複雜的二次方程、有些模擬人類直覺採用"猜測+驗證"的試錯策略，還有些在分鐘和小時之間來回切換單位處理方式，甚至有一個序列出現了自我糾錯的過程（遇到負判別式後轉換思路）。相比之下，普通採樣生成的16個答案幾乎全部遵循同一套流程：將2小時24分鐘轉為2.4小時，建立同一個二次方程，以完全相同的順序求解。多樣性評分分別為9.5/10和3.0/10。

說到底，ESamp這項研究想要解決的，是一個在AI能力快速膨脹時代里容易被忽視的細節問題：當我們讓AI多想幾遍的時候，它到底是真的在用不同的腦子想，還是只是在反覆默念同一道咒語？

贊助商廣告

研究團隊給出了一個令人信服的答案：通過在AI自己的內部表徵空間裡安裝一個實時的"新鮮感探測器"，用極低的性能開銷，就能讓並行生成的多個答案真正走向不同的語義領地，而不只是換著說法重複同一種思路。這不是一個需要大規模改造訓練流程、重新訓練模型的重量級方案，而是一個在推理階段即插即用的解碼策略，對任何已經訓練好的大型語言模型都可以直接適用。

對於普通用戶來說，這意味著未來在使用需要複雜推理的AI工具時（無論是解數學題、寫代碼還是進行科學分析），同樣數量的"多次嘗試"能夠換來質量更高的候選集，找到正確答案的概率更大，而不需要付出更多的時間或計算成本。從更宏觀的視角看，ESamp為構建更高效的AI測試時擴展系統提供了一個可行的工具，而測試時擴展被許多研究者視為大型語言模型能力天花板的重要突破口之一。

有興趣深入了解完整技術細節的讀者，可以通過arXiv編號2604.24927找到這篇論文的全文，開源代碼也已在GitHub的LinesHogan/tLLM倉庫中公開發布。

Q&A

Q1：ESamp（探索性採樣）和普通調高AI溫度參數有什麼根本區別？

A：普通的溫度調高只是在詞語層面引入更多隨機性，就像用骰子隨機選詞，換的是表面措辭。ESamp則通過監測AI深層神經網路內部的"語義表徵"來識別思路是否真正新穎，它懲罰的是"語義上重複"而非"字面上重複"。因此ESamp能引導AI走向真正不同的推理路徑，而不僅僅是同一思路的不同表達。

Q2：ESamp的蒸餾器在線訓練會不會讓AI生成速度變慢很多？

A：實測影響非常小。研究團隊採用了異步流水線設計，把蒸餾器的推理和訓練都安排在主模型運算的"空檔期"進行，蒸餾器整個計算不到0.5毫秒，而中間層的運算約需15-20毫秒，餘量充裕。開源版本在RTX 4090上測得的吞吐量僅比標準vLLM慢約1.2%，即使在32個請求、每請求16個並行樣本的高負載場景，開銷也只有約4.25%。

贊助商廣告

Q3：探索性採樣方法對哪類AI任務效果最明顯？

A：從實驗結果看，ESamp對數學推理類任務（如AIME競賽題）的提升幅度最大，對推理能力強的模型（如GPT-OSS-20B和Qwen3系列）增益也更顯著。研究團隊認為這是因為開放式數學問題存在多種有效解法，給語義探索留下了更大空間。代碼生成和多選科學問答的提升相對小一些，但創意寫作任務中ESamp實現了同類方法罕見的"多樣性和流暢度同時提升"。