AI說話說多少字才算夠？加州大學聖塔芭芭拉分校的研究者找到了一個精妙答案

這項由加州大學聖塔芭芭拉分校主導、聯合卡內基梅隆大學、威斯康星大學麥迪遜分校、LMSYS組織及蘋果公司共同完成的研究，於2026年4月29日發布在預印本平台arXiv，論文編號為arXiv:2604.27039。感興趣的讀者可通過該編號查找原文。

贊助商廣告

每當你和AI助手聊天，讓它幫你寫一篇文章、解一道數學題，或者回答一個複雜問題，你有沒有想過：AI到底是怎麼決定說多少話的？有時候它滔滔不絕寫了好幾千字，有時候又簡短得令人困惑。這不僅僅是個用戶體驗問題——AI說的每一個字，背後都在消耗真實的計算資源、電力和時間。對於每天處理數十億次對話的AI系統來說，這是一筆不可忽視的賬單。

更關鍵的是，AI生成的字數和它回答的質量之間存在一種微妙的平衡。有時候多說幾句確實能幫AI想清楚問題，就像人類在解數學題時會在草稿紙上多寫幾步。但有時候AI只是在"廢話"，繞了一大圈才說到點子上。現有的AI系統對這件事的掌控相當粗糙——要麼靠人工在訓練時加上"別說太長"的懲罰規則，要麼靠在對話開頭加一句"請用不超過200字回答"來強制限制。這兩種方式都像是用錘子做精細手術，缺乏真正的靈活性。

這支研究團隊提出了一個全新的思路：能不能訓練一個專門負責"感知剩餘發言長度"的小模組，讓它在AI說話的每一步都實時告訴主模型"你還剩多少話要說"？這個模組被稱為**長度價值模型**（Length Value Model，簡稱LenVM）。

一、AI說話，像一場需要精確感知終點距離的長跑

要理解LenVM的核心思想，可以把AI生成文本的過程想像成一場長跑比賽。選手（AI）每跨出一步，就生成一個詞（在AI領域叫做"token"，可以理解為一個詞或一個字）。整場比賽的終點在哪裡？不確定——有時候跑500步就夠了，有時候需要跑3萬步。

現有的方法就像是給選手一個簡單的口令："大概跑這麼長就行了"，然後完全靠選手自己感覺。而LenVM的作用，是給選手配備一塊精密的GPS手錶，讓他在每一步都能準確感知"我離終點還有多遠"。

贊助商廣告

具體來說，LenVM是一個附加在主AI模型上的輕量級小模組。主模型（比如Qwen2.5這樣的大語言模型，或者還能理解圖片的視覺語言模型）負責正常生成內容，而LenVM則在每一步生成結束後，看一眼當前的內部狀態，輸出一個介於-1和0之間的數字。這個數字就是"剩餘距離感知值"：當AI剛剛開始說話時，這個值接近-1，意味著"前面還有很長的路"；當AI快要說完時，這個值接近0，意味著"終點就在眼前"。

為什麼要用這樣一個奇特的數字範圍，而不是直接告訴AI"你還剩200個詞"呢？這裡有個很有趣的設計邏輯。AI生成的內容長度變化極大，短則幾個詞，長則數萬詞。如果直接用"剩餘詞數"來表示，這個數字的範圍太寬泛，訓練起來非常困難——就像你讓一個量程只到100厘米的尺子去測量從上海到北京的距離，根本不適用。

研究團隊把這個問題轉化成了一個經濟學中經典的"折扣回報"框架。核心思想是：AI每說一個詞，就相當於付出了一小筆"代價"，而LenVM預測的，是從當前這一步到最後一步所有代價的折扣累加值。由於使用了數學上的折扣處理（把未來的代價逐步打折），最終的預測值被壓縮到了一個穩定的區間（-1到0之間），無論實際內容是長是短，都能平穩地表示出來。

這個設計還有一個數學上的優雅之處：它滿足所謂的"貝爾曼遞推關係"，簡單說就是"當前狀態的價值 = 立即代價 + 下一步狀態價值的折扣版"。這讓LenVM天然地和強化學習（一種讓AI通過試錯來學習的技術）兼容，為將來更複雜的應用打下了基礎。

二、不需要人工標註、自動生成訓練數據的秘訣

訓練一個AI模型通常需要大量人工標註的數據，這既昂貴又耗時。LenVM的一個重要特點是：它完全不需要人工標註。

道理其實很簡單。研究團隊讓主AI模型針對同一個問題生成多個不同的回答（在訓練時，他們為每個問題最多生成16個不同版本的回答）。每個回答的長度是確定的，比如第一個回答說了350個詞，第二個說了180個詞。有了這個長度資訊，就能直接用數學公式計算出每一步對應的"剩餘距離感知值"——完全是機械化的計算，不需要任何人工判斷。

贊助商廣告

這個設計帶來了三個顯著優勢。第一，訓練信號極其豐富——一個長度為300詞的回答，就能提供300個訓練數據點（每一步都是一個），而不是像傳統方法那樣一個回答只貢獻一個標籤。第二，這個信號是客觀無偏的——長度就是長度，數一數就知道，沒有人類標註者的主觀誤差。第三，擴展極其方便——想要更多訓練數據？只需讓模型多生成幾個回答版本就行，成本極低。

研究團隊在三類數據上訓練了LenVM：來自編程領域的OpenCodeReasoning-2數據集（約142萬條Python代碼生成數據）、來自日常對話的WildChat數據集（約52.9萬條），以及來自數學推理的DeepMath-103K數據集（約10.3萬條）。覆蓋這三個領域，是為了讓LenVM能夠在不同類型的任務中都有效工作，而不是只在某一個特定領域表現好。

在模型架構上，LenVM的設計相當輕量。它只是在主模型最後一層的隱藏狀態上，添加了一個兩層的小型神經網路（稱為"價值頭"），最後再套一個sigmoid函數（這個函數能把任意數字壓縮到0到1之間），並取負值，確保輸出落在-1到0之間。整個附加部分的參數量和主模型相比微乎其微，就像給一輛大卡車裝了一塊小儀錶盤。

三、讓AI精確執行"說夠這麼多字"的指令

有了LenVM這塊"GPS手錶"，研究團隊開展了一系列實驗，驗證它在實際應用中的效果。

第一個應用場景是長度控制——讓AI嚴格按照用戶要求的長度生成內容。研究團隊在一個叫做LIFEBench的專業測試集上進行了評估。LIFEBench包含360個任務，涵蓋問答、文章摘要、推理和創意寫作，目標長度從32個詞到1024個詞不等，有三種約束類型：精確等於某個長度、不超過某個長度、不少於某個長度。

控制方法的原理是這樣的：當AI每一步準備選下一個詞時，不再完全按照自己的"本能"選最有可能的詞，而是先用LenVM評估候選詞生成後的"剩餘距離感知值"，然後根據當前的控制目標來選詞。對於"精確等於目標長度"的任務，就選那個讓預測值最接近目標值的詞；對於"不超過目標長度"，就偏向選那些預測值接近0（意味著快結束了）的詞；對於"不少於目標長度"，就偏向選那些預測值接近-1（意味著還有很長路）的詞。

贊助商廣告

結果頗為令人印象深刻。在配備了僅1.5B參數（15億參數，屬於相對較小的規模）的LenVM後，Qwen2.5-7B（70億參數的主模型）在"精確等於目標長度"任務上的長度得分從30.9跳升到了64.8，長度偏差從71%降低到了44%。作為對比，研究團隊還測試了多個頂級的閉源商業AI模型，包括GPT-4o、GPT-5.4、Claude系列和Gemini系列。這些模型只能靠在對話開頭加文字指令來控制長度，結果偏差普遍在66%到135%之間，長度得分沒有一個超過54。

一個70億參數的開源模型，加上一個更小的LenVM輔助模組，在精確長度控制上超越了當時市面上最強的商業閉源AI系統——這個對比結果很能說明問題。核心原因在於，大型商業模型依賴的是語言指令，而語言本身對長度的表達是模糊的；LenVM則提供了一個在每一步決策中都直接起作用的數值信號，精度完全不在同一個量級。

四、在"說得好"和"說得短"之間找到平衡點

第二個應用場景更加微妙，也更貼近現實中的需求：如何在保證回答質量的同時，儘可能減少AI生成的詞數？

在AI系統中，這兩個目標天然存在矛盾。解數學題時，多寫幾步推導過程往往能幫AI得出正確答案；但如果每道題都寫兩千詞，推理成本就會高得難以承受。理想的狀態是：簡單題就簡短作答，難題才展開詳細推導。

研究團隊提出了一種叫做"指數傾斜"的解碼方法。這個名字聽起來很技術，但原理其實可以用一個直觀的比喻來理解。AI在每一步選詞時，本來是按照一個概率分布來隨機選擇的——高概率的詞更容易被選到，低概率的詞偶爾也會出現。LenVM的作用是對這個概率分布進行調整：把那些"會導致後續生成更長"的詞的概率壓低，把"會導致後續更快結束"的詞的概率提高。調整的力度由一個參數β來控制。當β等於0時，不做任何調整；β越負，就越強烈地偏向生成短回答。

這個方法的關鍵優勢在於：它不修改主模型，也不截斷生成過程，只是悄悄地影響每一步的詞選擇。主模型完全保持原樣，就像一位廚師的本能技藝沒有被改變，只是有人在旁邊輕聲提醒他"客人不太餓，可以少做一點"。

贊助商廣告

在GSM8K（一個數學應用題測試集）上的實驗結果非常直觀。當給AI設定一個硬性限制"最多只能生成200個詞，超過就算錯"時，用Qwen2.5-3B模型的正確率會暴跌到只有6%——因為大多數數學題靠200個詞根本解不完整。而用LenVM的指數傾斜方法，在同樣平均生成200個詞的條件下，正確率維持在63%。差距如此懸殊，說明LenVM找到了一條在有限篇幅內仍然能正確解題的路徑，而不是硬生生地截斷答案。

研究團隊還在更難的MATH500數據集（500道競賽級數學題）和MathVista數據集（需要理解圖片才能解答的數學題，用的是視覺語言模型Qwen2.5-VL）上進行了同樣的測試，結果一致顯示LenVM的方法在相同平均長度下維持了更高的準確率。通過連續調整β值，可以得到一條平滑的"性能-效率權衡曲線"：β等於0時是原始模型的表現（質量最好但最長），β越負質量會逐漸小幅下降但長度大幅縮短。這條曲線讓用戶可以根據實際需求靈活選擇工作點，而不是只能做非此即彼的選擇。

五、在AI開口之前就預測它會說多少

第三個應用場景是：在AI還沒開始生成任何內容之前，僅憑問題本身，預測AI最終會生成多長的回答。

這個能力看起來不起眼，但在實際的AI服務系統中極為重要。當很多用戶同時提問時，AI伺服器需要合理分配計算資源。如果能提前知道某些問題的回答會很長（比如"幫我寫一篇論文"），某些會很短（比如"今天幾號"），就能更合理地安排處理順序和內存分配，提高整體服務效率。

LenVM的"剩餘距離感知值"不僅能在生成過程中使用，也可以在生成開始之前就使用——此時模型看到的只是問題，沒有任何已生成的回答，但LenVM仍然能基於問題的內容給出一個預測值。把這個預測值通過數學變換轉換回"預期長度"，就得到了長度預測結果。

研究團隊在數學、代碼和日常對話三個領域的測試集上評估了這個能力，使用的指標是"平均相對誤差"（預測長度和真實長度相差多少百分比）。結果顯示，隨著LenVM模型規模的增大，預測精度持續提高：在最小的1.5B規模時，數學領域的誤差是17%；到了32B規模時，誤差降低到了9.8%。代碼領域和日常對話領域的誤差相對略高，但隨著規模增大同樣保持了持續改善的趨勢。

贊助商廣告

這個結果也間接證明了一件事：LenVM確實在學習問題本身的語義資訊，而不只是在背誦"數學題通常是X長、對話通常是Y長"這樣的統計規律。畢竟，同樣是數學題，一道簡單的加減法和一道需要多步證明的競賽題，預期長度會相差幾十倍。只有真正理解了問題的內容，才能做出有意義的長度預測。

六、越練越強：LenVM的規模擴展規律

在AI領域，有一個反覆被驗證的規律：更大的模型、更多的訓練數據，往往帶來更好的性能。研究團隊專門研究了LenVM是否也符合這個規律。

他們沿著三個維度進行了系統性測試。第一個維度是模型規模，從0.5B一路測到32B，覆蓋了六個不同大小的模型；第二個維度是訓練問題的數量，測試了1萬、3萬、10萬三個不同規模；第三個維度是每個問題生成的回答數量，測試了1、2、4、16四種不同數量。

結果表明，這三個維度上的擴展都帶來了持續的改善——測試損失值（一個衡量預測準確度的指標，越低越好）隨著任何一個維度的增大而穩定下降，沒有出現"到某個規模之後就不再改善"的平台期跡象。這意味著LenVM的訓練目標本身具有良好的可擴展性：你投入更多資源，就能得到更好的效果，而且這條路在目前測試的範圍內仍然暢通。

對於希望在實際系統中部署LenVM的工程師來說，這個結果意味著可以根據實際需求靈活調整投入——如果對精度要求不高，用小模型就夠；如果需要極高精度，可以投入更大規模的模型和更多訓練數據，且有信心這些投入會帶來可預期的回報。

七、AI文字里的"節奏密碼"：哪些詞讓AI越說越長，哪些詞讓它戛然而止

研究團隊還做了一個頗具趣味性的分析，利用LenVM揭示了AI生成過程中的一種隱藏規律。

具體做法是這樣的：在AI生成每個詞之後，觀察LenVM的預測值發生了多大的變化。如果某個詞出現後，LenVM預測的剩餘長度明顯增加，說明這個詞"開啟"了更長的生成路徑；反之，如果某個詞出現後剩餘長度預測值明顯減少，說明這個詞是一種"收尾信號"。他們把前者叫做"正長度詞"，後者叫做"負長度詞"。

贊助商廣告

在Qwen3-30B模型的數學推理回答中，研究團隊統計了哪些詞最頻繁地成為正長度詞。結果發現，這類詞大多是推理過程中的"轉折詞"或"重新思考詞"，比如"but"（但是）、"wait"（等等）、"now"（現在）、"think"（想想）、"let"（讓我...）、"try"（嘗試）、"consider"（考慮）、"ah"（啊！）等。這些詞在AI的推理過程中往往出現在"發現前面說錯了需要重來"或者"想到了一個新的思路"的時刻，它們的出現會觸發更長的後續推導。特別有趣的是"ah"這個詞，它經常出現在"Ah! I see the mistake"（啊！我發現錯了）或"Ah! Here's an idea"（啊！我想到了個辦法）這樣的語境中，類似於人類頓悟時的"恍然大悟"，而這種頓悟往往意味著接下來要展開一段新的推導。

相比之下，負長度詞（會觸發更快結束的詞）則大多是總結性和確認性表達，比如"therefore"（因此）、"clearly"（顯然）、"perfect"（完美）、雙換行符（通常表示段落結束或答案已給出），以及一些表示慶祝完成的表情符號，比如打勾符號和撒彩紙的表情。這些詞往往出現在AI正在得出最終答案、確認計算結果或者表達"問題已經解決了"的場合。

這個發現不僅有趣，還有實際價值。通過觀察這些詞，可以更直觀地理解AI推理過程中的節奏：什麼時候AI在深入挖掘，什麼時候AI已經打算收尾。這種可解釋性在AI系統的調試和優化中可能非常有用。

八、精心設計背後的考量：為什麼是折扣回報，而不是其他方式

研究團隊還專門做了一系列對比實驗，測試了不同設計選擇對LenVM效果的影響。

在"用什麼來表示剩餘長度"這個問題上，研究團隊比較了四種方案。直接用剩餘詞數（原始長度）效果最差，因為這個數字的範圍太大、分布太不均勻；用"將長度除以最大長度"的歸一化長度也不行，因為大多數回答都屬於"短回答"，歸一化後大量數據被壓縮到接近0的區間，模型很難區分；用對數長度（取對數）作為目標有所改善，但仍然比不上折扣回報方案。折扣回報在所有位置上都表現出了最低的平均絕對長度誤差，勝出的核心原因在於它的設計和AI逐步生成文本的過程完美契合——每一步的目標值都和下一步的目標值之間有精確的數學關係，這讓訓練信號在整個生成過程中保持連貫一致。

贊助商廣告

在訓練數據的組織方式上，研究團隊比較了"打亂順序"和"按問題分組"兩種策略。結果發現，將所有訓練樣本完全打亂效果更好，而不是把同一個問題的多個回答放在一批次里訓練。這和訓練獎勵模型（需要比較同一問題的多個回答）的習慣做法正好相反，說明LenVM的訓練本質上是一個獨立的回歸任務，不需要在同一批次內做跨樣本的比較。

在折扣因子γ（控制"未來的代價打幾折"）的選擇上，實驗顯示較大的γ（比如0.999）在生成過程的早期階段預測更准，而較小的γ（比如0.99）在接近結束時預測更准。研究團隊採用了一個實用的設定原則：讓99%的真實回答長度都落在LenVM的"高精度區間"內，具體數值根據不同模型有所調整（Qwen2.5系列用0.997，Qwen3系列用0.9998，後者因為可能生成更長的推理過程而需要更大的γ值）。

在數值精度上，測試顯示fp16、bf16和fp32三種常用浮點格式下，LenVM的訓練和預測效果幾乎沒有差異，說明該方法在工程上是穩健的，不會因為精度選擇而產生意外的性能問題。

從整個研究來看，LenVM的貢獻在於把一個長期依靠粗糙手段處理的問題——AI生成多少字——變成了一個有理論支撐、可精確控制、可規模化訓練的工程問題。這種從"靠感覺"到"有精密儀表"的轉變，本身就代表了AI系統工程向更精細化方向邁進的一步。

當然，研究團隊也坦承，LenVM在實際使用時需要額外的計算開銷——每生成一個詞，都要額外跑一次LenVM的前向計算。在對延遲非常敏感的場景中，這個開銷需要仔細權衡。此外，論文中尚未展示將LenVM用於強化學習訓練（讓AI通過試錯來優化行為）的實際效果，這部分被列為了未來的研究方向。

說到底，這項研究回答的是一個看起來普通、實際上頗有深度的問題：AI知道什麼時候該停下來嗎？答案是：在裝上LenVM之前，它的感知相當模糊；裝上之後，它能在每一步都清楚地感知自己離終點還有多遠，並據此做出更精準的決策。這不僅讓AI能夠更好地遵從用戶的長度要求，也讓它能在有限的詞數內更聰明地分配"說話的節奏"。

贊助商廣告

對於普通用戶來說，這項研究背後的意義可能在於：未來的AI助手或許能更好地理解"簡短回答"和"詳細解釋"之間的區別，而不是一刀切地要麼說太多、要麼說太少。對於構建AI系統的工程師來說，LenVM提供了一種低成本、無需人工標註、可隨規模自動改善的新型控制信號，在計算資源管理和服務質量之間架起了一座更精準的橋樑。

有興趣深入了解技術細節的讀者，可以通過arXiv編號2604.27039查閱完整論文，代碼也已經開源在GitHub項目頁面上。

---

Q&A

Q1：長度價值模型（LenVM）需要重新訓練原來的大語言模型嗎？

A：不需要。LenVM是一個附加在原有大語言模型上的獨立小模組，只在原模型最後一層的輸出上加了一個輕量級的兩層神經網路。原有的大語言模型參數完全不變，LenVM只負責預測當前狀態下剩餘的生成長度，然後在生成每個詞時提供參考信號，整個過程對主模型是透明的。

Q2：LenVM的訓練數據從哪裡來，要不要人工標註？

A：完全不需要人工標註。訓練數據是通過讓模型自動生成多個回答版本來產生的。對於每個訓練問題，讓模型生成若干個完整回答，每個回答的實際長度可以直接通過計數獲得，然後用數學公式把這個長度轉換成對應的折扣回報值作為訓練目標，整個過程全自動完成，不需要任何人工判斷或標註。

Q3：LenVM在精確長度控制上為什麼比GPT-5.4、Claude這些大模型效果好？

A：核心差距在於控制信號的粒度不同。大型商業模型只能靠對話開頭的文字指令（比如"請用500字回答"）來感知長度要求，但自然語言對長度的表達本身就是模糊的，模型也沒有在每一步生成時主動檢查自己是否偏離了目標。LenVM則在每生成一個詞後都重新評估當前狀態離目標長度有多遠，並據此調整下一個詞的選擇，這種逐步糾偏的機制比一次性的文字指令精準得多。