宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

AI說話說多少字才算夠?加州大學聖塔芭芭拉分校的研究者找到了一個精妙答案

2026年05月01日 首頁 » 熱門科技

這項由加州大學聖塔芭芭拉分校主導、聯合卡內基梅隆大學、威斯康星大學麥迪遜分校、LMSYS組織及蘋果公司共同完成的研究,於2026年4月29日發布在預印本平台arXiv,論文編號為arXiv:2604.27039。感興趣的讀者可通過該編號查找原文。

每當你和AI助手聊天,讓它幫你寫一篇文章、解一道數學題,或者回答一個複雜問題,你有沒有想過:AI到底是怎麼決定說多少話的?有時候它滔滔不絕寫了好幾千字,有時候又簡短得令人困惑。這不僅僅是個用戶體驗問題——AI說的每一個字,背後都在消耗真實的計算資源、電力和時間。對於每天處理數十億次對話的AI系統來說,這是一筆不可忽視的賬單。

更關鍵的是,AI生成的字數和它回答的質量之間存在一種微妙的平衡。有時候多說幾句確實能幫AI想清楚問題,就像人類在解數學題時會在草稿紙上多寫幾步。但有時候AI只是在"廢話",繞了一大圈才說到點子上。現有的AI系統對這件事的掌控相當粗糙——要麼靠人工在訓練時加上"別說太長"的懲罰規則,要麼靠在對話開頭加一句"請用不超過200字回答"來強制限制。這兩種方式都像是用錘子做精細手術,缺乏真正的靈活性。

這支研究團隊提出了一個全新的思路:能不能訓練一個專門負責"感知剩餘發言長度"的小模組,讓它在AI說話的每一步都實時告訴主模型"你還剩多少話要說"?這個模組被稱為**長度價值模型**(Length Value Model,簡稱LenVM)。

一、AI說話,像一場需要精確感知終點距離的長跑

要理解LenVM的核心思想,可以把AI生成文本的過程想像成一場長跑比賽。選手(AI)每跨出一步,就生成一個詞(在AI領域叫做"token",可以理解為一個詞或一個字)。整場比賽的終點在哪裡?不確定——有時候跑500步就夠了,有時候需要跑3萬步。

現有的方法就像是給選手一個簡單的口令:"大概跑這麼長就行了",然後完全靠選手自己感覺。而LenVM的作用,是給選手配備一塊精密的GPS手錶,讓他在每一步都能準確感知"我離終點還有多遠"。

具體來說,LenVM是一個附加在主AI模型上的輕量級小模組。主模型(比如Qwen2.5這樣的大語言模型,或者還能理解圖片的視覺語言模型)負責正常生成內容,而LenVM則在每一步生成結束後,看一眼當前的內部狀態,輸出一個介於-1和0之間的數字。這個數字就是"剩餘距離感知值":當AI剛剛開始說話時,這個值接近-1,意味著"前面還有很長的路";當AI快要說完時,這個值接近0,意味著"終點就在眼前"。

為什麼要用這樣一個奇特的數字範圍,而不是直接告訴AI"你還剩200個詞"呢?這裡有個很有趣的設計邏輯。AI生成的內容長度變化極大,短則幾個詞,長則數萬詞。如果直接用"剩餘詞數"來表示,這個數字的範圍太寬泛,訓練起來非常困難——就像你讓一個量程只到100厘米的尺子去測量從上海到北京的距離,根本不適用。

研究團隊把這個問題轉化成了一個經濟學中經典的"折扣回報"框架。核心思想是:AI每說一個詞,就相當於付出了一小筆"代價",而LenVM預測的,是從當前這一步到最後一步所有代價的折扣累加值。由於使用了數學上的折扣處理(把未來的代價逐步打折),最終的預測值被壓縮到了一個穩定的區間(-1到0之間),無論實際內容是長是短,都能平穩地表示出來。

這個設計還有一個數學上的優雅之處:它滿足所謂的"貝爾曼遞推關係",簡單說就是"當前狀態的價值 = 立即代價 + 下一步狀態價值的折扣版"。這讓LenVM天然地和強化學習(一種讓AI通過試錯來學習的技術)兼容,為將來更複雜的應用打下了基礎。

二、不需要人工標註、自動生成訓練數據的秘訣

訓練一個AI模型通常需要大量人工標註的數據,這既昂貴又耗時。LenVM的一個重要特點是:它完全不需要人工標註。

道理其實很簡單。研究團隊讓主AI模型針對同一個問題生成多個不同的回答(在訓練時,他們為每個問題最多生成16個不同版本的回答)。每個回答的長度是確定的,比如第一個回答說了350個詞,第二個說了180個詞。有了這個長度資訊,就能直接用數學公式計算出每一步對應的"剩餘距離感知值"——完全是機械化的計算,不需要任何人工判斷。

這個設計帶來了三個顯著優勢。第一,訓練信號極其豐富——一個長度為300詞的回答,就能提供300個訓練數據點(每一步都是一個),而不是像傳統方法那樣一個回答只貢獻一個標籤。第二,這個信號是客觀無偏的——長度就是長度,數一數就知道,沒有人類標註者的主觀誤差。第三,擴展極其方便——想要更多訓練數據?只需讓模型多生成幾個回答版本就行,成本極低。

研究團隊在三類數據上訓練了LenVM:來自編程領域的OpenCodeReasoning-2數據集(約142萬條Python代碼生成數據)、來自日常對話的WildChat數據集(約52.9萬條),以及來自數學推理的DeepMath-103K數據集(約10.3萬條)。覆蓋這三個領域,是為了讓LenVM能夠在不同類型的任務中都有效工作,而不是只在某一個特定領域表現好。

在模型架構上,LenVM的設計相當輕量。它只是在主模型最後一層的隱藏狀態上,添加了一個兩層的小型神經網路(稱為"價值頭"),最後再套一個sigmoid函數(這個函數能把任意數字壓縮到0到1之間),並取負值,確保輸出落在-1到0之間。整個附加部分的參數量和主模型相比微乎其微,就像給一輛大卡車裝了一塊小儀錶盤。

三、讓AI精確執行"說夠這麼多字"的指令

有了LenVM這塊"GPS手錶",研究團隊開展了一系列實驗,驗證它在實際應用中的效果。

第一個應用場景是長度控制——讓AI嚴格按照用戶要求的長度生成內容。研究團隊在一個叫做LIFEBench的專業測試集上進行了評估。LIFEBench包含360個任務,涵蓋問答、文章摘要、推理和創意寫作,目標長度從32個詞到1024個詞不等,有三種約束類型:精確等於某個長度、不超過某個長度、不少於某個長度。

控制方法的原理是這樣的:當AI每一步準備選下一個詞時,不再完全按照自己的"本能"選最有可能的詞,而是先用LenVM評估候選詞生成後的"剩餘距離感知值",然後根據當前的控制目標來選詞。對於"精確等於目標長度"的任務,就選那個讓預測值最接近目標值的詞;對於"不超過目標長度",就偏向選那些預測值接近0(意味著快結束了)的詞;對於"不少於目標長度",就偏向選那些預測值接近-1(意味著還有很長路)的詞。

結果頗為令人印象深刻。在配備了僅1.5B參數(15億參數,屬於相對較小的規模)的LenVM後,Qwen2.5-7B(70億參數的主模型)在"精確等於目標長度"任務上的長度得分從30.9跳升到了64.8,長度偏差從71%降低到了44%。作為對比,研究團隊還測試了多個頂級的閉源商業AI模型,包括GPT-4o、GPT-5.4、Claude系列和Gemini系列。這些模型只能靠在對話開頭加文字指令來控制長度,結果偏差普遍在66%到135%之間,長度得分沒有一個超過54。

一個70億參數的開源模型,加上一個更小的LenVM輔助模組,在精確長度控制上超越了當時市面上最強的商業閉源AI系統——這個對比結果很能說明問題。核心原因在於,大型商業模型依賴的是語言指令,而語言本身對長度的表達是模糊的;LenVM則提供了一個在每一步決策中都直接起作用的數值信號,精度完全不在同一個量級。

四、在"說得好"和"說得短"之間找到平衡點

第二個應用場景更加微妙,也更貼近現實中的需求:如何在保證回答質量的同時,儘可能減少AI生成的詞數?

在AI系統中,這兩個目標天然存在矛盾。解數學題時,多寫幾步推導過程往往能幫AI得出正確答案;但如果每道題都寫兩千詞,推理成本就會高得難以承受。理想的狀態是:簡單題就簡短作答,難題才展開詳細推導。

研究團隊提出了一種叫做"指數傾斜"的解碼方法。這個名字聽起來很技術,但原理其實可以用一個直觀的比喻來理解。AI在每一步選詞時,本來是按照一個概率分布來隨機選擇的——高概率的詞更容易被選到,低概率的詞偶爾也會出現。LenVM的作用是對這個概率分布進行調整:把那些"會導致後續生成更長"的詞的概率壓低,把"會導致後續更快結束"的詞的概率提高。調整的力度由一個參數β來控制。當β等於0時,不做任何調整;β越負,就越強烈地偏向生成短回答。

這個方法的關鍵優勢在於:它不修改主模型,也不截斷生成過程,只是悄悄地影響每一步的詞選擇。主模型完全保持原樣,就像一位廚師的本能技藝沒有被改變,只是有人在旁邊輕聲提醒他"客人不太餓,可以少做一點"。

在GSM8K(一個數學應用題測試集)上的實驗結果非常直觀。當給AI設定一個硬性限制"最多只能生成200個詞,超過就算錯"時,用Qwen2.5-3B模型的正確率會暴跌到只有6%——因為大多數數學題靠200個詞根本解不完整。而用LenVM的指數傾斜方法,在同樣平均生成200個詞的條件下,正確率維持在63%。差距如此懸殊,說明LenVM找到了一條在有限篇幅內仍然能正確解題的路徑,而不是硬生生地截斷答案。

研究團隊還在更難的MATH500數據集(500道競賽級數學題)和MathVista數據集(需要理解圖片才能解答的數學題,用的是視覺語言模型Qwen2.5-VL)上進行了同樣的測試,結果一致顯示LenVM的方法在相同平均長度下維持了更高的準確率。通過連續調整β值,可以得到一條平滑的"性能-效率權衡曲線":β等於0時是原始模型的表現(質量最好但最長),β越負質量會逐漸小幅下降但長度大幅縮短。這條曲線讓用戶可以根據實際需求靈活選擇工作點,而不是只能做非此即彼的選擇。

五、在AI開口之前就預測它會說多少

第三個應用場景是:在AI還沒開始生成任何內容之前,僅憑問題本身,預測AI最終會生成多長的回答。

這個能力看起來不起眼,但在實際的AI服務系統中極為重要。當很多用戶同時提問時,AI伺服器需要合理分配計算資源。如果能提前知道某些問題的回答會很長(比如"幫我寫一篇論文"),某些會很短(比如"今天幾號"),就能更合理地安排處理順序和內存分配,提高整體服務效率。

LenVM的"剩餘距離感知值"不僅能在生成過程中使用,也可以在生成開始之前就使用——此時模型看到的只是問題,沒有任何已生成的回答,但LenVM仍然能基於問題的內容給出一個預測值。把這個預測值通過數學變換轉換回"預期長度",就得到了長度預測結果。

研究團隊在數學、代碼和日常對話三個領域的測試集上評估了這個能力,使用的指標是"平均相對誤差"(預測長度和真實長度相差多少百分比)。結果顯示,隨著LenVM模型規模的增大,預測精度持續提高:在最小的1.5B規模時,數學領域的誤差是17%;到了32B規模時,誤差降低到了9.8%。代碼領域和日常對話領域的誤差相對略高,但隨著規模增大同樣保持了持續改善的趨勢。

這個結果也間接證明了一件事:LenVM確實在學習問題本身的語義資訊,而不只是在背誦"數學題通常是X長、對話通常是Y長"這樣的統計規律。畢竟,同樣是數學題,一道簡單的加減法和一道需要多步證明的競賽題,預期長度會相差幾十倍。只有真正理解了問題的內容,才能做出有意義的長度預測。

六、越練越強:LenVM的規模擴展規律

在AI領域,有一個反覆被驗證的規律:更大的模型、更多的訓練數據,往往帶來更好的性能。研究團隊專門研究了LenVM是否也符合這個規律。

他們沿著三個維度進行了系統性測試。第一個維度是模型規模,從0.5B一路測到32B,覆蓋了六個不同大小的模型;第二個維度是訓練問題的數量,測試了1萬、3萬、10萬三個不同規模;第三個維度是每個問題生成的回答數量,測試了1、2、4、16四種不同數量。

結果表明,這三個維度上的擴展都帶來了持續的改善——測試損失值(一個衡量預測準確度的指標,越低越好)隨著任何一個維度的增大而穩定下降,沒有出現"到某個規模之後就不再改善"的平台期跡象。這意味著LenVM的訓練目標本身具有良好的可擴展性:你投入更多資源,就能得到更好的效果,而且這條路在目前測試的範圍內仍然暢通。

對於希望在實際系統中部署LenVM的工程師來說,這個結果意味著可以根據實際需求靈活調整投入——如果對精度要求不高,用小模型就夠;如果需要極高精度,可以投入更大規模的模型和更多訓練數據,且有信心這些投入會帶來可預期的回報。

七、AI文字里的"節奏密碼":哪些詞讓AI越說越長,哪些詞讓它戛然而止

研究團隊還做了一個頗具趣味性的分析,利用LenVM揭示了AI生成過程中的一種隱藏規律。

具體做法是這樣的:在AI生成每個詞之後,觀察LenVM的預測值發生了多大的變化。如果某個詞出現後,LenVM預測的剩餘長度明顯增加,說明這個詞"開啟"了更長的生成路徑;反之,如果某個詞出現後剩餘長度預測值明顯減少,說明這個詞是一種"收尾信號"。他們把前者叫做"正長度詞",後者叫做"負長度詞"。

在Qwen3-30B模型的數學推理回答中,研究團隊統計了哪些詞最頻繁地成為正長度詞。結果發現,這類詞大多是推理過程中的"轉折詞"或"重新思考詞",比如"but"(但是)、"wait"(等等)、"now"(現在)、"think"(想想)、"let"(讓我...)、"try"(嘗試)、"consider"(考慮)、"ah"(啊!)等。這些詞在AI的推理過程中往往出現在"發現前面說錯了需要重來"或者"想到了一個新的思路"的時刻,它們的出現會觸發更長的後續推導。特別有趣的是"ah"這個詞,它經常出現在"Ah! I see the mistake"(啊!我發現錯了)或"Ah! Here's an idea"(啊!我想到了個辦法)這樣的語境中,類似於人類頓悟時的"恍然大悟",而這種頓悟往往意味著接下來要展開一段新的推導。

相比之下,負長度詞(會觸發更快結束的詞)則大多是總結性和確認性表達,比如"therefore"(因此)、"clearly"(顯然)、"perfect"(完美)、雙換行符(通常表示段落結束或答案已給出),以及一些表示慶祝完成的表情符號,比如打勾符號和撒彩紙的表情。這些詞往往出現在AI正在得出最終答案、確認計算結果或者表達"問題已經解決了"的場合。

這個發現不僅有趣,還有實際價值。通過觀察這些詞,可以更直觀地理解AI推理過程中的節奏:什麼時候AI在深入挖掘,什麼時候AI已經打算收尾。這種可解釋性在AI系統的調試和優化中可能非常有用。

八、精心設計背後的考量:為什麼是折扣回報,而不是其他方式

研究團隊還專門做了一系列對比實驗,測試了不同設計選擇對LenVM效果的影響。

在"用什麼來表示剩餘長度"這個問題上,研究團隊比較了四種方案。直接用剩餘詞數(原始長度)效果最差,因為這個數字的範圍太大、分布太不均勻;用"將長度除以最大長度"的歸一化長度也不行,因為大多數回答都屬於"短回答",歸一化後大量數據被壓縮到接近0的區間,模型很難區分;用對數長度(取對數)作為目標有所改善,但仍然比不上折扣回報方案。折扣回報在所有位置上都表現出了最低的平均絕對長度誤差,勝出的核心原因在於它的設計和AI逐步生成文本的過程完美契合——每一步的目標值都和下一步的目標值之間有精確的數學關係,這讓訓練信號在整個生成過程中保持連貫一致。

在訓練數據的組織方式上,研究團隊比較了"打亂順序"和"按問題分組"兩種策略。結果發現,將所有訓練樣本完全打亂效果更好,而不是把同一個問題的多個回答放在一批次里訓練。這和訓練獎勵模型(需要比較同一問題的多個回答)的習慣做法正好相反,說明LenVM的訓練本質上是一個獨立的回歸任務,不需要在同一批次內做跨樣本的比較。

在折扣因子γ(控制"未來的代價打幾折")的選擇上,實驗顯示較大的γ(比如0.999)在生成過程的早期階段預測更准,而較小的γ(比如0.99)在接近結束時預測更准。研究團隊採用了一個實用的設定原則:讓99%的真實回答長度都落在LenVM的"高精度區間"內,具體數值根據不同模型有所調整(Qwen2.5系列用0.997,Qwen3系列用0.9998,後者因為可能生成更長的推理過程而需要更大的γ值)。

在數值精度上,測試顯示fp16、bf16和fp32三種常用浮點格式下,LenVM的訓練和預測效果幾乎沒有差異,說明該方法在工程上是穩健的,不會因為精度選擇而產生意外的性能問題。

從整個研究來看,LenVM的貢獻在於把一個長期依靠粗糙手段處理的問題——AI生成多少字——變成了一個有理論支撐、可精確控制、可規模化訓練的工程問題。這種從"靠感覺"到"有精密儀表"的轉變,本身就代表了AI系統工程向更精細化方向邁進的一步。

當然,研究團隊也坦承,LenVM在實際使用時需要額外的計算開銷——每生成一個詞,都要額外跑一次LenVM的前向計算。在對延遲非常敏感的場景中,這個開銷需要仔細權衡。此外,論文中尚未展示將LenVM用於強化學習訓練(讓AI通過試錯來優化行為)的實際效果,這部分被列為了未來的研究方向。

說到底,這項研究回答的是一個看起來普通、實際上頗有深度的問題:AI知道什麼時候該停下來嗎?答案是:在裝上LenVM之前,它的感知相當模糊;裝上之後,它能在每一步都清楚地感知自己離終點還有多遠,並據此做出更精準的決策。這不僅讓AI能夠更好地遵從用戶的長度要求,也讓它能在有限的詞數內更聰明地分配"說話的節奏"。

對於普通用戶來說,這項研究背後的意義可能在於:未來的AI助手或許能更好地理解"簡短回答"和"詳細解釋"之間的區別,而不是一刀切地要麼說太多、要麼說太少。對於構建AI系統的工程師來說,LenVM提供了一種低成本、無需人工標註、可隨規模自動改善的新型控制信號,在計算資源管理和服務質量之間架起了一座更精準的橋樑。

有興趣深入了解技術細節的讀者,可以通過arXiv編號2604.27039查閱完整論文,代碼也已經開源在GitHub項目頁面上。

---

Q&A

Q1:長度價值模型(LenVM)需要重新訓練原來的大語言模型嗎?

A:不需要。LenVM是一個附加在原有大語言模型上的獨立小模組,只在原模型最後一層的輸出上加了一個輕量級的兩層神經網路。原有的大語言模型參數完全不變,LenVM只負責預測當前狀態下剩餘的生成長度,然後在生成每個詞時提供參考信號,整個過程對主模型是透明的。

Q2:LenVM的訓練數據從哪裡來,要不要人工標註?

A:完全不需要人工標註。訓練數據是通過讓模型自動生成多個回答版本來產生的。對於每個訓練問題,讓模型生成若干個完整回答,每個回答的實際長度可以直接通過計數獲得,然後用數學公式把這個長度轉換成對應的折扣回報值作為訓練目標,整個過程全自動完成,不需要任何人工判斷或標註。

Q3:LenVM在精確長度控制上為什麼比GPT-5.4、Claude這些大模型效果好?

A:核心差距在於控制信號的粒度不同。大型商業模型只能靠對話開頭的文字指令(比如"請用500字回答")來感知長度要求,但自然語言對長度的表達本身就是模糊的,模型也沒有在每一步生成時主動檢查自己是否偏離了目標。LenVM則在每生成一個詞後都重新評估當前狀態離目標長度有多遠,並據此調整下一個詞的選擇,這種逐步糾偏的機制比一次性的文字指令精準得多。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新