宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

技術界的新突破:以色列理工學院研究團隊讓AI模型學會「思維延續」的神奇技能

2025年06月19日 首頁 » 熱門科技

在人工智慧快速發展的今天,一個看似簡單卻極具挑戰性的問題困擾著研究者們:如何讓AI在思考問題時能夠"想得更久一點"?就像我們人類在面對複雜數學題時,有時需要停下來重新思考,或者在草稿紙上多算幾遍一樣,AI模型有時也需要更多的思考時間來得出更準確的答案。最近,來自以色列理工學院電腦科學系的Liran Ringel和Yaniv Romano教授,以及獨立研究者Elad Tolochinsky共同完成了一項令人矚目的研究,他們成功地教會了AI模型一種全新的"繼續思考"技能。

這項開創性研究發表於2025年6月12日的arXiv預印本平台(論文編號:arXiv:2506.11274v1),感興趣的讀者可以通過該編號在arXiv網站上找到完整的研究論文。研究團隊首次提出了一種革命性的方法,通過訓練一個特殊的"繼續思考"標記(continue-thinking token),讓AI模型能夠在需要時延長推理時間,從而顯著提升解題準確率。

想像一下,當你在解一道複雜的數學題時,剛開始可能想到一個答案,但內心覺得可能不太對,於是你會對自己說"等等,讓我再想想",然後重新檢查計算過程,最終得到正確答案。研究團隊開發的這種技術,就是在教AI模型學會這種"再想想"的能力。

傳統的AI推理模型就像一個急性子的學生,一旦給出答案就會立即停止思考。而現有的一些方法雖然能讓模型思考更久,但就像給學生一個通用的"等等"指令,效果並不理想。研究團隊的創新之處在於,他們專門為每個AI模型"量身定製"了一個獨特的"繼續思考"信號,這個信號經過專門訓練,能夠更有效地觸發模型的深入思考過程。

在數學問題求解的測試中,這種方法展現出了令人驚喜的效果。以廣受認可的GSM8K數學題庫為例,傳統的"等等"方法只能將準確率提升1.3個百分點,而他們的新方法卻能提升4.2個百分點,改進幅度超過了三倍。這就好比原本只能讓學生多做對一道題,現在卻能讓他們多做對三道題,效果提升相當顯著。

一、傳統AI推理的困境與突破口

要理解這項研究的價值,我們首先需要了解當前AI推理面臨的核心挑戰。現在的AI推理模型就像是參加限時考試的學生,它們需要在規定時間內給出答案,但有時候快速給出的答案可能並不準確。

目前主流的AI推理方法主要分為兩大類,就像兩種不同的考試策略。第一種叫做"並行方法",就像讓學生同時寫出多個不同的答案,然後通過投票或評分選出最佳答案。第二種叫做"順序方法",更像我們人類的思考過程,讓AI一步步推理,可以回頭檢查、修正錯誤、驗證結果,最終形成一個完整的思考鏈條。

順序方法的核心特點是AI會產生一個長長的"思考過程",就像學生在草稿紙上寫下的所有計算步驟和思路。這種方法最著名的代表就是OpenAI公司的o1模型,它能夠進行複雜的逐步推理。但是,這類模型有一個重要特點:它們會自己決定什麼時候停止思考,通常是通過生成一個特殊的"結束思考"標記(比如)來表示思考完畢。

問題就出現在這裡:用戶無法直接控制AI思考的時間長度。有時候,AI可能想得太少就匆忙給出答案,就像學生做題時太急躁,沒有充分驗證就提交了答案。為了解決這個問題,研究者們之前提出了一種叫做"預算強制"的方法。

這種方法的工作原理很巧妙,就像給急性子的學生一個"慢下來"的提醒。當AI模型想要結束思考時(即生成標記),系統會偷偷地把這個標記替換成"Wait"(等等)這個詞,強迫模型繼續思考。這就好比當學生想要交卷時,老師說:"等等,再檢查一遍。"學生只好繼續思考下去。

這種"預算強制"方法確實能夠延長AI的思考時間,在一定程度上提升準確率。但是,使用固定的"Wait"詞彙有其局限性,就像給所有學生同樣的提醒詞,不一定對每個學生都最有效。不同的AI模型可能需要不同類型的"繼續思考"信號才能發揮最佳效果。

正是基於這樣的觀察,研究團隊提出了一個突破性的想法:既然固定的"Wait"詞彙效果有限,為什麼不為每個模型專門訓練一個個性化的"繼續思考"標記呢?這就像為每個學生量身定製一個最適合他們的提醒方式,有的學生可能對"再想想"反應更好,有的可能對"檢查一下"更敏感。

研究團隊將這個特殊的標記命名為,它不是一個普通的詞彙,而是一個經過專門訓練的"信號"。這個信號的特殊之處在於,它的"意義"是通過機器學習算法專門優化的,目的就是最大化地激發AI模型的進一步思考能力。

更令人驚喜的是,訓練這個特殊標記的成本極低。研究團隊只需要訓練這一個標記的"含義"(技術上稱為embedding),而保持AI模型的其他所有參數不變。這就像只需要教學生一個新的提醒詞,而不需要重新訓練學生的整個思維模式。這種方法不僅高效,而且可以應用到任何現有的AI推理模型上,具有很強的通用性。

二、巧妙的學習機制:讓AI學會自我提醒

要讓AI學會使用這個特殊的"繼續思考"標記,研究團隊設計了一套精巧的訓練機制。整個過程就像訓練一個學生學會在適當的時候提醒自己"再想想",並且這個提醒要真的能幫助他們得到更好的答案。

訓練過程採用了一種叫做強化學習的方法,這種方法的核心思想是通過獎懲機制來引導學習。想像一下訓練寵物的過程:當寵物做對了事情,我們給它零食獎勵;當它做錯了,我們不給獎勵。經過反覆訓練,寵物就學會了什麼行為能帶來獎勵。AI的訓練也是類似的道理。

在這項研究中,獎勵的標準很簡單直接:如果AI使用了這個特殊的"繼續思考"標記後能夠得出正確答案,就給予獎勵;如果還是錯誤,就不給獎勵。更具體地說,研究團隊設置了兩種獎勵:一種是"格式獎勵",檢查答案是否按照正確的格式給出(比如數學答案是否用oxed{}包圍);另一種是"正確性獎勵",檢查答案本身是否正確。

訓練時,系統會反覆進行這樣的過程:讓AI遇到一個數學問題,當它想要結束思考時,強制插入這個特殊的標記,然後看看AI繼續思考後的答案質量如何。如果答案變好了,這個標記就會得到"好評";如果答案沒有改善甚至變差了,就得到"負評"。經過成千上萬次這樣的訓練,這個特殊標記就逐漸學會了如何最有效地觸發AI的深入思考。

整個訓練過程的技術細節體現了研究團隊的精心設計。他們使用了一種叫做GRPO(群體相對政策優化)的算法,這是一種特別適合這種訓練場景的強化學習方法。訓練數據來自DeepScaleR-Preview-Dataset,這是一個包含4萬道數學題的大型數據集,涵蓋了各種不同難度和類型的數學問題。

為了確保訓練的效率和效果,研究團隊採用了一種巧妙的並行訓練策略。傳統的AI訓練需要先生成所有答案,然後再進行學習,這樣GPU(圖形處理器)的利用率不高,就像工廠的生產線有時空閒有時忙碌。研究團隊創新性地將大批次分解為多個小批次,一邊生成答案一邊進行學習,大大提高了訓練效率。

在訓練過程中,研究團隊還做了一個重要的限制:他們將"強制繼續思考"的次數限制為最多1次,也就是說,在一個問題中,AI最多只能被要求"再想想"一次。這樣做的目的是讓訓練過程更加可控,避免AI陷入無休止的思考循環。但令人驚喜的是,即使訓練時只允許1次強制繼續,訓練好的模型在測試時卻能很好地適應2次甚至3次的強制繼續,展現出了良好的泛化能力。

訓練使用的基礎模型是DeepSeek-R1-Distill-Qwen-1.5B,這是一個相對較小但經過精心調教的推理模型。研究團隊選擇這個模型是因為它既有足夠的推理能力,又足夠小巧,便於進行實驗和驗證。整個訓練過程使用了8塊NVIDIA A100 GPU,其中4塊用於生成答案,4塊用於進行學習,總共訓練了約一周時間。

值得注意的是,這個特殊的標記在訓練之初並不是完全"空白"的,研究團隊巧妙地將它初始化為"Wait"詞彙的表示,然後在此基礎上進行優化。這就像給學生一個初始的提醒詞,然後根據他們的反應逐步調整這個提醒詞的"含義",使其變得更加有效。

三、令人印象深刻的實驗結果

研究團隊在多個著名的數學推理數據集上測試了他們的方法,結果展現出了令人矚目的效果。這些測試就像讓AI學生參加不同類型的數學考試,從小學水平的算術題到奧數競賽級別的難題,全面檢驗這個"繼續思考"標記的實際效果。

首先來看GSM8K-Platinum數據集的結果,這是一個包含1209道小學數學應用題的測試集。在這個相對基礎的測試中,傳統的"Wait"方法能夠將準確率從78.41%提升到79.71%,提升了1.3個百分點。而研究團隊的學習型標記卻能將準確率提升到82.63%,足足提升了4.2個百分點。這種差異就好比在100道題的考試中,傳統方法只能幫助學生多做對1道題,而新方法能幫助學生多做對4道題。

更令人驚喜的是,在MATH500數據集上的表現也同樣優異。這個數據集包含500道更有挑戰性的數學題,難度相當於高中到大學水平。在這裡,學習型標記同樣表現出了明顯的優勢,準確率從基準的79.43%提升到了81.67%,而傳統的固定標記方法提升幅度要小得多。

研究團隊還在兩個更具挑戰性的數據集上進行了測試:AIME24和AIME25,這些是美國數學邀請賽的真題,代表了高中數學競賽的最高水平。在這些極具挑戰性的題目上,所有方法的整體準確率都不高(約22-24%),但學習型標記仍然展現出了一定的改進效果,儘管改進幅度相對較小。這就像在奧數題這樣的超高難度測試中,即使是最好的方法也只能帶來有限的幫助。

特別有趣的是,研究團隊發現了一個重要規律:在那些傳統"預算強制"方法有效的場景中,他們的學習型標記總是能帶來更大的改進;而在傳統方法無效的場景中,學習型標記同樣無法顯著改善表現。這個發現很有啟發性,說明學習型標記本質上是對現有"預算強制"方法的增強和優化,而不是一個完全獨立的解決方案。

為了更深入地理解改進的原因,研究團隊進行了詳細的分析。他們發現,使用學習型標記後,AI模型生成的推理過程確實變得更長了,平均token數量明顯增加。更重要的是,這種改進不僅僅體現在平均水平上,在不同長度的回答中都能觀察到準確率的提升,說明改進來自於推理質量的真正提高,而不僅僅是因為回答變長了。

研究團隊還通過概率分析驗證了改進的實際意義。他們計算了在基準模型答對而學習型標記答錯的概率,以及學習型標記答對而基準模型答錯的概率。結果顯示,在GSM8K和MATH500這樣的數據集上,後者的概率明顯高於前者,說明學習型標記確實能幫助模型解決更多原本無法解決的問題。

通過分析AI生成的推理過程,研究團隊發現了一個有趣的現象:當插入學習型標記後,AI最常生成的後續詞彙包括"wait"(等等)、"let"(讓)、"actually"(實際上)、"hmm"(嗯)等,這些都是典型的"重新思考"信號詞。這說明學習型標記確實學會了如何有效地觸發AI的自我反思和驗證過程。

研究團隊還展示了一些具體的案例,其中最典型的是一道關於養雞場收入計算的題目。在基準模型的推理中,AI首先計算出了錯誤答案7938美元,然後就準備結束思考。但當插入標記後,AI開始重新審視自己的計算過程,發現了錯誤,並最終得出了正確答案294美元。這個例子生動地展示了"繼續思考"如何幫助AI發現和糾正自己的錯誤。

四、方法論的深度剖析與技術創新

這項研究的技術創新不僅體現在最終效果上,更體現在其精巧的方法設計中。整個方法的核心思想可以比作為每個學生量身定製一個最有效的學習提醒系統,而不是給所有人使用同樣的通用提醒。

從技術角度來看,研究團隊面臨的核心挑戰是如何在龐大的AI模型中只訓練一個微小的部分,同時保持整體性能的穩定。傳統的AI訓練通常需要調整模型的所有參數,就像重新訓練一個學生的整套學習方法。而這項研究只需要訓練一個特殊標記的"含義",相當於只教給學生一個新詞彙的特殊用法,其他所有知識和技能都保持不變。

這種"凍結大部分、訓練極少數"的策略帶來了多重優勢。首先是效率優勢:訓練過程變得極其高效,因為需要優化的參數數量從數十億個減少到僅僅幾千個(embedding向量的維度)。這就像從重新培訓整個樂團變成只訓練一個新樂器的演奏者,工作量大大減少。

其次是泛化優勢:由於AI模型的核心能力沒有改變,學習到的"繼續思考"技能可以很容易地應用到不同的問題類型和場景中。實驗結果證實了這一點——即使模型只在單次強制繼續的設置下進行訓練,它也能很好地適應多次強制繼續的測試場景。

研究團隊在訓練過程中採用的強化學習策略也體現了深刻的洞察。與傳統的監督學習不同,強化學習允許AI通過試驗和錯誤來發現最有效的"繼續思考"方式。這就像讓學生通過實際做題和得到反饋來學會何時以及如何進行自我檢查,而不是簡單地告訴他們固定的檢查步驟。

特別值得注意的是,研究團隊設計的獎勵機制包含了兩個層面:格式正確性和內容正確性。這種雙重獎勵確保了AI不僅能給出正確答案,還能以正確的格式呈現答案。這個設計反映了現實應用中的實際需求——在很多場景下,答案的格式規範性和內容準確性同樣重要。

從計算資源的角度來看,這種方法展現出了顯著的效率優勢。傳統的模型改進通常需要重新訓練整個模型,這需要巨大的計算資源和時間投入。而這種方法只需要在原有模型基礎上進行有限的訓練,大大降低了計算成本。研究團隊使用8塊GPU訓練一周就能達到顯著效果,這在當今動輒需要數百塊GPU訓練數月的AI研究中是相當高效的。

技術實現的另一個亮點是並行訓練策略的創新。研究團隊將傳統的"先生成後訓練"模式改進為"邊生成邊訓練"的流水線模式,這種改進類似於工廠生產線的優化——讓各個環節並行工作而不是串行等待,從而大大提高了整體效率。

研究團隊還展現了在評估方法上的創新思考。他們發現,傳統的基於正則表達式的數學答案評估方法存在明顯局限性——過於嚴格的格式要求可能會誤判一些實際正確的答案。為了解決這個問題,他們引入了大語言模型作為評估器,用來判斷那些格式不標準但內容正確的答案。這種"雙重評估"策略確保了實驗結果的可靠性和公正性。

有趣的是,這種雙重評估揭示了一個重要發現:很多看似顯著的性能改進實際上來自于格式規範性的提升,而不是推理能力的真正改善。這個發現對整個AI推理研究領域具有重要警示意義,提醒研究者們在評估模型性能時要區分真正的能力提升和表面的格式改善。

五、研究意義與未來展望

這項研究的價值遠遠超出了數學問題求解的範疇,它為整個AI推理領域提供了一種全新的思路和工具。就像發明了一把精密的手術刀,不僅可以用於特定的手術,還可以啟發其他醫療工具的設計。

從實際應用的角度來看,這種"學習型繼續思考"技術具有廣泛的應用前景。在教育領域,可以幫助AI輔導系統更好地模擬人類導師的思考過程,在遇到複雜問題時能夠展現更加深入和細緻的推理過程。在科學研究中,這種技術可能幫助AI系統在分析複雜數據或理論問題時進行更加深入的思考,發現人類可能遺漏的關鍵insights。

在商業應用方面,這種技術特別適合那些對準確性要求極高的場景,比如金融分析、法律文件審查、醫療診斷輔助等。在這些領域,"再想想"的能力可能意味著避免代價高昂的錯誤決策。更重要的是,這種技術的低成本特性使得它可以很容易地集成到現有的AI系統中,而不需要重新構建整個系統。

從科學研究的角度來看,這項研究揭示了一個深刻的原理:AI模型的能力改進不一定需要增加模型規模或重新訓練,有時候巧妙的"技巧"和"提示"就能帶來顯著效果。這種發現可能啟發研究者們探索更多類似的"輕量級改進"方法,在不增加計算成本的前提下提升AI性能。

研究團隊也誠實地指出了當前方法的局限性。最重要的一點是,這種方法的有效性似乎依賴於傳統"預算強制"方法的有效性——如果基礎的"等等"策略本身就無效,那麼再精巧的學習型標記也難以帶來改善。這個發現提醒我們,技術創新往往是在現有基礎上的漸進改進,而不是革命性的突破。

另一個限制是,目前的研究主要集中在數學推理領域,對於其他類型的推理任務(如常識推理、道德判斷、創意寫作等)的效果還有待驗證。不同類型的思維任務可能需要不同類型的"繼續思考"策略,這為未來的研究提供了豐富的探索方向。

從技術發展的角度來看,這項研究開啟了幾個令人興奮的未來研究方向。首先是多層次繼續思考標記的探索——研究團隊提到,可以為不同的"繼續思考"位置訓練不同的專用標記,就像為學生的不同學習階段設計不同的提醒方式。其次是跨領域應用的探索,將這種技術擴展到數學之外的其他推理任務中。

研究團隊還指出了將這種順序推理改進與並行推理方法結合的可能性。如果能夠在並行生成多個答案的同時,每個答案都經過"學習型繼續思考"的改進,可能會帶來更加顯著的性能提升。

從更宏觀的視角來看,這項研究體現了AI研究中一個重要趨勢:從"更大更強"轉向"更精更巧"。與那些通過增加模型規模來提升性能的研究不同,這種方法展示了如何通過巧妙的設計在不增加計算資源的前提下獲得性能改進。這種思路對於AI技術的普及和應用具有重要意義,特別是對於那些計算資源有限的應用場景。

研究團隊慷慨地將他們的代碼和實現細節開源,這為其他研究者驗證、改進和擴展這項技術提供了便利。這種開放的研究態度有助於整個學術社區的協作和進步,也體現了負責任的AI研究精神。

值得注意的是,這項研究還為AI的可解釋性研究提供了新的視角。通過分析"繼續思考"標記之後AI生成的內容,研究者們可以更好地理解AI的思維過程,觀察它是如何進行自我反思和錯誤糾正的。這種洞察對於提高AI系統的可信度和可控性具有重要價值。

說到底,這項來自以色列理工學院的研究為我們展示了一種既簡單又有效的AI改進方法。它不需要重新發明輪子,而是巧妙地在現有的輪子上加了一個精心設計的"助推器"。雖然改進幅度可能不是革命性的,但其高效性、通用性和實用性使其具有很高的應用價值。

對於AI技術的發展而言,這種研究思路提醒我們,有時候最有價值的創新不是最複雜的算法或最龐大的模型,而是那些能夠精準解決實際問題的巧妙方法。就像一個小小的潤滑劑可能讓整個機器運轉得更加順暢一樣,這個小小的"繼續思考"標記可能讓AI的推理能力得到實質性的提升。

未來,我們有理由期待看到更多類似的"輕量級但高效"的AI改進方法,它們將共同推動AI技術向著更加實用、更加可靠的方向發展。而對於那些希望在自己的應用中集成更強推理能力的開發者來說,這項技術提供了一個低成本、高效果的解決方案選擇。感興趣的讀者可以通過arXiv:2506.11274v1這個論文編號,在arXiv網站上找到完整的研究論文,深入了解這項有趣而實用的技術創新。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新