這項由香港理工大學的游潤陽、李永齊等研究人員,聯合山東建築大學、中國科學技術大學和哈爾濱工業技術(深圳)等機構完成的研究,發表於2025年10月的arXiv預印本平台,論文編號為arXiv:2510.07745v1。有興趣深入了解的讀者可以通過這個編號查詢完整論文。
人工智慧的"思考"過程一直是個謎。傳統的AI模型在解決複雜問題時,需要逐字逐句地寫出推理步驟,就像學生做數學題必須寫出完整的解題過程一樣。但最近,科學家們發現了一種更巧妙的方法——讓AI在"腦海中"進行推理,不需要用具體的文字表達出來。這種方法被稱為"潛在推理",就好比人類在思考時,很多想法是以模糊的概念和直覺形式存在的,而不是完整的語句。
然而,這種新穎的推理方式遇到了一個關鍵問題:如何讓AI產生不同的思考路徑?在傳統方法中,AI可以通過隨機選擇不同的詞彙來產生多樣化的推理過程,就像一個學生可以用不同的表達方式來解釋同一道題。但在"腦海推理"中,AI的思考是抽象的數字向量,沒有具體的詞彙選擇機制,這使得它很難產生多樣化的思考路徑。
香港理工大學的研究團隊巧妙地解決了這個難題。他們的創新在於開發了兩種讓AI在"想像中"產生不同思考路徑的方法,並且設計了一套評價系統來判斷哪種思考路徑更有希望得到正確答案。這項研究的最大價值在於,它讓AI能夠在不需要額外訓練的情況下,僅僅通過在推理時投入更多計算資源,就能顯著提升解決問題的能力。
研究團隊在數學推理任務上驗證了他們的方法。實驗結果顯示,當AI採用這種並行思考策略時,隨著投入計算資源的增加,解題準確率會穩步提升。這就像給一個聰明的學生更多時間思考,他就能想出更多解題思路,從而提高答對的概率。
一、讓AI學會"胡思亂想"的藝術
要讓AI產生多樣化的思考,就必須在它的思維過程中引入一些"不確定性"。研究團隊借鑑了不確定性理論,將這種不確定性分為兩類:一類是因為AI本身知識有限而產生的不確定性,另一類是因為輸入資訊本身存在噪聲或模糊性而產生的不確定性。基於這個理論基礎,他們設計了兩種讓AI"胡思亂想"的方法。
第一種方法叫做"蒙特卡洛隨機失活",這個名字聽起來很複雜,但原理其實很簡單。在AI的"大腦"中,有無數個連接點負責資訊傳遞。正常情況下,所有連接點都會工作。但這種方法會隨機讓一些連接點"打盹",就像一個人思考時某些神經元偶爾會休息一樣。每次讓不同的連接點休息,AI就會產生不同的思考路徑。這種方法的巧妙之處在於,它模擬的是AI因為自身知識局限而產生的不同理解。
第二種方法叫做"加性高斯噪聲",聽起來更加學術化,但本質上就是在AI的每個思考步驟中加入一些隨機的"雜音"。這就好比一個人在嘈雜環境中思考,外界的干擾會讓他的思路產生微妙的變化,從而探索到平時可能想不到的方向。這種方法模擬的是外界環境的不確定性對思維過程的影響。
研究團隊通過大量實驗發現,這兩種方法有著截然不同的"個性"。蒙特卡洛隨機失活就像一個謹慎的探索者,它會沿著特定方向深入思考,產生結構化程度較高的思維路徑。而加性高斯噪聲則像一個大膽的冒險家,它會向四面八方發散思維,產生更加多樣化但也更加分散的想法。
更有趣的是,這兩種方法在處理不同難度問題時表現出了不同的優勢。對於相對簡單的問題,加性高斯噪聲表現更好,因為正確答案通常就在常規思路附近,適度的隨機擾動能夠幫助AI找到最優路徑。而對於困難問題,蒙特卡洛隨機失活更有優勢,因為這類問題往往需要跳出常規思維框架,而這種方法正好擅長產生突破性的思考方向。
二、智能評委:判斷哪種思考路徑更靠譜
有了多樣化的思考路徑還不夠,關鍵是要能判斷哪條路徑更有希望得到正確答案。這就好比一個學生想出了十種不同的解題思路,但需要有經驗的老師來指導他應該重點發展哪幾種思路。
傳統的AI推理可以通過計算每個詞出現的概率來評估思考質量,但潛在推理中的思考過程是抽象的數字向量,無法直接計算概率。研究團隊巧妙地設計了一個"潛在獎勵模型"來解決這個問題。
這個獎勵模型就像一位經驗豐富的老師,它能夠評估AI在思考過程中每一步的"質量"。為了訓練這位"老師",研究團隊採用了一種叫做"隨機推演"的方法。具體來說,對於AI思考過程中的每一步,他們會讓AI從這一步開始,用隨機的方式完成剩餘的推理過程,重複很多次,然後統計最終得到正確答案的比例。如果從某一步開始能夠高概率得到正確答案,就說明這一步的質量很高。
但這種簡單的統計方法還不夠精細。研究團隊進一步採用了"對比學習"的策略,讓獎勵模型不僅要判斷單個步驟的好壞,還要能夠比較同一階段不同思考路徑的相對優劣。這就像讓老師不僅要給每個學生的答案打分,還要能夠排出這些答案的優劣順序。
通過這種訓練方式,獎勵模型學會了在AI的思考過程中擔當"導航員"的角色。它能夠在每個思考步驟給出評分,指導AI優先選擇那些更有希望通向正確答案的思維路徑。這種評估能力使得AI可以採用"最優N選擇"或"束搜索"等策略,從多個思考路徑中挑選出最有前景的幾條進行深入探索。
三、實驗驗證:數字不會說謊
為了驗證這套方法的有效性,研究團隊在三個數學推理數據集上進行了大規模實驗。這些數據集包括GSM8K測試集(包含1300個數學問題)、GSM8K困難版(將原問題中的數字放大以增加難度)和MultiArith(專注於多步驟算術推理的600個問題)。
實驗採用了三個代表性的潛在推理模型:COCONUT(逐步將傳統推理替換為潛在推理)、CODI(通過自蒸餾將傳統推理壓縮到潛在空間)和CoLaR(使用強化學習進行動態潛在壓縮)。這些模型分別基於不同的技術架構,為實驗結果的可靠性提供了保障。
實驗結果令人印象深刻。隨著採樣數量的增加,兩種隨機化策略都能夠持續提升問題解決的成功率,這證明了增加計算資源確實能夠帶來性能提升。更重要的是,這種提升呈現出清晰的規律性:在樣本數量較少時,性能提升較為明顯;隨著樣本數量增加,邊際收益逐漸遞減,但仍然保持正向增長。
兩種策略的表現特徵也得到了實驗驗證。在大部分情況下,蒙特卡洛隨機失活的表現優於加性高斯噪聲,特別是在需要更多樣本的情況下。但在某些特定場景下,加性高斯噪聲展現出了更好的穩定性,即使在引入較大隨機性的情況下也能維持較高的準確率。
研究團隊還深入分析了兩種方法產生的思維多樣性。他們發現,隨著隨機程度的增加,思維多樣性會先上升後下降,存在一個"甜蜜點"。過少的隨機性導致思維路徑過於相似,浪費計算資源;過多的隨機性則會導致思維發散過度,偏離正確方向。找到這個平衡點是應用這些方法的關鍵。
四、深入洞察:為什麼這樣做有效
為了更好地理解兩種隨機化策略的工作機制,研究團隊進行了詳細的可視化分析。他們使用t-SNE降維技術將AI的抽象思考過程投射到二維平面上,就像將複雜的三維立體圖形投影到平面紙張上一樣。
可視化結果揭示了兩種方法截然不同的探索模式。蒙特卡洛隨機失活產生的思考路徑呈現出"定向漂移"的特徵——就像水流沿著河床流動一樣,思維路徑會沿著特定方向密集而連續地擴展。這種模式特別適合處理需要深度思考的困難問題,因為它能夠在promising的方向上進行充分探索。
相比之下,加性高斯噪聲產生的思維模式更像"煙花綻放"——以確定性思考為中心,向四面八方均勻擴散。這種各向同性的探索模式雖然覆蓋面廣,但在每個方向上的探索深度有限。這解釋了為什麼它在簡單問題上表現良好(因為答案就在附近),但在困難問題上不如蒙特卡洛隨機失活有效。
研究團隊還發現了一個有趣的現象:隨著問題難度的增加,不同AI模型之間的性能差距會逐漸縮小。這意味著當投入足夠的計算資源進行並行思考時,即使是性能相對較弱的模型也能通過"量變引起質變"的方式達到較好的效果。
關於獎勵模型的有效性,研究團隊進行了詳細的消融實驗。他們發現,如果移除對比學習機制,僅使用簡單的二分類方法訓練獎勵模型,性能會明顯下降。這證明了相對比較比絕對評價更加有效。同時,如果不使用隨機推演來生成標籤,而是僅根據最終答案的正確性來評價中間步驟,效果也會大打折扣。這說明了細緻的中間過程評估的重要性。
五、意義與展望:開啟AI推理新紀元
這項研究的意義遠超出了技術層面的創新。它首次證明了潛在推理模型也能夠像傳統模型一樣從並行計算中獲益,這為AI系統的發展開闢了一條全新道路。在實際應用中,這意味著我們可以通過增加推理時的計算投入,而不是重新訓練整個模型,來顯著提升AI系統的問題解決能力。
從計算效率的角度來看,這種方法具有顯著優勢。傳統的模型改進通常需要收集更多數據、設計新的網路架構或進行長時間的重訓練,成本高昂且周期漫長。而這種方法允許用戶根據具體需求靈活調整計算資源的投入,在準確性和效率之間找到最佳平衡點。
研究團隊也誠實地指出了當前方法的局限性。首先,在實際部署時,這種方法可能需要額外的工程優化才能達到實時應用的要求。其次,兩種隨機化策略都需要調整參數(隨機失活概率和噪聲強度),雖然這個過程相對簡單,但仍然需要針對具體應用場景進行優化。
更廣闊的前景在於,這項研究為AI推理能力的提升提供了一個全新的維度。未來的研究可能會將這種並行思考機制與強化學習相結合,讓AI系統能夠自動學習最優的探索策略。這種自適應的推理系統將能夠根據問題的特點動態調整思考方式,在面對不同類型挑戰時展現出更強的靈活性。
從更宏觀的視角來看,這項研究揭示了AI思維的一個重要特徵:就像人類一樣,AI也能夠從"換個角度思考"中獲益。這種認知上的相似性不僅有助於我們更好地理解AI的工作機制,也為人機協作提供了新的可能性。當AI能夠產生多樣化的思考路徑時,它就能夠為人類提供更加豐富和創新的解決方案建議。
說到底,這項研究最大的價值在於證明了一個簡單而深刻的道理:有時候,讓機器"慢慢想想"比讓它"更聰明"更有效。就像我們在面對困難問題時會反覆思考、從不同角度分析一樣,AI也能夠通過這種"深思熟慮"的方式獲得更好的表現。這不僅為AI技術的發展指明了一個新方向,也讓我們對人工智慧與人類智能之間的相似性有了更深入的認識。
隨著這種技術的不斷完善,我們有理由相信,未來的AI系統將能夠在保持高效運行的同時,展現出更加細膩和深入的推理能力。這將為教育、科研、醫療診斷等需要複雜推理的領域帶來革命性的改變。
Q&A
Q1:潛在推理和傳統AI推理有什麼區別?
A:傳統AI推理需要逐字逐句寫出完整的思考過程,就像學生做題必須寫出每一步解題步驟。而潛在推理讓AI在"腦海中"用抽象的數字向量進行思考,類似人類的直覺思維,更高效但也更難控制多樣性。
Q2:蒙特卡洛隨機失活和加性高斯噪聲這兩種方法有什麼不同?
A:蒙特卡洛隨機失活像謹慎的探索者,通過隨機讓AI的一些連接點"打盹"來產生結構化的思考路徑,適合困難問題。加性高斯噪聲像大膽的冒險家,在思考中加入隨機"雜音"產生發散性思維,適合簡單問題。
Q3:這項技術能應用到哪些實際場景中?
A:這項技術特別適合需要複雜推理的場景,如教育輔導、醫療診斷、科學研究等。它的最大優勢是無需重新訓練AI模型,僅通過增加推理時的計算資源就能顯著提升問題解決能力,為用戶提供準確性和效率之間的靈活選擇。






