斯坦福大學最新發現：讓人工智慧學會「三思而後行」的內部思考邏輯

考慮這樣一個場景：在一個緊張的口語考試現場，有一位極其聰明的學生。每當考官的話音剛落，這位學生就連一秒鐘都不停頓，立刻像機關槍一樣開始往外蹦答案。雖然他讀過無數的書，詞彙量驚人，但因為完全不給自己留出在腦子裡打草稿的時間，遇到稍微複雜的邏輯推導題時，他就會因為「嘴吧走得比腦子快」而經常說出似是而非的廢話。長期以來，我們所熟知的人工智慧語言模型，本質上就是這樣一個急於作答的考生。針對這個現象，一項由斯坦福大學聯合Notbad AI機構領導的研究團隊給出了突破性的解決方案。這項研究發表於2024年3月的預印本平台arXiv上，有興趣深入了解背後原理的讀者可以通過2403.09629這個論文編號查詢到完整的學術文獻。研究人員成功教會了人工智慧一種至關重要的能力：在開口說話之前，先在心裡默默打個草稿。

贊助商廣告

一、從脫口而出到深思熟慮的蛻變

我們在日常生活中與人工智慧聊天時，往往會被它們極快的回覆速度所折服。當我們在螢幕上打下問題並按下回車鍵，光標閃爍的瞬間，文字就像瀑布一樣傾瀉而下。這種現象的背後，是因為現有的語言模型完全受制於一種被稱為「下一個詞預測」的工作機制。它們就像是一個毫無心機的直腸子，只根據你剛才輸入的內容，憑藉本能去猜下一個最有可能出現的字是什麼，完全沒有「停下來想一想」的內部空間。對於簡單的寒暄，這種直覺式的回答綽綽有餘。可是，當面對需要多步推理的複雜數學題或邏輯謎題時，這種脫口而出的習慣就成了致命傷。

實際上，科學界早就注意到了這個問題，並提出過一些早期的解決方法。此前有一種叫作STaR的技術，試圖讓模型在解決特定問題時寫下思考過程。不過，那種方法存在一個很大的局限性。它就像是專門為數學考試突擊訓練的應試技巧，只有在遇到標準問答題時，模型才知道要列出步驟；一旦回到日常的隨便閒聊或者閱讀普通文章時，模型就又被打回原形，繼續不假思索地往外吐字。斯坦福大學的這項最新研究則徹底打破了這個局限，他們開發出了一種名為Quiet-STaR的全新方法。這個名字非常形象，意思是「安靜的自我反思教導者」。它的核心在於，無論人工智慧是在解答高深複雜的方程式，還是僅僅在閱讀一篇普通的科普小短文，它都在後台悄悄地進行著深度的自我對話，這就好比給人工智慧的大腦里永久性地植入了一張無形的草稿紙。

贊助商廣告

二、無形草稿紙上的三步思考法

既然要讓模型學會使用這張無形的草稿紙，研究團隊就必須設計一套極其巧妙的訓練機制。這個機制並不是簡單地告訴機器「你去思考吧」，而是通過一個嚴密的循環來培養它的思考習慣。這個複雜的計算過程可以用一個生動的課堂測驗來理解。

故事的起點發生在模型閱讀人類文字的每一個瞬間。當模型接收到一句話時，它不再急於立刻給出回應。相反，它的大腦開始高速運轉，針對這句話中的每一個詞，在內部那張無形的草稿紙上瘋狂地寫下各種可能的上下文聯想、邏輯推演或是背景知識。這種並行產生的內心獨白，是模型為接下來的回答所做的知識儲備。緊接著，模型會面臨一個抉擇。它需要將原文的真實資訊與自己剛剛在草稿紙上寫下的各種發散性思考進行融合。在這個融合階段，模型就像是一個正在整理思緒的辯手，一邊看著手裡的辯題，一邊瞥一眼自己剛剛快速寫下的提示詞，嘗試基於這兩者的結合來預測接下來到底該說什麼才最準確。

然而，並不是所有的內部思考都是有價值的。有時候模型在草稿紙上寫下的東西完全是胡思亂想，對後續的回答毫無幫助。這就引出了整個研究中最關鍵的反饋環節。研究團隊採用了一種名為REINFORCE的獎勵機制來充當嚴厲的裁判。當模型藉助某段內部草稿成功且準確地預測出了後續的文字，裁判就會給予豐厚的獎勵，鼓勵模型記住這種思考方式；相反，如果那段內部草稿導致模型猜錯了接下來的內容，裁判就會毫不留情地將其扣分廢棄。在這個不斷的試錯與反饋中，模型逐漸學會了拋棄無用的雜念，保留那些真正能提升預測準確率的深刻洞察。這就意味著，人工智慧真的在學習如何有效地組織自己的思路，而不是毫無目的地瞎想。

三、思考時間越長，回答越顯智慧

經過這套複雜機制的訓練，Quiet-STaR展現出了令人驚嘆的成長潛力。研究團隊對訓練後的模型進行了多項嚴格的測試，結果非常直觀地證明了「三思而後行」的巨大價值。在沒有經過任何專門針對數學題訓練的情況下，僅僅因為獲得了在後台打草稿的能力，這個模型在名為GSM8K的複雜數學應用題測試中，成績出現了顯著的躍升。與此同時，在考察常識推理能力的CommonsenseQA測試中，它的表現也展現出了同樣強勁的上升勢頭。

贊助商廣告

更讓人感到興奮的是數據圖表中呈現出的一條清晰的上升曲線。研究人員發現，人工智慧變得多聰明，很大程度上取決於你允許它在那張無形草稿紙上寫下多少字的內心獨白。當研究人員限制模型只能生成極其簡短的內部思考時，它的性能提升相對有限；而一旦放開限制，讓模型在給出最終答案前進行足夠長篇幅的深度反思，它在各項複雜推理任務上的正確率就會像攀登階梯一樣穩步上漲。這種情況類似於給一位棋手更長的讀秒時間去推演後續的棋局，時間越充裕，他走出的棋步就越發精妙。這項發現證實了人工智慧的推理能力並非一成不變的死水，而是可以通過增加內部運算過程來獲得實質性擴展的彈性空間。

說到底，斯坦福大學的這項研究為我們揭示了一個非常務實的未來圖景。我們正在見證人工智慧從一個只會鸚鵡學舌、憑藉概率瘋狂吐字的機器，慢慢進化成一個懂得停頓、懂得權衡、懂得自我審視的成熟對話者。這不僅意味著未來我們使用的各種AI助手將變得更加可靠、極少胡言亂語，更代表著機器正在以一種極其接近人類認知規律的方式去理解這個世界。雖然它們思考時沒有緊鎖的眉頭，也沒有轉動的眼珠，但在那些冰冷伺服器內部瘋狂閃爍的晶片中，真正的「深思熟慮」正在悄然發生。對於那些希望探究更多算法細節和實驗數據的讀者，千萬不要忘記通過論文編號2403.09629去查閱原始的學術寶藏，那裡有著關於這場認知革命最詳盡的記錄。

Q&A

Q1：Quiet-STaR技術的核心作用是什麼？

A：Quiet-STaR技術的核心作用是教會人工智慧語言模型在給出最終回答或預測下一個詞之前，先在後台悄悄生成一段內部的推理過程。它讓AI不僅能應對複雜的數學邏輯題，還能在閱讀普通網路文本或書籍時保持思考的習慣，從而大幅提高AI回答的準確性和邏輯嚴密性。

Q2：Quiet-STaR是如何判斷AI內部思考有沒有用的？

贊助商廣告

A：這項技術通過一種獎勵機制來評估AI內部思考的價值。如果AI在「內心草稿紙」上生成的想法幫助它極其準確地預測出了接下來的文字，系統就會給予獎勵，讓AI記住並強化這種思考模式；如果那些想法導致AI猜錯了後續內容，系統就會判定其無用並促使AI拋棄這種無效的思考方式。

Q3：普通人未來使用的AI對話助手會因為Quiet-STaR發生什麼改變？

A：未來的AI對話助手將不再像現在這樣不假思索地「脫口而出」，而是會在回答覆雜問題前有短暫的思考停頓。由於AI學會了在後台打草稿和進行多步邏輯推演，它們給出的答案會更加精準、可靠，能夠處理更深度的邏輯謎題和數學問題，大大減少「一本正經胡說八道」的情況。