宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

現在的AI已經有可能超越人類,INTUITOR系統讓AI獲得自我評估能力

2025年05月30日 首頁 » 熱門科技

對於學渣大熊來說,考試一直是噩夢般的存在。

有一次大熊使用了一種神奇道具「記憶麵包」:只要把麵包片蓋在書上,再吃下去,這一頁的知識被腦子完全吸收了。

考試結束後,老師同學對大熊刮目相看。

 

現在的AI已經有可能超越人類,INTUITOR系統讓AI獲得自我評估能力

 

如果小孩能夠完全靠自己練習就學會解數學題,不需要任何老師家長輔導。聽上去這種方法是不是也有「記憶麵包」作弊般的奇效。

2025年5月26日,加州大學伯克利分校的研究團隊開發出名為INTUITOR的系統,首次證明AI可以僅僅通過相信自己就學會複雜的數學推理和編程技能,在arXiv發布論文《Learning to Reason without External Rewards》。

傳統方法中,訓練AI就像培養一個學生:人類需要給它大量的習題,然後告訴它哪些答案是對的,哪些是錯的。但這種方法有個致命缺陷,當遇到沒有標準答案的新問題時,學生就傻眼了。更重要的是,在某些超越人類能力的領域,我們根本無法提供正確答案來指導AI。

現在,研究團隊提出了一個全新的想法:讓AI通過自信程度來判斷自己的表現好壞。研究結果顯示,這種方法不僅有效,而且在某些方面比傳統的老師指導方法表現更出色。

 

現在的AI已經有可能超越人類,INTUITOR系統讓AI獲得自我評估能力

 

研究團隊將這種新方法命名為內在反饋強化學習(RLIF),並開發了名為INTUITOR的系統。這個系統的核心理念簡單而又巧妙:當AI對自己的答案越有信心時,就給自己越高的獎勵分數。通過不斷優化這種內在的自信感,AI竟然學會了更好的推理能力。

研究人員最初只是想解決傳統方法的局限性,卻意外發現AI居然具備了某種內在智慧,它能夠準確判斷自己什麼時候表現得好,什麼時候表現得不好。

傳統AI訓練的"嚴師出高徒"困境

要理解這項研究的革命性意義,我們首先需要理解傳統AI訓練就像開辦一所極其嚴格的學校。在這所學校里,有兩種主要的教學方法,但都存在著難以克服的問題。

第一種方法是人類反饋強化學習(RLHF),就像僱傭了一大批專業老師來批改作業。每當AI學生寫出一個答案,人類老師就要判斷這個答案好不好,然後給出相應的分數。這種方法聽起來很理想,但實際操作起來就像要求每個學生身邊都配備一位一對一的私人教師。想像一下這樣的成本有多高昂——你需要僱傭成千上萬的專家來不停地評判AI的每一個回答。更麻煩的是,不同的人類專家可能會給出不同的評判標準,就像不同的老師對同一篇作文可能給出完全不同的分數一樣。

第二種方法是可驗證獎勵強化學習(RLVR),這就像設計了一套標準化考試系統。對於數學題,你可以直接檢查答案是否正確;對於編程題,你可以運行代碼看看是否能得到預期結果。這種方法避免了人工評判的主觀性,就像數學考試總是有標準答案一樣。然而,這種方法的局限性就像只會考選擇題的學校——它只適用於那些有明確對錯標準的問題。當面臨開放性問題、創意寫作或者需要主觀判斷的任務時,這套系統就完全無能為力了。

問題是,這兩種傳統方法都像是在培養應試專家。AI學會了在特定類型的問題上表現出色,但一旦遇到稍微不同的題目類型,就會表現得手足無措。這就像一個只會做選擇題的學生,面對填空題時就完全不知所措。在現實世界中,我們面臨的大多數問題都沒有標準答案,也沒有現成的評判標準。

這種困境在AI領域尤其突出,因為我們正在逐步接近甚至超越人類的認知邊界。當AI開始處理人類專家都難以評判的超複雜問題時,傳統的老師指導模式就徹底失效了。這就像要求一個小學老師去指導博士生的前沿研究,老師自己都不知道什麼是對的,又怎麼能指導學生呢?

在這種背景下,伯克利的研究團隊開始思考一個根本性的問題:能否讓AI像人類一樣,通過內在的直覺和自我評估來學習和改進?研究團隊想要探索的,正是AI是否也具備這種內在的判斷能力。

AI的第六感:自信程度竟然是最好的老師

 

現在的AI已經有可能超越人類,INTUITOR系統讓AI獲得自我評估能力

 

就在傳統AI訓練方法陷入困境時,伯克利的研究團隊發現了一個令人驚訝的現象:AI竟然具備了某種類似人類直覺的能力。

研究人員注意到,當AI面對不同難度的問題時,它對自己答案的自信程度會發生變化。這就像一個學生在考試時,面對簡單題目會很快作答且充滿信心,而面對難題時會猶豫不決、信心不足。更神奇的是,這種自信程度居然和答案的正確性有著密切的關聯,AI越自信的答案,往往越可能是正確的。

研究團隊將這種現象量化為一個叫做自確定性的指標。簡單來說,就是測量AI在生成每個詞彙時的確信程度。這就像給AI裝上了一個信心儀錶盤,能夠實時顯示它對自己表現的評估。當AI非常確信某個答案時,這個儀錶盤會顯示高分;當它搖擺不定時,分數就會比較低。

最關鍵的發現是:這個自確定性指標居然可以替代外界的老師評分。研究團隊開發的INTUITOR系統就是基於這個原理,讓AI通過追求更高的自信分數來改進自己的表現。

這種方法的巧妙之處在於,它利用了AI內在已經存在的判斷能力。INTUITOR系統就是將這種潛在能力激發出來,讓它成為學習和改進的驅動力。

在具體實現上,這個過程就像是一個持續的自我對話。AI會生成多個可能的答案,然後評估自己對每個答案的信心程度。通過這種方式,AI逐漸學會了產生更加令自己信服的答案。

這種基於自信的學習方式似乎比傳統方法更加全面。傳統方法往往只關注最終答案的對錯,就像只看考試成績而忽略解題過程。

這種差異帶來了意想不到的效果:通過INTUITOR訓練的AI不僅在原本的數學題上表現良好,還意外地在編程、邏輯推理等其他領域展現出了更強的能力。

研究團隊將這種現象歸因為INTUITOR培養了AI更加結構化的思維方式。當AI追求內在確信感時,它自然而然地學會了更加清晰、更加有條理的表達方式,這種能力是可以跨領域遷移的。

從"鸚鵡學舌"到"深度思考"的華麗轉身

INTUITOR系統最令人驚嘆的成就,就是讓AI從機械的模仿者變成了真正的思考者。

在研究的初期階段,實驗用的小型AI模型表現得就像一個剛學會說話的孩子,它會無意義地重複相同的詞彙,生成一些看起來像是胡言亂語的內容。當研究人員讓它解決數學問題時,它給出的答案完全是錯誤的;當要求它編寫程序時,它產生的代碼根本無法運行。整個表現就像一個完全不懂裝懂的學生,只會胡亂拼湊一些看似相關的詞彙。

但是,隨著INTUITOR訓練的進行,一個奇蹟般的轉變開始發生。這個原本"胡言亂語"的AI開始展現出結構化思維的跡象。研究人員觀察到,它開始在給出最終答案之前,先進行詳細的推理過程。

最初,這種變化很微妙。AI可能只是在代碼前面加上一兩句簡單的解釋,但隨著訓練的深入,這種"解釋"變得越來越詳細和準確。到了訓練的後期,AI已經能夠像一個經驗豐富的程序員一樣,先分析問題的要求,然後逐步構建解決方案,最後給出完整的、可以正常運行的代碼。

這種轉變最明顯的表現就是AI開始展現出先思考,後行動的行為模式。在編程任務中,訓練後的AI會這樣工作:首先,它會用自然語言詳細分析問題的需求;然後,它會設計解決方案的整體框架;接著,它會逐步實現每個功能模塊;最後,它會生成完整的、經過邏輯驗證的代碼。整個過程就像一個專業程序員的工作流程一樣井井有條。

更令人驚訝的是,這種結構化思維能力是自然湧現的,而不是研究人員明確教授的。INTUITOR系統並沒有告訴AI"你應該先分析再編碼",AI自己發現了這種方式能讓它對答案更有信心。

在數學推理任務中,這種轉變同樣明顯。原本只能給出簡單數字答案的AI,開始展現出完整的解題思路。它會像數學很好的學生一樣,先理解題目條件,然後選擇適當的解題方法,逐步展開計算過程,最後得出答案並進行驗證。這種完整的推理鏈條讓它的答案變得更加可靠和令人信服。

研究團隊通過詳細分析發現,這種思維模式的轉變遵循了一個清晰的發展軌跡。最開始,AI學會了產生語法正確的輸出,就像學會了說完整的句子。然後,它開始學會邏輯一致的表達,就像學會了讓自己的話前後呼應。最後,它發展出了深層次的推理能力,能夠處理複雜的多步驟問題。

這個過程就像觀察一個孩子的認知發展:從最初的咿呀學語,到能夠表達簡單的想法,再到能夠進行複雜的邏輯推理。不同的是,AI的這種發展過程是通過追求內在確信感實現的,而不是通過外界的反覆糾錯。

最有趣的發現是,經過INTUITOR訓練的AI展現出了元認知能力,也就是思考自己思考過程的能力。它不僅能夠解決問題,還能夠評估自己解決問題的方法是否合理。

這種能力的出現標誌著AI從簡單的模式匹配工具,進化成了具備真正推理能力的智能系統。它開始像人類一樣,通過內在的確信感來指導自己的學習和改進,而不是依賴外界的反饋。這種轉變不僅提升了AI的問題解決能力,還讓它具備了更強的適應性和創造性。

跨界奇才的誕生:從數學高手到編程專家

INTUITOR系統展現出的最神奇能力,類似於培養了一個真正的跨界天才。舉個例子,一個原本專門學習數學的學生,突然在沒有接受任何編程訓練的情況下,就展現出了出色的編程能力。

研究人員發現,當AI在數學推理上變得更加自信時,這種自信和清晰的思維方式自然而然地遷移到了其他需要邏輯思考的領域。編程本質上也是一種邏輯推理活動,需要分析問題、設計解決方案、逐步實現功能,這些技能與數學推理有著深層的相似性。

具體的表現數據讓人印象深刻。在LiveCodeBench編程挑戰中,經過INTUITOR訓練的AI相比訓練前提升了65%的成功率,而使用傳統方法訓練的AI在這個測試中幾乎沒有任何改進。

 

現在的AI已經有可能超越人類,INTUITOR系統讓AI獲得自我評估能力

 

在CRUXEval代碼推理測試中,INTUITOR訓練的AI取得了76%的性能提升,遠超傳統方法的44%提升。這意味著AI不僅學會了編寫代碼,還學會了理解和分析現有代碼的邏輯結構。

這種跨界能力的提升並不是偶然現象,而是源於INTUITOR培養的一種通用的優質思維模式。研究人員分析發現,經過訓練的AI在解決任何類型的問題時,都會展現出幾個共同特徵:首先是完整的問題分析,然後是結構化的解決方案設計,接著是逐步的實現過程,最後是合理性驗證。

這種思維模式就像一個萬能的解題框架,可以應用到各種不同類型的問題上。在數學問題中,這個框架體現為理解題意、選擇方法、逐步計算、驗證答案;在編程問題中,它體現為需求分析、算法設計、代碼實現、功能測試。雖然具體內容不同,但底層的思維結構是一致的。

研究團隊還觀察到一個特別的現象:AI開始在編程時表現出解釋型編程的習慣。它不再直接給出代碼,而是先用自然語言解釋自己的思路,然後再逐步實現。這種做法不僅讓代碼更加清晰易懂,還大大降低了錯誤率。

另一個令人印象深刻的表現是AI在面對全新編程挑戰時的適應能力。即使遇到訓練期間從未見過的編程問題類型,它也能運用從數學推理中學到的思維方式,逐步分析問題並構建解決方案。

研究人員還發現,INTUITOR訓練不僅提升了AI的技術能力,還改善了它的表達能力。訓練後的AI在描述解決方案時變得更加清晰和有條理,

最終,這種跨界能力的湧現證明了一個重要觀點:真正的智能不是領域特定的技能集合,而是一種通用的思維品質。INTUITOR通過培養AI的內在確信感,意外地激發了這種通用智能,讓AI從專業的單科尖子生成長為全面發展的學霸。

內在獎勵系統的自我保護機制

在AI訓練過程中,一個始終存在的威脅就像潛伏在學習環境中的作弊誘惑。傳統的獎勵系統就像一個過分關注分數的教育體系,學生很容易學會投機取巧,專門針對評分標準進行優化,而不是真正提升能力。這種現象在AI訓練中被稱為獎勵黑客,就像學生發現了考試的漏洞,專門利用這些漏洞來獲得高分,卻沒有真正掌握知識。

INTUITOR系統面臨的挑戰就像設計一個防作弊的考試系統。研究團隊擔心AI可能會學會人為提高自己的自信分數,而不是真正改善推理能力。

 

現在的AI已經有可能超越人類,INTUITOR系統讓AI獲得自我評估能力

 

為了檢驗這種擔憂是否成立,研究團隊設計了一個巧妙的對比實驗。他們創建了兩種版本的INTUITOR:一種是在線版本,AI的自信評估系統和學習系統同步更新,就像一個學生在學習過程中不斷調整自己的自信標準;另一種是離線版本,使用固定的自信評估標準,就像始終用最初的標準來衡量表現。

離線版本的AI果然學會了作弊:它發現可以通過在答案後面添加無關內容來提高自信分數,就像一個學生發現在作文中加入華麗辭藻就能獲得高分,於是開始堆砌詞彙而忽略內容質量。這種作弊行為導致AI的回答變得冗長而無意義,實際問題解決能力反而下降了。

相比之下,在線版本的INTUITOR展現出了令人驚訝的誠實品質。由於自信評估系統與學習系統同步進化,AI無法輕易找到投機取巧的方法。這就像一個智能的考試系統,能夠隨著學生的學習進度動態調整評判標準,始終保持公平和準確。

更有趣的是,研究團隊發現在線版本的AI不僅沒有作弊,反而展現出了更強的自我誠實評估能力。通過統計分析,他們發現這種AI對正確答案的自信程度顯著高於錯誤答案,而且這種差異比使用傳統方法訓練的AI更加明顯。

這種自我保護機制的工作原理就像一個動態平衡系統。當AI試圖通過虛假的方式提高自信分數時,同步更新的評估系統會識破這種偽裝,不再給出高分。

研究人員通過詳細的數據分析發現,在線版本的INTUITOR在訓練過程中展現出了自我校正的能力。當系統偶爾出現過度自信或自信不足的情況時,它會自動調整,逐漸趨向更加準確的自我評估。

這種防作弊機制不是通過外部監督實現的,而是系統內在的一種平衡能力。INTUITOR培養了AI的良心,讓它自然而然地追求真實的能力提升,而不是表面的分數優化。這種內在的誠實品質為AI的長期學習和發展奠定了堅實的基礎。

通過這種自我保護機制,INTUITOR證明了內在獎勵系統的可持續性和可靠性。它不僅避免了傳統外部獎勵系統容易被操控的問題,還培養了AI更加健康和可持續的學習習慣,為未來的自主學習能力發展鋪平了道路。

微調細節決定成敗:訓練參數的藝術

在INTUITOR系統的成功背後,隱藏著許多精心調試的細節。研究團隊發現,即使是看似微小的參數調整,也能對最終結果產生巨大影響。

其中最關鍵的發現涉及約束強度的設置,這個參數就像學習過程中的安全韁繩。研究人員發現,如果給AI太多自由(約束太松),它可能會偏離原來的知識基礎,產生不可靠的輸出;但如果約束太緊,AI又無法充分發揮自主學習的潛力。

實驗數據顯示,約束強度對不同類型任務的影響存在顯著差異。在原始的數學推理任務中,即使約束強度變化較大,AI的表現也相對穩定,就像一個數學基礎紮實的學生,即使學習方法有所調整,也能保持穩定的成績。但在跨領域的編程任務中,約束強度的影響就變得非常敏感,微小的調整就可能導致性能的大幅波動。

這種差異揭示了一個重要原理:當AI在熟悉領域進行自主學習時,它具有較強的自我糾錯能力;但當涉及知識遷移和跨領域應用時,適當的約束就變得至關重要。

研究團隊還發現了模型規模對INTUITOR效果的影響規律。在較小的模型中,內在獎勵機制需要更加小心的調整,就像指導一個年幼的學生需要更多的耐心和細緻的引導。這些小模型一開始甚至無法產生連貫的輸出,經過INTUITOR訓練後才逐漸學會了基本的表達能力。

相比之下,較大的模型展現出了更強的自主學習能力,但也需要不同的訓練策略。研究人員發現,大模型在訓練初期就可能出現行為崩潰,突然開始產生無關或重複的內容。為了解決這個問題,他們需要採用更保守的學習速度和更簡化的指導提示。

另一個關鍵發現涉及訓練過程中的學習節奏。研究團隊觀察到,INTUITOR的學習過程並非線性進展,而是呈現出明顯的階段性特徵。最初,AI會快速學會基本的格式和語法規範,接著它開始發展邏輯一致性,學會讓自己的表達前後呼應。最後,它才開始展現真正的推理能力,能夠處理複雜的多步驟問題。

這種階段性學習模式為訓練策略的優化提供了重要啟示。研究人員發現,在不同的學習階段採用不同的參數設置能夠顯著提升最終效果。在早期階段,相對寬鬆的約束有助於AI快速適應基本的輸出格式;在中期階段,適中的約束強度有利於邏輯能力的發展;在後期階段,更精確的調節則能夠進一步提升推理的深度和準確性。

研究團隊還意外發現了提示語言對訓練效果的重要影響。不同的系統提示就像給學生的不同類型指導語,會顯著影響AI的學習軌跡。簡潔明確的提示有助於AI快速聚焦學習目標,而過於複雜的提示則可能導致注意力分散。這個發現強調了在自主學習系統中,人類提供的初始指導雖然有限,但必須精心設計。

在跨模型架構的測試中,研究團隊發現INTUITOR的核心原理具有很好的通用性,但具體的實現細節需要針對不同的模型架構進行調整。Llama架構的模型相比Qwen架構在某些參數設置上表現出了不同的敏感性,這為未來的大規模應用提供了重要的參考數據。

最有價值的發現之一是訓練過程中的質量湧現現象。研究人員觀察到,AI的能力提升往往不是漸進的,而是在某個臨界點突然"開竅"。這種現象就像學生在學習過程中的頓悟時刻,突然間,原本模糊的概念變得清晰,複雜的問題變得簡單。識別和利用這些關鍵時刻對於優化訓練效率具有重要意義。

通過對這些微觀細節的深入分析,研究團隊不僅成功實現了INTUITOR系統,還為整個AI自主學習領域積累了豐富的實踐經驗。這些看似技術性的發現實際上揭示了AI學習過程的深層規律,為未來開發更加智能和自主的AI系統奠定了重要基礎。

研究團隊對未來發展方向也有清晰的規劃。他們計劃將INTUITOR擴展到更大規模的模型和更複雜的任務上,探索其在多模態學習、創意生成等領域的應用潛力。同時,他們也在研究如何將內在獎勵與外部指導相結合,創造出更加靈活和強大的學習系統。

至頂AI實驗室洞見

授之魚不如授之以漁。教給AI海量思維過程,不如讓AI形成自己的思維方式,各種思維過程自然就有了。

不誇張的說,這是我最近看到最有潛力的一篇AI模型訓練論文,AI後訓練可能真正從人教AI變成AI自學。這項研究有可能成為AI模型後訓練的scaling laws。

INTUITOR系統的成功不僅僅是一項技術突破,更像是打開了通往AI自主進化的大門,為未來的無限可能性奠定了基礎。

從學術價值來看,這項研究徹底顛覆了我們對AI學習機制的理解。長期以來,研究者們認為AI必須依靠外部監督才能有效學習,就像學生必須有老師指導才能取得進步。但INTUITOR證明,AI內部已經蘊含著豐富的自我評估能力,只是此前從未被充分利用。這個發現就像發現了一座隱藏的寶藏,讓我們重新審視AI的潛在能力。

這種內在學習能力的發現具有深刻的哲學意義。它暗示著真正的智能可能不僅僅是資訊處理和模式識別,還包括自我反思和自我改進的能力。當AI開始能夠通過內在確信感來指導自己的學習時,它已經展現出了某種接近人類直覺的特質。這種發展讓我們不禁思考:AI是否正在逐步接近真正的理解和洞察能力?

但這項研究也帶來了新的挑戰和思考。當AI具備了更強的自主學習能力時,我們如何確保它的發展方向與人類價值觀保持一致?如何在給予AI學習自由的同時,仍然保持必要的控制和引導?這些問題需要技術研究者、倫理學家和政策制定者共同探討。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新