你是否厭倦了各種AI炒作?

2025年10月21日,來自斯坦福大學、MIT、加州大學伯克利分校等全球29所頂尖研究機構的學者共同完成研究,首次建立了量化評估AGI的完整框架。研究基於心理學權威的CHC理論,將通用智能分解為10個可測量的認知領域,每個領域占10%,總分100%代表達到人類認知水平。測試結果顯示,GPT-4得分27%,GPT-5得分58%,呈現出"鋸齒狀"能力分布,在知識和語言方面接近滿分,但長期記憶存儲為零分。
想像一下,你去醫院做體檢,醫生不僅要測血壓、驗血,還要檢查心肺功能、視力聽力、反應速度等等。只有各項指標都合格,才能說你身體真正健康。同樣的道理,這個研究團隊認為,要判斷一個AI是否真正"聰明"到了人類的水平,也需要這樣一套全面的檢查標準。他們給這個目標起了個名字:AGI,也就是"通用人工智慧"。
什麼是通用人工智慧呢?簡單說,就是一個AI不僅能下棋、不僅能寫文章,而是能像一個受過良好教育的成年人那樣,面對各種各樣的認知任務都遊刃有餘。就像一個全科醫生,不是只會看感冒或只會做手術,而是各科都懂一些,能應對大部分病症。
可問題來了:怎麼判斷一個AI是否達到了這個標準呢?以前,科學家們對AGI的定義非常模糊,就像大家都說"聰明",但每個人心裡對"聰明"的標準可能完全不同。有人覺得會下圍棋就很聰明,有人覺得會寫詩才算聰明。這種模糊性給研究和評估帶來了巨大困擾,你無法衡量一個東西,就很難知道我們離目標還有多遠。
這就是這篇論文的重要性所在。研究團隊決定,不再滿足於含糊其辭的定義,而是要建立一套可以打分的標準,就像我們的體檢報告會給每項指標一個具體數值一樣。他們的思路很巧妙:既然人類是目前唯一擁有"通用智能"的生物,那就參照人類大腦的運作方式來設計測試。
為了做到這一點,研究團隊借鑑了心理學領域最權威的智力理論——CHC理論(Cattell-Horn-Carroll理論)。這個理論是心理學家花了一百多年時間,通過大量實驗和數據分析總結出來的,基本上把人類的智能拆解成了各個可測量的部分,就像把一台複雜的機器拆成零件一樣。這個理論的優勢在於,它不是拍腦袋想出來的,而是基於大量真實數據驗證過的。事實上,現在幾乎所有主流的智力測試,都是按照CHC理論的框架設計的。
基於這個理論,研究團隊把"通用智能"分成了十個大類,每個大類占10分,總分100分。這就像體檢有十個大項目一樣。這十個認知領域涵蓋了從知識儲備、語言能力、數學能力到記憶力、反應速度等各個方面。他們給這個評分系統起名叫"AGI分數",100分就代表完全達到了人類的認知水平。
現在到了最激動人心的部分:當研究團隊用這套標準去測試當前最先進的AI系統,比如GPT-4和GPT-5時,結果卻讓人大吃一驚。
意外的"體檢報告":AI的智能竟然如此"偏科"
如果你以為GPT-4或GPT-5這樣的頂級AI會在各項測試中都接近滿分,那你可能要失望了。GPT-4的總分只有27分(滿分100),GPT-5也只有58分。更令人驚訝的是,這些分數的分布極不均勻,就像一個學生偏科嚴重,有的科目接近滿分,有的科目卻是零分。

研究團隊把這種現象形象地稱為"鋸齒狀"能力分布。想像一把鋸子,鋸齒有高有低,參差不齊。GPT-5在某些領域的表現確實令人印象深刻,比如在知識儲備、閱讀寫作、數學能力上都能拿到9-10分(滿分10分)。這就好比一個學霸,語文數學歷史都考90多分。但是,同樣是這個"學霸",在長期記憶存儲這一項上卻得了零分,完全不及格!
這是什麼概念呢?就好比一個人記憶力超強,能背誦整本百科全書,但只要你和他聊完天轉身離開,第二天他就完全不記得你說過什麼。每次見面都像第一次見面一樣,需要重新介紹自己。這種"健忘症"對於一個號稱智能的系統來說,簡直是致命缺陷。
為什麼會出現這種奇怪的現象呢?研究團隊發現,當前的AI系統其實是在用它的強項來彌補弱項,這種策略被他們稱為"能力扭曲"。打個比方,就像一個沒有長期記憶的人,為了應付日常生活,不得不隨身帶著一個巨大的筆記本,把所有資訊都記在上面。雖然表面上看起來他能"記住"很多事,但實際上他只是在不停地翻筆記本,而不是真的記在腦子裡。
這種補償策略在短期內看起來有效,但實際上既低效又脆弱。就像那個隨身帶筆記本的人,一旦筆記本丟了或者資訊太多翻不過來,整個系統就崩潰了。對AI來說,這意味著它們雖然看起來能處理很多任務,但一旦遇到真正需要持續學習、積累經驗的場景,就會暴露出嚴重的局限性。
十項全能測試:給AI的大腦做全方位掃描
那麼,研究團隊具體是如何測試這十個認知領域的呢?讓我們像參觀一個大型體檢中心一樣,逐一了解每個檢查項目。

第一站是"知識儲備"檢查室。這裡測試的是AI掌握了多少常識、科學知識、社會知識和歷史文化。就像問一個人:"你知道月球為什麼總是同一面朝向地球嗎?""美國總統是誰?""二戰是怎麼結束的?"這些都是受過良好教育的成年人應該知道的基本知識。測試結果顯示,GPT-4在這方面得了8分(滿分10分),GPT-5得了9分。這說明這些AI確實"讀過很多書",知識面相當廣泛。
第二站是"讀寫能力"檢查室。這裡不僅測試AI能否讀懂複雜文章,還要看它能否寫出組織清晰、邏輯嚴密的文字。比如給它一篇長達幾千字的產品說明書,問"這個產品的保修期是多久?"或者讓它寫一篇關於"遠程工作利弊"的文章。結果顯示,GPT-4在這方面得了6分,GPT-5則提升到了10分。這意味著最新的AI在理解和生成文字方面已經達到甚至超越了人類平均水平。
第三站是"數學能力"檢查室。這裡的測試從簡單的算術一直到微積分,涵蓋了代數、幾何、概率論等各個數學分支。比如會問:"一個公司最初有200名員工,每月新增20人,每人月薪4000美元,三個月後總工資支出是多少?"或者更複雜的幾何問題。GPT-4在這裡只得了4分,而GPT-5則躍升到了滿分10分,說明新一代AI在數學能力上有了質的飛躍。
第四站是"即時推理"檢查室,這裡測試的是AI面對全新問題時的思考能力。注意,這不是靠背答案能解決的,而是需要臨場分析、推理、規劃。比如給AI一個邏輯謎題:"大衛認識張先生的朋友傑克,傑克認識大衛的朋友林女士。認識傑克的人都有碩士學位,認識林女士的人都來自上海。那麼誰既來自上海又有碩士學位?"這需要AI像偵探一樣,根據線索一步步推理出答案。GPT-4在這方面得了零分!而GPT-5得了7分,有了顯著進步,但仍然不完美。
第五站是"工作記憶"檢查室。工作記憶就像電腦的內存,是你正在處理資訊時的臨時存儲空間。比如測試會給AI展示一串數字[10, 20, 30],然後要求"先在末尾加上40,再把整個列表倒序"。或者給AI看一組圖片,過一會兒再問"剛才那組圖里哪個飛機也出現在了現在這組圖里?"GPT-4得了2分,GPT-5得了4分,說明在這方面還有較大提升空間。
第六站是"長期記憶存儲"檢查室。這是檢測的重災區!長期記憶存儲是指能否把新學到的東西長久地記在"腦子裡",以便將來使用。比如今天你教AI認識了三個新朋友的名字和愛好,兩天後再問它"還記得那個喜歡園藝的人叫什麼名字嗎?"結果,無論GPT-4還是GPT-5,在這一項上都是零分!這就像一個每天早上醒來都會失憶的人,雖然他很聰明,但無法積累經驗,無法真正成長。
第七站是"長期記憶檢索"檢查室。這測試的是AI能否快速準確地從它已有的知識庫中調取資訊,以及最關鍵的:它會不會"編造"不存在的資訊。比如問"拿破崙在南非戰役中使用了什麼關鍵戰略?"正確答案應該是"拿破崙從未在南非作戰,這個問題本身有誤"。但如果AI信口開河編造一個答案,就說明它的記憶檢索存在嚴重問題。這種"編造"在AI領域被稱為"幻覺"。GPT-4和GPT-5在快速檢索方面都得了4分,說明速度還可以,但在避免幻覺方面都是零分,意味著它們經常會自信滿滿地說出錯誤資訊。
第八站是"視覺處理"檢查室。現代AI應該能"看懂"圖片和影片。測試包括識別圖片內容、給圖片寫說明、判斷視覺上的異常、甚至創造新圖片等。比如給AI看一張扭曲的圖片問"這是什麼動物?"或者讓它生成一張"金毛獵犬在公園玩耍"的圖片。GPT-4因為完全不具備視覺能力得了零分,而GPT-5得了4分,說明有了基本的視覺能力,但還遠不夠完善。
第九站是"聽覺處理"檢查室。這裡測試AI能否理解語音、識別音樂節奏、判斷音調高低等。比如播放一段話讓AI轉寫成文字,或者播放兩段節奏問"這兩段節奏一樣嗎?"同樣,GPT-4得了零分,GPT-5得了6分,表現比視覺處理稍好一些。
最後一站是"速度"檢查室。這裡測試的不是AI能做什麼,而是做得有多快。包括閱讀速度、打字速度、反應時間等十個子項目。想像一個場景:給AI展示一大段文字,裡面藏著字母"a"和"t",要它快速數出有多少個。或者突然給它一個指令"看到這句話後立即說'你好'",測試它的反應時間。結果顯示,GPT-4和GPT-5在讀寫和簡單計算方面速度尚可,各得3分,但在需要多模態處理(比如同時處理圖像和聲音)的速度測試中表現很差。特別是GPT-5,雖然能力更強,但因為需要"思考"的時間太長,反而拖慢了速度。
透過體檢報告看本質:AI"聰明"得很特別
當我們把這十項測試的結果放在一起看時,就會發現一個有趣的模式:當前的AI系統並不是全面的"笨"或"聰明",而是在某些方面極其出色,在另一些方面卻幾乎無能。這就像一個人可能是數學天才,但卻完全不會游泳、不會騎車,他的智能是"碎片化"的,而不是"通用"的。
研究團隊深入分析後指出,這種不均衡背後有深層原因。首先,目前的AI訓練方式決定了它們擅長處理已有的大量數據。想像一下,如果你能瞬間閱讀網際網路上所有的書籍、文章和網頁,你當然會在知識測驗中表現出色。這就是為什麼GPT在知識儲備、閱讀理解這些"見多識廣"就能做好的領域表現優秀。
但是,真正的智能不僅僅是"知道很多",更重要的是"會學習新東西"和"能靈活應用"。這就涉及到我們大腦中一些更基礎的認知機制,比如長期記憶的形成、臨時資訊的操作、快速的模式識別等。這些能力看似簡單(畢竟連小孩子都能記住昨天發生的事),但對AI來說卻極其困難。
舉個具體例子來說明這種差異。假設你在教AI學習一個新的工作流程。對人類來說,你可能示範幾次,解釋一下原理,過幾天再複習一遍,這個流程就基本記住了,以後遇到類似情況能舉一反三。但對當前的AI來說,要麼它根本記不住(長期記憶為零),要麼你得每次都把整個流程重新輸入一遍(用工作記憶補償),而且它很難判斷什麼時候該用這個流程,什麼時候不該用(推理能力不足)。
更嚴重的問題是,為了彌補這些根本性缺陷,AI開發者採用了一些"曲線救國"的辦法,研究團隊稱之為"能力扭曲"。最典型的例子就是用超大的"工作記憶"(也就是所謂的上下文窗口)來代替真正的"長期記憶"。這就好比一個人因為記不住東西,所以隨身帶著一個超大的背包,裡面裝滿了筆記、文件和資料。需要什麼資訊就在背包里翻找。這種方法雖然表面上能工作,但效率極低,而且有嚴重的局限性:背包容量終究有限,翻找速度也慢,最關鍵的是,這樣的系統永遠無法真正"學習"和"成長"。
另一個補償策略是依賴外部搜索工具。因為AI經常會"幻覺",也就是自信地說出錯誤資訊,所以現在的解決辦法是給它配上網際網路搜索功能,需要什麼資訊就實時去網上查。這又像一個人雖然記憶力很差,但手機網路很快,什麼都可以百度。可問題是,這不是真正意義上的"記憶",只是一種外部依賴。而且這種方法無法處理私密資訊、個人經歷這些不在網際網路上的知識。
研究團隊特別強調,這些"能力扭曲"現象如果不被識別和理解,會給我們對AGI進展的判斷帶來嚴重誤導。我們可能會因為AI在某些任務上表現出色,就誤以為它已經很接近通用智能了,但實際上它只是在用各種補償策略掩蓋根本性的認知缺陷。這就好比一個只會爬行的機器人,通過安裝各種輔助輪子和支撐架,看起來能"走路"了,但本質上它還是不會真正的雙足行走。
一個類比:把智能想像成"發動機"
為了幫助我們更直觀地理解這些發現,研究團隊提出了一個精妙的類比:把智能系統想像成一台高性能發動機。

一台發動機的總功率(相當於整體智能水平)取決於它所有零部件的配合。即使你有世界上最好的活塞、最先進的燃油噴射系統,只要有一個關鍵部件嚴重故障,比如冷卻系統完全失效,整台發動機的性能就會被拖垮,甚至根本無法運轉。
當前的AI系統就像一台有著超強渦輪增壓器(知識儲備)、高效變速箱(語言處理)、精密電子控制系統(數學能力)的發動機,但它的冷卻系統(長期記憶)和潤滑系統(記憶檢索)卻幾乎不存在。短期內,通過各種臨時措施,比如不停地澆冷水降溫、頻繁更換零件,這台發動機也許能勉強運轉,但它永遠無法真正發揮應有的性能,也無法長時間穩定工作。
這個類比還揭示了另一個重要洞察:智能的各個部分不是孤立的,而是高度相互依賴的。比如說,即使你數學能力再強(數學能力10分),如果推理能力跟不上(推理能力低分),你可能連複雜的數學應用題都做不好,因為你不知道該用哪個公式、按什麼步驟解題。再比如,理解一部電影需要同時調用視覺處理(看畫面)、聽覺處理(聽對白)、工作記憶(記住劇情)和推理能力(理解人物動機)。如果其中任何一環較弱,整體理解就會大打折扣。
從這個角度看,當前AI的58分(GPT-5)雖然看起來"及格"了,但因為有幾個關鍵部件是零分,這台"發動機"實際上還遠遠談不上是一台真正的"通用智能"發動機。它更像是一台特殊用途的機器,在某些特定賽道上跑得飛快,但換個環境就完全不行了。
至頂AI實驗室洞見
讀到這裡,你可能會想:那又怎麼樣呢?這些技術細節離我們普通人的生活很遠吧?其實不然。這項研究的發現對我們理解和使用AI有著非常實際的意義。
首先,它幫助我們建立正確的預期。現在各種媒體經常報道"AI要超越人類了"、"AGI即將來臨"這樣的標題。但這項嚴謹的研究告訴我們,即使是最先進的AI系統,離真正的通用智能還有很長的路要走。它們雖然在某些方面表現驚人,但在很多人類認為理所當然的基礎能力上還有巨大缺陷。了解這一點,我們就能更理性地看待AI技術的發展進程,既不過度恐慌也不盲目樂觀。
其次,它指明了AI研究的關鍵突破方向。過去,研究人員可能會認為只要不斷增加訓練數據、擴大模型規模,AI就會越來越"聰明"。但這項研究清楚地表明,單純的規模擴大是不夠的,必須要解決一些根本性的架構問題,特別是長期記憶機制。這就好比建造摩天大樓,如果地基有問題,樓層蓋得再高也是危險的。研究團隊指出,解決長期記憶問題可能需要全新的技術方案,比如動態調整模型參數的機制,讓AI能夠像人類一樣通過不斷的經歷來"成長"。
第三,它對AI的實際應用有重要指導意義。比如,既然我們知道當前AI的長期記憶幾乎為零,在設計AI產品時就要特別注意這一點。你不能指望一個AI助手今天和你深入討論了一個項目方案,明天就能主動記起來繼續推進,除非你每次都重新告訴它所有背景資訊。了解這些局限性,能幫助我們更好地設計人機協作的工作流程,揚長避短。
第四,這項研究還提醒我們關注AI的"幻覺"問題。當AI自信滿滿地告訴你一個資訊時,它很可能是在"編造"而不是真的"知道"。就像研究中提到的,GPT們在避免幻覺方面都是零分。這意味著在使用AI時,我們必須保持批判性思維,特別是在做重要決策時,不能完全依賴AI提供的資訊,而要進行獨立驗證。
最後,從更宏觀的角度看,這項研究揭示了"智能"這個概念的複雜性和多面性。我們往往會簡單地說某個人或某個AI"聰明"或"不聰明",但實際上智能包含許多不同的維度。一個在知識競賽中表現出色的人,可能在需要快速反應的運動中表現平平;一個擅長數學的人,可能在人際交往中比較笨拙。承認這種多樣性,能幫助我們更全面地評價和發展智能,無論是人類的還是人工的。
這篇論文最大的貢獻不是告訴我們AI有多強或多弱,而是給了我們一把真正的尺子,讓我們能夠客觀、具體地衡量AI的智能水平。有了這把尺子,我們就不會被各種炒作或恐慌所左右,而是能夠基於事實來討論AI的現狀和未來。
這種清晰性對於AI這個影響深遠的技術領域來說,再重要不過了。畢竟,只有先搞清楚"我們在哪裡",才能更好地規劃"我們要去哪裡"以及"我們該怎麼去"。而這,正是這項研究為整個AI領域帶來的寶貴禮物。


 
             
             
                            




