這項由哈佛大學、麻省理工學院及2077AI聯合開展的研究,以預印本形式發布於2026年6月1日,論文編號為arXiv:2606.02859,感興趣的讀者可通過該編號查閱完整原文。
在人工智慧的世界裡,有一個一直讓研究者頭疼的問題:一個再強大的AI,也有它力所不及的地方。它的記憶有限,視野有限,計算資源有限。當任務變得足夠複雜——比如完整地解決一道奧賽級數學題、從頭到尾做一份上市公司的財務研究報告,或者設計一塊性能卓越的晶片——單打獨鬥幾乎註定會碰壁。
於是,研究者們自然而然地想到了一個方向:讓多個AI協作。但問題接著來了:怎麼協作?誰來指揮?誰做什麼?
目前最常見的做法是設置一個"總指揮官"——一個中央調度系統負責分配任務、協調各方。這個方案聽起來合情合理,但實際上暗藏兩個根本性的隱患。第一,所有的資訊和決策都必須流經這個總指揮官,一旦它出了問題,整個系統就會癱瘓,這就像一家公司所有郵件都必須由CEO親自批覆才能發出去一樣,既低效又脆弱。第二,隨著AI數量的增加,總指揮官需要處理的協調工作呈線性增長,系統規模越大,指揮官就越不堪重負。
這支來自哈佛與MIT的研究團隊換了一種思路。他們不再問"怎麼設計一個更好的總指揮官",而是問了一個截然不同的問題:能不能根本就不要總指揮官,讓AI群體自己管理自己?
這個靈感來自一位1974年諾貝爾經濟學獎得主——弗里德里希·哈耶克。哈耶克在他著名的文章《知識在社會中的運用》里提出,市場經濟面對的核心難題不是"在已知資訊下做最優決策",而是"如何利用分散在每個個體手中、無法被任何中央機構匯總的碎片知識"。他的答案是:價格機制。價格作為一種信號,把無數分散的資訊聚合起來,讓每個人無需了解全局就能做出合理決策,從而湧現出整體上的秩序與效率。
研究團隊將這套邏輯搬進了AI的世界,創造了一個他們稱之為"智能經濟體"的系統(Economy of Minds,簡稱EOM)。在這個系統里,AI們不再聽從統一指揮,而是像市場中的參與者一樣:競標、交易、積累財富、優勝劣汰。結果出人意料——一群能力殘缺的"弱AI",在這套經濟機制的驅動下,自發組織成了超越單個強大AI的集體智慧。
一、每個AI都是一個"市場參與者"
要理解這套系統,可以把它想像成一場無休止的拍賣會,拍賣的標的是"誰來做下一步動作"的權利。
在EOM中,每個AI都有三個基本屬性:一個"觸發條件"(決定自己在什麼情況下舉手參與競爭)、一套行動策略(決定自己被選中後做什麼),以及一個固定的"出價"(決定自己參與競標時願意出多少錢)。此外,每個AI還有一個"賬戶",記錄著它目前積累的財富。
當系統面對一個任務的某個時間節點時,所有滿足觸發條件的AI都會舉手,說"我來!我來!",然後出價最高的那個贏得本次行動權,去執行它的策略,推動任務向前走一步。
這就是拍賣機制的運作方式——完全去中心化,沒有任何一個AI知道全局情況,也沒有任何一個AI在發號施令。
但光有拍賣還不夠。拍賣結束後,還有一套"交易結算"規則。贏得本次行動的AI,需要把它的出價金額支付給上一步贏家;同時,如果這一步從環境中獲得了實際獎勵(比如正確解答了一道題),這筆獎勵就歸這一步的贏家所有。
這套支付規則有一個精妙之處:它製造了一種"價值向前傳播"的效應。如果某個AI做出了一步好棋,讓系統進入了一個有利的狀態,那麼下一步的競爭者會願意出高價來爭奪行動權——因為下一步很可能拿到大獎勵。於是,上一步的AI就因為"創造了好局面"而收到了豐厚的回報。反過來,如果某個AI把局面搞砸了,後續競爭者會出低價甚至沒人參與,上一步AI就虧損了。
這種機制在學術上被稱為"桶鏈傳遞"(bucket-brigade transfer),本質上是一種不需要中央監督的信用分配系統。一步行動的價值,會通過"下家願意出多少錢"來自動體現,並逐步向前傳導。
二、"適者生存":經濟選擇如何塑造AI群體
拍賣機制解決了"每步誰來做"的問題,但系統還需要解決另一個問題:隨著時間推移,哪些AI應該留下來,哪些應該被淘汰,以及如何產生更好的新AI?
答案依然來自經濟學邏輯。每個AI都要繳納"房租"——每隔一段時間,系統會從每個AI的賬戶里扣除一筆固定費用。如果一個AI的賬戶餘額跌為負數,它就宣告"破產",被從系統中移除。
這個機制非常殘酷但也非常公平:一個AI如果長期無所作為,或者每次行動都幫倒忙,它的財富就會被房租一點一點耗盡,最終消失。相反,那些能真正推動任務向好的方向發展的AI,會持續積累財富,存活下去。
存活下來的"富有"AI還會被系統當作"父代"進行繁殖——通過修改它的觸發條件或行動策略,產生略有變化的"子代"AI投入系統。這個過程叫做"剝削"(exploitation),目的是放大成功經驗。與此同時,對於那些破產的AI,系統也不會簡單丟棄,而是分析它們失敗的原因,生成經過修正的新版本重新投入運行,這叫做"探索"(exploration),目的是從失敗中學習、發現新的可能性。
這種機制使得整個AI群體像一個真實的市場生態:有競爭,有淘汰,有繁殖,有進化,但沒有任何一個外部力量在主導這一切——驅動一切的只是經濟信號。
三、理論基礎:為什麼這套機制從數學上是"說得通的"
研究團隊不只是做了實驗,他們還為這套機制提供了嚴謹的理論支撐,並用數學語言證明了幾個關鍵命題。
第一個命題關於"出價會趨向價值"。從長期來看,在某個特定場景下反覆贏得競標的AI,其出價會收斂到一個合理區間——既不會高得讓自己虧本(因為虧本就會破產),也不會低到讓更好的競爭者輕易擠進來。換句話說,市場選擇會自動把存活的出價校準到"最優專家的真實價值"附近,誤差不超過新人AI的出價擾動量。
第二個命題關於"只靠最終結果獎勵就夠了"。在強化學習領域,一個經典難題是"稀疏獎勵"——如果只有任務完成時才有獎勵,而過程中沒有任何反饋,AI很難知道哪些步驟是有價值的。EOM的桶鏈支付機制提供了一種優雅的解決方案:即使環境只在最後給一個獎勵,前面每一步的AI都能通過"下一步願意出多少錢"來感知自己這一步是否有價值。理論證明,只要系統已經進化出了足夠好的AI群體,僅憑最終結果獎勵就足以維持系統的高性能,不需要設計複雜的過程獎勵。
第三個命題關於"相對於集中式最優調度的遺憾量"。假設存在一個全知全能的中央調度員,每一步都能挑選出最佳AI來執行——這是理論上的性能上限。研究證明,EOM這套去中心化拍賣機制與這個假想上限之間的差距會隨著時間推移以O(E??/?)的速度收縮,也就是說,運行的任務越多,系統越接近理論最優,平均遺憾量趨向於零。
四、五個戰場上的實戰檢驗
理論再漂亮,也需要真實任務的檢驗。研究團隊選擇了五個差異極大的領域來測試EOM,而且每次都刻意給EOM配備"能力殘缺"的局部AI(只能訪問部分工具、只有短輸出預算、只負責特定角色),然後與使用完整能力的單一AI基準進行比較。
在數學推理方面,測試用的是MATH數據集——一個涵蓋從初級到競賽級難度的數學題庫。EOM的AI群體初始化時使用了Llama-3.1-8B這個相對較小的模型,每個AI只負責"計劃下一步"、"執行計算"或"驗證結果"之一,且每次輸出被限制在平均128個詞以內。就是這樣一群"殘缺"的AI,經過經濟機制的訓練後,準確率從最初的15.9%飛躍到57.0%,超越了使用同款模型、擁有完整能力的單一AI基準(51.9%)。用Gemma-2-9B模型時,同樣的現象復現了:從4.2%提升到45.1%,同樣超過了單一AI基準的44.3%。
在金融研究方面,測試用的是Finance-Agent-Bench基準,任務是根據上市公司財務文件回答專業問題,環境提供四個工具。EOM的每個局部AI只能訪問其中一個工具,但整個群體在經歷30個訓練任務後,準確率從初始的45.0%提升到60.0%,超越了多智能體辯論基準(50.0%)、REACT單智能體基準(45.0%)以及另一個自進化系統GEA(50.0%)。
在科學研究方面,測試使用FrontierScience-Research基準,任務是解答需要專業知識的開放式科學問題。EOM的平均準確率達到8.5%,最佳單次準確率達到20.0%,而對照系統GEA在同款模型下的平均準確率僅有1.8%,最佳單次僅5.0%——提升幅度非常顯著。
在晶片加速器設計方面,任務是為24個不同規格的卷積計算核心找到最優的硬體映射方案,以最小化能量與延遲的乘積(EDP,越低越好)。EOM的平均EDP達到39.3,優於使用相同模型的單一REACT智能體(43.1),更大幅優於一個專門設計的非AI方法DOSA(80.2)。在最難啃的那幾個卷積核上,EOM比DOSA分別好了37.5倍、26.3倍、17.3倍和12.0倍。
在分布式系統優化方面,任務是疊代地優化一個多雲廣播路由程序,最小化總數據傳輸成本。EOM在三次嘗試中的平均總成本為673,最優單次為657,而對照系統OpenEvolve的最優成本為930——EOM在使用更少優化輪次的情況下,實現了28%的成本降低。
五、經濟機制的解剖:去掉哪個零件會怎樣
研究團隊還做了一系列"拆零件"實驗,驗證每個經濟機制組件的必要性。
在MATH任務上,原始系統的平均準確率為43.9%,最佳單次57.0%。當把房租調高10倍時,性能降到均值41.8%、最佳47.0%;把獎勵縮小到原來的20%時,降到39.0%和44.0%;把獎勵放大4倍也同樣有害,降到40.9%和47.0%。這說明系統對經濟參數的平衡非常敏感——獎勵太小激勵不足,獎勵太大或房租太高則會造成AI過早破產,破壞了生態的穩定性。
在金融研究任務上,拆掉"探索"機制(不再引入修正失敗AI的新版本),均值暴跌到26.0%、最佳40.0%;拆掉"剝削"機制(不再繁殖成功AI的後代),均值降到33.5%;拆掉拍賣機制(取而代之以隨機選擇),均值降到48.0%、最佳58.5%。而保留所有機制的完整系統,均值52.5%、最佳65.0%——均為最高。
更有說服力的對比來自分布式系統優化任務:EOM的最優成本是673,而一個使用同等數量AI但不經過市場選擇進化的"最優N樣本"基準,最優成本只能達到999。多AI採樣本身並不能解釋性能提升——必須有市場選擇驅動的進化,才能真正改變遊戲規則。
六、內部發生了什麼:經濟如何塑造AI的思維和協作方式
實驗結果只是表面現象,研究團隊還深入到系統內部,追蹤了經濟機制究竟如何一步步改變AI群體的行為模式。
在科學研究任務中,研究團隊追蹤了一個名為"執行者"(EXECUTER)角色的AI家族的演化軌跡。最初的執行者只是一個通用的推導模組,讓它"展示中間代數過程,追蹤符號和單位"。隨著訓練的進行,這個AI家族經歷了五代進化。第一代學會了把抽象關係拆成可逐一核查的標量方程,這一改變源於一次處理宇宙微波背景輻射參數推斷任務時發現的技巧。第二、三代學會了在開始代數推導之前先識別核心物理原理、檢驗極限情況和約束條件。第四代學會了在動手之前先數方程個數和未知數個數,發現問題是否有定解。第五代學會了利用對稱性,並將最終結果代回原方程驗證正確性——把原本需要外部"驗證者"AI來做的事情內化到了自己的策略里。
這套進化出來的推理程序,最令人驚嘆的特點是它的可遷移性。它被物理任務磨礪出來,卻可以直接用於化學、藥理學、核磁共振光譜學和生物學任務,因為它學到的不是某個領域的具體知識,而是一套通用的科學推理操作程序。在40個訓練輪次中,成功輪次里有9/11都由這個家族的後代承擔,而這些成功案例橫跨了從Josephson結到α4β2 nAChR受體再到鈀催化C-N鍵反應的廣泛科學領域。
執行者策略的進化還帶來了一個意想不到的宏觀效果:AI群體的協作拓撲(即每次任務中各角色按什麼順序參與)也隨之改變了。在訓練早期,成功的任務軌跡往往需要10步、涉及全部5個角色,形成"文獻→計劃→執行→驗證→執行→驗證→計劃→執行→驗證→回答"這樣繁複的鏈條,因為執行者自身還不夠可靠,需要頻繁藉助驗證者來檢查錯誤。到了訓練後期,一個關於蛋白質純化的任務只需要3步就能完美解決:"計劃→執行→回答"。這不是因為群體裡的AI變少了——實際上此時群體裡有14個AI,包括活著的文獻查閱者和驗證者——而是因為驗證者在評估當前狀態後判斷"執行者已經足夠可靠,我的介入沒有額外價值",於是主動不參與競標。拓撲結構的簡化是內生的,而非被設計出來的。
在晶片設計任務中,財富軌跡圖展示了另一種維度的經濟動態。研究團隊觀察到,來自"歷史者"(Historian)角色的某個子代AI,在誕生後財富迅速下降並宣告破產——說明繼承來的偏見在市場壓力下站不住腳。另一個案例中,一個"規劃者"(Planner)家族成功繁殖出兩個優質子代並持續主導競標,而一個來自歷史者的"探索型"子代最終也走向了破產。財富集中在那些反覆推動EDP記錄刷新的AI上,市場選擇在沒有任何外部標籤的情況下,自動識別出了哪些AI真正有價值。
更值得關注的是,EOM在沒有被告知任何晶片設計原則的情況下,在最難的那批卷積核上反覆收斂到了同一種設計模式——"輸出駐留"(output-stationary)數據流,把每個輸出值保留在最快的片上儲存里,沿輸入通道維度累積計算。這是業界已知的對ResNet-50瓶頸層1×1卷積最有效的設計模式,但EOM完全是通過經濟獎勵自主發現的,沒有人告訴它應該這樣做。
七、通才會壟斷市場嗎?專家的秘密武器
研究團隊還測試了一個有趣的場景:如果在局部專家AI之外,再加入一個擁有全部工具訪問權限的"全能通才"AI,會怎樣?
按照直覺,通才應該會主導市場,把專家們都擠出去。但實驗結果恰恰相反。通才在任務第11-12輪附近短暫擴張,隨後收縮回單個AI的規模,而專家族群——尤其是專門負責SEC財務文件檢索的EDGAR組和負責網路搜索的Tavily組——反而持續擴張,到訓練後期各自達到5-8個AI的規模。
為什麼通才打不過專家?研究團隊追蹤了通才AI的提示詞進化軌跡,發現了一個有趣的現象:通才的提示詞越來越長、越來越謹慎,但並沒有變得越來越鋒利。它學會了"分解問題、覆蓋每個時間段、優先選擇合併總數而非分部數據、核查數值來源……"——每一條都是合理的,但每一條也都是通用的。與此同時,專家AI的提示詞進化方向截然不同:它們變得越來越窄、越來越精確。EDGAR專家學會了精確識別實體、報告類型和財務年度,區分聚合數值與分部數值,核查文件日期,在最新文件內定位前瞻性預測……這是一套專門針對SEC文件檢索的、反覆經過失敗修正的精確規則集。
在EOM的經濟邏輯里,拍賣獎勵的是"在當前特定狀態下最有價值的局部行動"。通才的優勢是覆蓋面廣,但它的局部精確度被稀釋了。專家的觸發條件、工具使用習慣和證據標準都調校到了一個極窄的子問題上,在那個子問題出現時,它的競標價值遠高於通才。過於通用反而成了劣勢——在這個市場裡,贏得控制權的是局部最精確的那個,而不是全局最全面的那個。
八、遷移和魯棒性:學到的東西能用多久
EOM學到的東西有多穩定?研究團隊從三個角度測試了這一點。
在MATH任務上,訓練採用"從易到難"的課程順序,從最簡單的Level 1一路推進到最難的Level 5。結果顯示,兩個測試模型在每個難度級別上都持續提升,其中Level 1到Level 3的提升最為顯著(Llama-3.1-8B最終達到55-70%,Gemma-2-9B達到45-65%)。即使是初始幾乎做不對的Level 5,到訓練結束時兩個模型的準確率都從約10%提升到了約20%——簡單問題上磨鍊出來的推理子程序,真的能被重新組合用於更難的問題。
研究團隊還測試了反向課程——先上最難的,再學最簡單的。兩種課程最終都在提升,但"先易後難"明顯更高效:最終準確率約57%對47%,且"先難後易"的課程在中間很長一段時間裡都停滯在40%出頭。這說明局部專家確實受益於先掌握可復用的基礎技能,再去面對高難度挑戰。
研究團隊還測試了通才AI的加入是否會破壞專家的生存空間。答案是否定的——即使有通才競爭,專家族群仍然持續繁榮,這說明去中心化的特性來自市場本身的運作邏輯,而不是靠"把通才排除在外"來人為維持的。
---
歸根結底,這篇論文想告訴我們的是:複雜的協調不必被設計出來,它可以從簡單的激勵結構中湧現出來。就像真實的市場經濟不需要有人告訴每個企業應該生產什麼、雇多少人、定什麼價格——只要競爭、交易和淘汰的基本規則存在,整體秩序就會自動形成——EOM中的AI群體也不需要有人告訴它們應該如何分工、誰負責什麼階段、何時應該驗證何時應該執行。經濟信號把這一切都安排好了。
這對我們理解AI的未來發展路徑有一些有趣的啟示。目前大多數多AI系統的設計思路是"先設計好流程,再讓AI執行"。EOM的思路反過來了:先設計激勵,讓AI自己進化出流程。這兩種思路孰優孰劣,在不同任務類型上可能有不同答案,但EOM的實驗至少證明了第二種思路在多個真實場景中是可行的,且往往能產生令人意外的有效解法——比如AI自己發現的晶片設計原則,沒有人教它,但它就是找到了。
當然,這套方法目前有一個明確的局限:所有進化都發生在"提示詞空間"里,模型的底層權重是凍結不變的。對於那些需要模型真正學會新技能的任務,僅靠改寫系統提示詞能走多遠,還是未知數。研究團隊也坦承這一點,並將擴展到參數空間訓練和多模態系統列為未來方向。
對於普通讀者來說,不妨思考一個問題:在你自己工作或生活中的團隊裡,是靠中央指揮協調更有效,還是靠每個人清晰的激勵機制自發協作更有效?EOM的故事,或許能給你一點不一樣的參考角度。有興趣深入研究的讀者,可以通過arXiv編號2606.02859查閱完整論文。
---
Q&A
Q1:EOM中AI的"財富"和"房租"是真實存在的貨幣嗎?
A:不是真實貨幣,而是系統內部的虛擬數值,用來追蹤每個AI對任務成功的貢獻程度。AI通過幫助任務推進來賺取財富(從下一步AI處獲得支付,或直接獲得環境獎勵),通過無效行動或長期閒置而消耗財富(支付給上一步AI以及周期性扣除的"房租")。當財富降為負數,這個AI就被移除,這純粹是系統內部的選擇壓力機制,與真實金融毫無關係。
Q2:EOM框架里的AI出價是怎麼確定的,會隨時間學習調整嗎?
A:出價是在AI被引入系統時就固定下來的,之後不會主動學習調整。新加入的AI會自動獲得一個比當前競爭者略高的出價,保證它至少有一次被系統測試的機會。存活下來的AI保持其固定出價。調整的不是出價本身,而是哪些AI存活下來——表現好的AI活下來並繁殖後代,表現差的AI破產並被替換。從長期來看,市場選擇會使存活AI的出價收斂到合理的價值區間,但這是通過"淘汰定價錯誤的AI"而非"讓單個AI學習出價"來實現的。
Q3:EOM和目前流行的AutoGen、MetaGPT等多AI框架有什麼本質區別?
A:AutoGen、MetaGPT等框架依賴預先設計好的AI角色分工和消息傳遞協議,由人工或中央調度模組決定誰在什麼時候說話做什麼。EOM的根本區別在於沒有這種預先設計的工作流:誰來行動完全由實時拍賣決定,哪些AI存活由經濟結果決定,AI的策略如何進化由成功失敗軌跡自動引導。換句話說,前者是把人類設計的流程交給AI執行,後者是給AI一套激勵規則,讓工作流自己從市場競爭中湧現出來。






