這項由研究者Prashant C. Raju進行的研究發表於2026年4月5日,論文編號為arXiv:2604.04155v1 [cs.LG]。有興趣深入了解的讀者可以通過該編號查詢完整論文內容。
在我們日常生活中,世界是連續的。水流是流暢的,溫度變化是漸進的,音樂的音調是平滑過渡的。然而,當科學家們試圖讓人工智慧理解生物學和物理學時,卻遇到了一個根本性問題:他們必須把這個連續的世界切割成一個個離散的小塊,就像用積木搭建一個光滑的斜坡一樣。
研究者發現了一個被稱為"幾何對齊稅"的隱形代價。這個概念就像是給連續性徵收的一種特殊稅收。當AI模型試圖理解DNA序列、蛋白質結構或物理現象時,它們必須先把這些本質上連續的自然現象轉換成離散的符號代碼,然後再進行處理。這個轉換過程就像用方塊積木搭建圓形,無論積木多么小,最終的結果都不可能真正平滑。
這項研究的核心發現令人震驚:在生物學和物理學的AI模型中,離散代碼化是導致幾何不穩定的主要原因,而不是模型架構本身的問題。研究團隊通過精心設計的對比實驗證明,同樣的模型架構,當使用連續數值輸出時,幾何穩定性比使用離散代碼輸出時要好8.5倍。
這個發現的重要性在於,目前評估科學AI模型的標準都集中在預測準確性上,比如困惑度、準確率等指標,但這些指標完全忽略了模型內部表示是否保持了它們所建模系統的連續幾何特性。這就像評判一個畫家只看他用了多少種顏色,而不看畫作是否真實反映了現實世界的連續性和和諧性。
一、積木搭斜坡的困境
為了讓普通讀者理解這個問題的本質,我們可以用一個簡單的比喻。假設你要用長方形積木搭建一個光滑的斜坡供彈珠滾下。直覺上,你可能會認為使用更小的積木就能讓斜坡更加平滑。確實,從遠處看,用小積木搭建的斜坡確實比用大積木搭建的看起來更光滑。
但當彈珠真的滾下來時,真相就顯露了。每一個微小的積木邊緣都會給彈珠造成一個細小的方向擾動。雖然單個擾動很小,但這些微小的角度誤差會累積。最關鍵的是,當積木變小時,彈珠滾到底部時的累計角度誤差並不會消失,而是以極其緩慢的速度減小,以至於在實際應用中,我們永遠無法達到真正的平滑。
這個斜坡實際上不是平滑的,它只是一個高解析度的粗糙表面近似。目前的科學AI模型就面臨著完全相同的結構性分歧。它們將連續數據量化成離散詞彙表,然後進行處理。增加參數數量和上下文窗口確實會縮小詞彙表箱子之間的步長,最小化宏觀錯誤,創造幾何保真度的錯覺。但底層的流形仍然是破碎的,這種破碎受到縮放定律的支配,使得收斂變得極其緩慢。
研究團隊設計了一系列巧妙的對比實驗來證明這一點。他們使用了三種不同的AI架構:Transformer(類似於ChatGPT使用的注意力機制)、狀態空間模型SSM(一種新興的連續時間架構)和混合型架構。當這些架構在具有已知連續幾何特性的合成動力系統上進行訓練時,使用連續目標函數的三種架構在幾何穩定性方面只相差1.3倍。
然而,當同樣的架構被迫使用離散代碼化時,情況發生了戲劇性變化。在一個生物突變行走實驗中,三種架構的表現相差高達3000倍。這種巨大的差異不是來自架構設計的不同,而是來自代碼化方法的差異。同樣的編碼器,同樣的訓練數據,同樣的擾動協議,唯一的變量就是輸出離散化邊界。
二、學習型代碼本的雙重困境
一些讀者可能會想,既然簡單的均勻分箱會造成問題,那麼使用更智能的學習型代碼本(Vector Quantization,VQ)是否能解決這個問題呢?研究團隊預見了這個質疑,專門設計了實驗來測試這種想法。
他們使用了VQ k-means代碼本,測試了六種不同大小的代碼本(從32個代碼到1024個代碼)。結果揭示了一個令人困擾的雙重困境。一方面,重建質量隨著代碼本大小的增加而單調改善:從32個代碼時的重建誤差0.098,改善到1024個代碼時的0.00014,證明代碼本確實學會了如何更好地表示數據。
但另一方面,幾何穩定性卻呈現出一個奇怪的非單調模式。在64個代碼時存在一個淺層最優點(失真度0.073),略好於256箱均勻基線(0.096),但隨著代碼本變大,失真度反而增加:512個代碼時為0.100,1024個代碼時為0.105,兩者都比均勻基線更差。
這種現象的機制很直觀:更精細的Voronoi單元格使得固定幅度的擾動更有可能跨越單元格邊界。因此,在重建意義上更好的代碼化反而使幾何變得更差。實證幾何失真遵循1/log K的縮放規律,這遠比人們天真預期的添加代碼本條目時的1/K縮放要慢得多。這種緩慢的衰減反映了擾動下邊界跨越的幾何特性,而非重建質量,這意味著需要指數級更多的代碼才能接近連續性能。
三、規模化的陷阱
研究團隊還發現了一個令人擔憂的現象:隨著AI模型變得越來越大,幾何穩定性問題不但沒有改善,反而變得更加嚴重。他們以ESM-2蛋白質Transformer套件為例進行了詳細分析,該套件包含從800萬到150億參數的六個不同規模的模型。
結果顯示,從800萬參數到30億參數,複合穩定性呈單調下降趨勢:從0.463下降到0.391。這種漸進式的稅收橫跨了近四個數量級的參數。然後,150億參數的檢查點似乎"恢復"到了0.445,表現出一個V形曲線。
但這種"恢復"是誤導性的。研究團隊通過一種叫做Procrustes縮減的技術量化了全局漂移。他們發現,150億參數模型在1%替換下實現了約5%的縮減率,在序列反轉下上升到約20%。這表明流形作為一個連貫塊全局漂移,同時保持內部相對結構,這是"無系泊凝膠"的標誌。
這種現象就像一個完整的果凍塊在盤子裡滑動。從外部看,果凍內部的相對位置關係保持不變,所以某些測量指標會顯示"穩定"。但實際上,整個果凍塊已經偏離了它應該在的位置,這種全局漂移對實際應用來說是破壞性的。
四、DNA反向互補的虛假成功
研究中最引人注目的發現之一涉及DNA序列的反向互補特性。由於雙螺旋的結構生物化學特性,每條DNA鏈都具有數學上完美的連續對稱性:反向互補。因為一條序列及其反向互補編碼完全相同的生物學資訊,一個在幾何上有根據的模型必須將兩者映射到相同或完全對稱的表示流形。
Evo 2是目前最先進的基因組AI模型之一,但它在合成DNA上的反向互補測試中徹底失敗:反向互補RDM相似性僅為0.139到0.208。該模型在功能上對AT / CG雙射沒有任何理解。然而,在真實DNA上,反向互補表現卻驚人地高:0.879到0.873。
為了確定原因,研究團隊設計了一個巧妙的四條件對照實驗,稱為"紋理假設測試"。他們測試了四種不同類型的DNA序列:真實人類chr22序列、純隨機序列、紋理匹配的馬爾科夫序列(只保留群體水平的雙核苷酸頻率),以及雙核苷酸洗牌的真實DNA(保留每個序列的精確k-mer計數,但破壞所有位置結構)。
結果令人震驚:雙核苷酸洗牌的真實DNA恢復了真實隨機差距的97%,而紋理匹配的馬爾科夫序列只恢復了3%。這個結果明確揭示了機制:Evo 2的嵌入功能就像高維的每序列k-mer直方圖。反向互補保留精確的k-mer計數,所以正向和反向互補產生對稱的直方圖,模型的權重等價地聚合它們。
通過雙核苷酸洗牌破壞位置結構仍保持這種對應關係,因為每序列直方圖保持不變。通過馬爾科夫生成只匹配群體水平統計失敗,是因為個體序列失去了它們獨特的組成指紋,崩潰了RDM測量的每序列配對結構。這是一個受控的因果結果:Evo 2不理解雙鏈DNA對稱性,它只是在計算短子序列。
五、資訊論揭示的三大失效模式
研究團隊通過率失真理論和互資訊神經估計(MINE)技術,識別出了現代生物學基礎模型中三種不同的失效模式。這些失效模式就像三種不同類型的"疾病",每種都有其獨特的症狀和表現。
第一種失效模式被稱為"局部-全局解耦"。在這種模式下,模型通過固定嵌入到短程組成來最小化局部失真,但犧牲了維持長程結構所需的全局互資訊。幾何在局部得到保持,生物學連貫性在全局丟失。從幾何角度看,這表現為研究中識別的"無系泊凝膠"特徵:高Procrustes縮減表明連貫的全局漂移。大規模ESM-2(≥30億參數)和Evo 2都表現出這種模式。
第二種失效模式是"表示壓縮"。模型通過集中任務相關資訊來最大化互資訊,但付出完全的失真代價:流形在壓縮下扭曲,產生類似於"脆性玻璃"特徵的幾何斷裂。這裡的驅動因素是有意的資訊集中而不是容量耗盡。OpenFold的Evoformer是這種模式的典型例子。
第三種失效模式最為矛盾,被稱為"幾何空虛"。模型通過不編碼任何東西來平凡地實現低失真。幾何之所以平滑,是因為流形在資訊上是空的:互資訊落在隨機噪聲底線之下。既不適用脆性玻璃也不適用無系泊凝膠的幾何特徵,因為沒有資訊可以斷裂或漂移。ProtMamba就是這種模式的典型代表。
通過對14個不同的生物學基礎模型進行MINE分析,研究團隊發現沒有任何一個離散代碼模型能夠同時實現低失真、高互資訊和全局連貫性。每個模型都在不同的"貨幣"中支付稅收,但稅收總是要支付的。
六、實驗驗證:從合成數據到真實應用
研究團隊的實驗設計可以比作一場精心策劃的科學偵探工作。他們首先在完全受控的合成環境中進行了因果證明,使用具有已知連續幾何特性的合成動力系統,包括疊加正弦波、阻尼諧振子和洛倫茲吸引子。
在基線離散交叉熵條件下,三種架構都保持了洛倫茲吸引子動力學:最大李雅普諾夫指數估計值分別為0.036、0.038和0.038,都在真實值0.037的3%範圍內。蝴蝶測試證實了所有架構在所有5個種子下都保持了吸引子結構。架構間的幾何穩定性差異是適中的。
但當研究團隊將分類交叉熵輸出頭替換為在MSE損失下訓練的線性投影時,情況發生了根本性變化。編碼器主幹(自注意層、位置嵌入、前饋塊)保持不變。這個單一修改消除了所有架構的流形斷裂。在1%噪聲的洛倫茲數據集上,SmallBERT改善了2.8倍,SmallStripedHyena改善了8.5倍,成為整個研究中的最佳條件。
更令人印象深刻的是,連續條件下的架構間差異從離散交叉熵下的0.072-0.157崩潰到0.0085-0.034。任何單一架構內的離散到連續差距都超過了任一體制下的跨架構差距。這證明了問題的根源不在於注意力、遞歸或卷積機制,而在於將連續世界離散化的代價。
七、規模的詛咒
研究還揭示了一個反直覺的發現:更大的模型並不意味著更好的幾何穩定性。事實上,恰恰相反。隨著參數數量的增加,交叉熵訓練產生更尖銳和更多的決策邊界,每個都是嵌入流形中的不連續性。這是ESM-2中觀察到的單調穩定性下降的源頭:更多容量能夠實現更精細的分割,從而創造更多的斷裂表面。
這個現象可以這樣理解:如果把AI模型的內部表示想像成一個複雜的地形圖,那麼每增加一層參數就像在這個地形圖上增加更多的懸崖和峽谷。雖然這些額外的地形特徵可能有助於模型區分不同的輸入,但它們也使得整個地形變得更加崎嶇不平,任何小的擾動都可能導致從一個懸崖跌落到另一個峽谷。
150億參數處的表觀穩定性恢復是虛幻的。全局漂移掩蓋了局部斷裂而不是解決它。這種"無系泊凝膠"模式表明,大型模型學會了以一種保持內部相對結構的方式整體移動其表示,但這種移動對實際應用是有害的,因為它破壞了表示與輸入空間的絕對對應關係。
八、上下文長度的局限性
另一個重要發現涉及上下文長度擴展的效果。研究團隊評估了Evo 2模型在三種不同上下文窗口檢查點下的表現:8K、262K和1M代碼。在合成DNA上,SNP穩定性增益是適中的:1% SNP RDM相似性從0.747(8K)上升到0.817(1M)。在真實chr22序列上,增益是邊際的:從0.990到0.993。
更讓人震驚的是,在上下文稅測試中(從1千鹼基對信號區域分類大腸桿菌與人類),凍結頭準確性為0.988(8K)、0.980(262K)、0.993(1M):128倍更多的上下文幾乎沒有帶來幾何增益。這說明簡單地增加模型能夠"看到"的序列長度並不能解決根本的幾何問題。
這個結果特別重要,因為它表明當前AI領域追求更長上下文窗口的趨勢可能並不會自動解決幾何對齊問題。就像給一個近視眼的人更大的望遠鏡,如果基礎的光學系統有問題,增大鏡頭只會放大問題而不是解決問題。
九、後補對稱性的失敗嘗試
既然識別出了問題,自然的想法是通過後補的對稱性強制來解決它。研究團隊測試了一種稱為RCCR(反向互補一致性正則化)的方法,這種方法在微調過程中最小化前向和反向互補序列的平均池化表示之間的L2距離。
RCCR確實實現了完美的每序列反向互補一致性:餘弦差距從0.041降到0.000。但群體水平的幾何結構卻惡化了:前向和反向互補嵌入矩陣之間的Procrustes差異增加了91%,反向互補RDM相似性變為負值(-0.036),SNP擾動敏感性崩潰了兩個數量級。
這個結果說明,強制點對點對稱合規會平坦化嵌入景觀,而不是對齊其幾何。這就像試圖通過強制每個部分都對稱來修復一幅畫,結果卻把整幅畫變成了一張平淡無奇的對稱圖案,失去了原有的豐富細節和自然美感。幾何對齊稅不能簡化為缺失的對稱性;它是離散優化景觀內在的特性。
十、三種失效體制的深度剖析
通過率失真理論框架,研究團隊將觀察到的失效模式形式化為三種不同的體制,每種都代表了在嚴格量化限制下最小化幾何失真的不同策略。
局部-全局解耦體制通過將嵌入錨定到短程組成來最小化局部失真,但犧牲了整合長程結構所需的全局互資訊。紋理假設測試確立了機制:Evo 2的嵌入功能作為每序列k-mer直方圖。MINE證實了資訊淺薄性。全局互資訊(完整8192代碼上下文,平均池化)超過局部互資訊(128代碼窗口)僅14%。64倍的上下文增加幾乎買不到任何東西。
表示壓縮體制最大化互資訊,但付出完全的失真代價。以OpenFold的Evoformer為例,它在幾何上扭曲表示的同時增加互資訊。Evoformer在每個序列長度上都超過ESM-1b的互資訊:增加了+2.3到+2.5 nats的結構上下文。但這是有幾何代價的。ESM-1b和Evoformer輸出表示之間的Procrustes差異為0.164(L=100)、0.162(L=200)和0.149(L=400),證實了實質性的流形扭曲。
幾何空虛體制通過不編碼任何東西來平凡地實現低失真。ProtMamba呈現負的過量互資訊:嵌入攜帶的與生物學基礎真相的互資訊比匹配的隨機基線還少。凍結頭探測證實了診斷:線性邏輯回歸和非線性MLP探測在所有序列長度和全局與局部池化策略下都達到機會水平準確性。
十一、實際影響和未來方向
這項研究的發現對當前AI在科學中的應用具有深遠影響。目前的評估實踐(困惑度、AUC、基準準確性)對幾何對齊稅是盲目的。一個模型可以在排行榜上占主導地位,而其全局幾何完全沒有根據,或者產生平滑、穩定的流形,通過幾何一致性檢查,同時不編碼生物學信號。
隨著基礎模型越來越多地部署用於治療設計、材料發現和物理模擬,該領域必須擴展其可靠性概念,超越預測準確性,包含研究團隊稱為"物理對齊"的要求:學習表示必須忠實保持它們建模系統的連續不變量。
對於生成應用如聊天機器人,幾何對齊稅可能是可以接受的,甚至是可取的。漂移的流形允許創造性,其中"幻覺"是一個特徵,而不是缺陷。然而,對於科學基礎模型,物理定律是不變的,結果可能具有生死攸關的後果,這種稅收是不可承受的。
研究結果表明,我們不能簡單地通過規模化來擺脫這個懲罰。通向科學AGI的道路不僅僅是訓練更大的離散模型來追逐漸近極限,也不是應用平凡滿足幾何穩定性但抹去生物學信號的連續先驗。它需要承認我們當前的架構手冊對自然科學來說是根本性破壞的,需要回到第一原理。
前進的道路可能需要原生統一連續幾何先驗與高保真度離散編碼的架構,而不是將一個嫁接到另一個上。幾何穩定性審計、連續值基礎模型和聯合優化預測準確性與流形保持的混合目標是有希望的方向。
這項研究最終表明,當前主導的離散代碼化範式在科學應用中存在根本性限制。雖然這些模型在傳統基準測試中表現出色,但它們的內部表示系統性地無法保持所建模系統的連續幾何特性。這不是一個可以通過更多參數、更長上下文或更好的正則化技術簡單解決的工程問題,而是一個需要重新思考AI架構基礎假設的根本性挑戰。
就像死亡和稅收是生活中唯一確定的事情一樣,幾何對齊稅似乎是當前離散AI系統的一個不可避免的特徵。但與生活中的稅收不同,這個科學稅收的代價可能太高,迫使我們尋找全新的解決方案,而不是簡單地接受現狀。
Q&A
Q1:什麼是幾何對齊稅?
A:幾何對齊稅是指當AI模型試圖處理連續的自然現象(如DNA序列、蛋白質結構)時,必須先將其轉換為離散代碼而產生的幾何扭曲代價。就像用積木搭建光滑斜坡一樣,無論積木多小,最終都無法實現真正的平滑,這種扭曲會累積並影響模型對真實世界的理解。
Q2:為什麼更大的AI模型幾何穩定性反而更差?
A:隨著模型參數增加,模型會產生更多更尖銳的決策邊界,每個邊界都是幾何表示中的斷裂點。這就像在地形圖上增加更多懸崖和峽谷,使得任何小擾動都可能導致表示從一個區域跳躍到另一個區域。研究發現從800萬到30億參數,模型穩定性持續下降。
Q3:如何解決科學AI模型的幾何對齊稅問題?
A:研究表明簡單的解決方案(如增加模型規模、延長上下文窗口、後補對稱性約束)都無法根本解決問題。真正的解決方案需要開發能夠原生統一連續幾何特性和離散編碼的新型AI架構,而不是將兩者簡單拼接。這需要重新思考當前AI架構的基礎假設。






