這項由約翰斯·霍普金斯大學電腦科學系Nathan Breslow、Aayush Mishra、Mahler Revsine、Michael C. Schatz、Anqi Liu和Daniel Khashabi等六位研究者共同完成的突破性研究,於2025年11月發表在arXiv預印本平台(編號:2511.12797v1)。這項研究首次證明了一個令人驚訝的發現:專門訓練來識別DNA序列的AI模型,竟然也能像處理人類語言的AI一樣,學會從幾個例子中推理出複雜的規律。
要理解這項研究的重要性,我們可以把AI學習比作人類學習外語。當你學一門新語言時,老師通常會先給你幾個例句,然後你就能推斷出語法規律,並應用到新的句子中。這種"舉一反三"的能力被稱為上下文學習
。研究人員一直以為這種神奇的學習方式只有在處理人類語言時才會出現,因為人類語言有著獨特的結構特點。
但這次研究卻發現了一個意想不到的事實:那些專門用來讀懂基因密碼的AI模型,也具備了同樣的"舉一反三"能力。就像一個只學過看基因圖譜的學生,突然發現自己也能從幾個數學例題中推導出運算規律一樣令人驚訝。
研究團隊選擇了兩種完全不同的AI模型進行對比。第一種是Qwen3系列,這是專門處理人類語言的AI模型,就像是一位精通文學的學者。第二種是Evo2系列
,這是專門分析基因序列的AI模型,就像是一位專業的遺傳學家。這兩種AI接受的訓練材料完全不同:一個讀的是人類寫的文章,另一個看的是由A、T、C、G四種鹼基組成的基因密碼。
為了公平比較這兩種AI的學習能力,研究團隊設計了一系列巧妙的測試題。這些測試題就像是一套特殊的智力遊戲,既可以用人類語言表達,也可以用基因語言表達,但本質上考查的是同樣的推理能力。比如,他們會給AI模型展示幾個輸入輸出的例子,然後看模型能否從中推導出隱含的變換規律。
這些測試題涉及各種不同類型的推理,有些像是鏡像變換(把"01010000"變成"00000101"),有些像是位置輪換(把第一位移到最後),還有些像是邏輯運算(把所有的0變成1,所有的1變成0)。每個測試題都有一個隱藏的規律,AI模型需要從提供的幾個例子中找出這個規律,然後應用到新的輸入上。
實驗結果讓研究團隊震驚不已。當給予的例子數量從1個增加到128個時,無論是語言AI還是基因AI,它們的推理準確率都呈現出了驚人的相似趨勢。就像兩個不同專業背景的學生在做同樣的邏輯推理題時,學習曲線竟然如此接近。更令人意外的是,在某些情況下,基因AI的表現甚至還要優於語言AI。
具體來看這些數字,當只給一個例子時,兩種AI的準確率都在13-15%左右,這基本上相當於隨機猜測。但隨著例子數量的增加,它們的表現都穩步提升。當給出128個例子時,最大的語言AI模型Qwen3-14B達到了33.8%的準確率,而最大的基因AI模型Evo2-40B更是達到了41.1%的準確率。
研究團隊為了更深入地理解這種現象,還分析了不同複雜程度的推理題對AI表現的影響。他們發現,任務的複雜程度可以用一個叫做"BitLoad
"的指標來衡量,這個指標反映了推理過程中需要考慮多少個輸入位置的資訊。結果顯示,語言AI在面對複雜推理任務時表現下降得很快,就像一個學生在題目變難時很快就跟不上了。而基因AI雖然也會隨著難度增加而表現下降,但下降得相對緩慢,表現出了更強的韌性。
在分析具體的推理類型時,研究團隊發現了兩種AI的不同特長。語言AI更擅長處理需要全局統計資訊的任務,比如計算輸入中1的個數是否超過0的個數,或者進行簡單的位移操作。這可能是因為語言處理經常需要理解整個句子的語義。而基因AI則更擅長處理需要對每個位置進行複雜變換的任務,比如對所有位進行取反操作,或者複製某些特定位置的值。
這種差異可能反映了兩種AI在訓練過程中形成的不同思維模式。語言AI習慣於從整體上理解資訊,就像人類閱讀時會把握文章的主旨。而基因AI則習慣於精確處理每個位置的資訊,因為在基因序列中,每個鹼基的位置都可能至關重要。
研究團隊還發現了一個有趣的現象:隨著模型規模的增大,兩種AI的學習能力都有所提升,但提升的模式不同。語言AI的學習效率隨著模型變大而顯著提高,就像一個更聰明的學生能更快地從例子中學到規律。而基因AI雖然也有提升,但提升幅度相對較小,似乎它們天生就具備了較強的這種學習能力。
為了確保結果的可靠性,研究團隊還設置了一個基準比較。他們設計了一個簡單的"模式基線"算法,這個算法只是簡單地猜測在給定例子中出現最頻繁的輸出。結果顯示,無論語言AI還是基因AI,當有足夠多例子時,它們的表現都明顯超過了這個簡單算法,證明它們確實學會了真正的推理,而不是簡單的記憶模式。
這項研究的意義遠遠超出了AI技術本身。長期以來,科學家們一直在爭論上下文學習這種神奇能力是否是人類語言所獨有的。一些研究者認為,人類語言具有獨特的結構特性,比如組合性和並行性,這些特性是上下文學習能力出現的必要條件。另一些研究者則認為,這種能力可能是大規模預測性訓練的自然產物,只要數據具有足夠豐富的模式,任何AI模型都可能發展出這種能力。
這次的研究結果強有力地支持了後一種觀點。基因序列和人類語言在表面上看起來完全不同,但它們都包含著豐富的統計規律和模式。當AI模型在大量這樣的數據上進行訓練時,它們自然而然地發展出了從少量例子中推理的能力。這表明,上下文學習可能是一種更加普遍的現象,不僅限於語言處理。
從技術架構的角度來看,這個發現也很有啟發性。Evo2模型並不是純粹的Transformer架構,而是結合了卷積層和注意力機制的混合架構。它能表現出與Transformer語言模型相似的學習能力,說明上下文學習能力並不依賴於特定的架構設計,而是一種更加基礎的計算現象。
研究團隊在實驗設計上也下了很大功夫。他們創造了100個不同的推理任務,涵蓋了從簡單的身份映射到複雜的組合變換等各種類型。這些任務被精心設計,既能在4個符號的基因字母表中表示,也能用更大的語言字母表表示,從而確保了比較的公平性。每個任務的複雜度都經過了精確測量,使得研究團隊能夠系統地分析不同因素對學習效果的影響。
實驗的規模也相當可觀。研究團隊測試了從1個例子到128個例子的各種情況,每種情況下都進行了大量的重複實驗以確保結果的統計顯著性。他們發現,無論是語言AI還是基因AI,學習曲線都呈現出清晰的對數線性增長趨勢,這意味著例子數量的對數與準確率之間存在著穩定的線性關係。
這種關係的發現本身就很有價值,因為它揭示了AI模型學習過程的某種內在規律。當我們給AI更多例子時,它的推理能力並不是無限制地提升,而是遵循著一種可預測的模式。這對於理解AI的學習機制,以及指導未來AI系統的設計都有重要意義。
從應用前景來看,這項研究開啟了許多新的可能性。如果基因AI能夠像語言AI一樣進行複雜的推理,那麼我們可能可以開發出更加智能的生物資訊學工具。比如,這樣的AI可能能夠從少量的基因突變例子中推斷出疾病的致病機理,或者從一些蛋白質結構例子中預測新蛋白質的功能。
此外,這項研究也為其他領域的AI應用提供了啟示。如果上下文學習是一種普遍現象,那麼我們可能可以在時間序列分析、物理模擬、甚至藝術創作等各個領域都看到類似的能力。關鍵在於確保訓練數據具有足夠豐富的模式和結構。
研究團隊在論文中也誠實地指出了這項工作的局限性。他們測試的推理任務雖然涵蓋面很廣,但都是相對抽象的符號操作,與真實世界的複雜推理任務還有一定距離。此外,他們的實驗主要集中在相對簡單的8位二進制串上,更複雜的序列可能會呈現出不同的模式。
另一個需要注意的點是,雖然基因AI在這些特定任務上表現很好,但這並不意味著它在所有類型的推理任務上都會超越語言AI。不同的AI模型由於訓練數據和架構的不同,可能會在不同類型的任務上表現出不同的優勢。
展望未來,這項研究為AI領域提出了許多有趣的研究方向。研究者們可以嘗試在更多不同模態的數據上尋找類似的上下文學習能力,比如音頻序列、圖像序列,甚至是物理系統的狀態序列。他們也可以深入研究這種學習能力的內在機制,了解AI模型是如何在不更新參數的情況下,僅僅通過上下文資訊就能學會新的推理規律。
從更深層次的科學哲學角度來看,這項研究也觸及了關於智能本質的根本問題。什麼是推理?什麼是學習?這些看似抽象的認知能力,是否可能是更基礎的資訊處理過程的自然產物?這項研究通過展示完全不同領域的AI模型竟然表現出了相似的學習模式,暗示著智能可能具有某種跨越領域的普遍特徵。
說到底,這項研究最令人興奮的地方在於它拓寬了我們對AI能力的認知邊界。它告訴我們,那些看起來"專業性很強"的AI模型,實際上可能具備比我們想像中更廣泛的認知能力。一個專門分析基因的AI,竟然也能像分析語言的AI一樣進行抽象推理,這種跨領域的能力遷移為AI的未來發展開啟了無限的想像空間。
歸根結底,這項研究為我們理解AI的學習機制提供了全新的視角。它表明,上下文學習這種令人驚嘆的能力,可能不是人類語言的專利,而是任何包含豐富模式的數據領域都可能出現的普遍現象。這一發現不僅推進了我們對AI技術的理解,也可能為未來開發更加通用、更加智能的AI系統提供重要指導。對於那些希望深入了解這項研究技術細節的讀者,可以通過論文編號2511.12797v1在arXiv平台查找完整的研究論文。
Q&A
Q1:什麼是上下文學習能力?
A:上下文學習是指AI模型僅通過輸入中的幾個例子就能推理出規律,然後應用到新問題上的能力,就像人類看幾個例題就能掌握解題方法一樣。這種能力不需要重新訓練模型,只需要在輸入中提供示例即可。
Q2:為什麼基因AI也能進行推理讓人意外?
A:因為科學家之前認為這種推理能力只有處理人類語言的AI才具備,原因是人類語言有獨特的結構特性。但基因序列看起來與人類語言完全不同,所以基因AI也能表現出類似能力確實令人驚訝。
Q3:這項研究對AI發展有什麼實際意義?
A:這項研究表明上下文學習是一種跨領域的普遍能力,意味著我們可能在更多領域開發出具有推理能力的AI系統,比如更智能的醫療診斷工具、科學發現助手等,大大拓展了AI的應用前景。






