大基因組模型：基於萬億鹼基訓練的開源AI

2025年底，我們報道了一個名為Evo的AI系統的發展，該系統在大量細菌基因組上進行訓練。訓練數據如此龐大，以至於當給出一組相關基因序列時，它能夠正確識別下一個基因或建議一個全新的蛋白質。

贊助商廣告

該系統之所以有效，是因為細菌傾向於將相關基因聚集在一起——這在具有複雜細胞的生物體中並不適用，這些生物體往往具有同樣複雜的基因組結構。鑑於此，我們的報道指出，"目前尚不清楚這種方法是否適用於更複雜的基因組。"

顯然，Evo背後的團隊將此視為一項挑戰，因為今天他們正在描述Evo 2 大基因組模型基於萬億鹼基訓練的開源AI ，這是一個開源AI，已經在生命三大域（細菌、古細菌和真核生物）的基因組上進行訓練。在對萬億個DNA鹼基對進行訓練後，Evo 2發展出了對我們這樣複雜基因組中關鍵特徵的內在表示，包括調節DNA和剪切位點等對人類來說難以發現的元素。

基因組特徵

細菌基因組按照相對簡單的原則組織。任何編碼蛋白質或RNA的基因都是連續的，編碼序列中沒有中斷。執行相關功能的基因，如代謝糖類或產生胺基酸，往往聚集在一起，使它們能夠被一個緊湊的調節系統控制。這一切都很簡單高效。

真核生物則不同。基因的編碼部分被內含子打斷，內含子不編碼任何東西。它們由可能分散在數十萬個鹼基對上的序列調節。定義內含子邊界或調節蛋白結合位點的序列都是弱定義的——雖然它們有一些絕對必需的鹼基，但有很多鹼基只是有高於平均水平的傾向具有特定鹼基（比如"45%的時間是T"）。在大多數真核基因組中圍繞所有這些的是大量被稱為垃圾的DNA：非活躍病毒、嚴重損壞的基因等。

這種複雜性使得真核基因組更難解釋。雖然已經開發了許多專門工具來識別剪切位點等特徵，但它們都有足夠的錯誤傾向，以至於在分析30億鹼基長的基因組這樣大的東西時會成為問題。我們可以通過進行進化比較和尋找保守序列來學到更多，但這有局限性，我們通常對物種間的差異同樣感興趣。

贊助商廣告

然而，這些統計概率非常適合神經網路，神經網路擅長識別肉眼無法察覺的微妙模式。但你需要絕對大量的數據和計算時間來處理並挑選出一些這些微妙特徵。

我們現在擁有該過程所需的原始基因組數據。然而，建立一個系統將其輸入有效的AI訓練程序仍然是一個挑戰。這就是Evo背後團隊承擔的挑戰。

訓練大基因組模型

Evo 2系統的基礎是一個名為StripedHyena 2 大基因組模型基於萬億鹼基訓練的開源AI 的卷積神經網路。訓練分兩個階段進行。初始階段側重於通過向系統提供富含重要基因組特徵的約8000個鹼基長的序列塊來教授系統識別這些特徵。之後，第二階段一次提供一百萬個鹼基的序列，為系統提供識別大規模基因組特徵的機會。

研究人員使用名為OpenGenome2 大基因組模型基於萬億鹼基訓練的開源AI 的數據集訓練了兩個版本的系統，該數據集包含來自生命三大域以及感染細菌的病毒的8.8萬億個鹼基。他們沒有包括攻擊真核生物的病毒，因為他們擔心系統可能被誤用來創造對人類的威脅。訓練了兩個版本：一個具有70億參數，使用2.4萬億個鹼基調整；完整版本具有400億參數，在完整的開放基因組數據集上訓練。

訓練背後的邏輯相當簡單：如果某些東西重要到足以在許多物種中進化保守，它將在多個環境中出現，系統應該在訓練期間重複看到它。研究人員寫道："通過學習大量進化數據集中序列的可能性，生物序列模型捕獲通常反映功能重要性的保守序列模式。這些約束允許模型在沒有任何任務特定微調或監督的情況下執行零樣本預測大基因組模型基於萬億鹼基訓練的開源AI 。"

最後這個方面很重要。例如，我們可以告訴它已知剪切位點的樣子，這可能有助於它挑選出額外的剪切位點。但這可能使它更難識別我們尚未識別的任何不尋常剪切位點。跳過微調也可能幫助它識別我們目前根本不知道但可能通過未來研究變得明顯的基因組特徵。

所有這些現在都已向公眾開放。論文宣布："我們已經完全開放了Evo 2，包括模型參數、訓練代碼、推理代碼和OpenGenome2數據集。"

贊助商廣告

研究人員還使用了一個能夠識別神經網路內部特徵的系統來探索Evo 2內部，找出它學會識別的東西。他們訓練了一個單獨的神經網路來識別Evo 2中的激發模式並識別其中的高級特徵。它清楚地識別了蛋白質編碼區域和圍繞它們的內含子邊界。它還能夠識別編碼區域內蛋白質的一些結構特徵（α螺旋和β摺疊），以及破壞其編碼序列的突變。甚至像移動遺傳元件大基因組模型基於萬億鹼基訓練的開源AI （你可以將其視為DNA級寄生蟲）這樣的東西最終都在Evo 2中有了特徵。

這有什麼用？

為了測試系統，研究人員開始進行單鹼基突變並將它們輸入Evo 2以觀察其反應。Evo 2能夠檢測當突變影響DNA中轉錄為RNA開始的位點或將RNA翻譯為蛋白質開始的位點時的問題。它還識別突變的嚴重性。那些會中斷蛋白質翻譯的突變，如引入停止信號，被識別為比那些保持翻譯完整的突變更重要的變化。

它還識別序列何時根本不被翻譯。許多關鍵的細胞功能直接由RNA執行，Evo 2能夠識別突變何時也破壞了這些功能。

令人印象深刻的是，識別真核基因組特徵的能力在沒有失去識別細菌和古細菌特徵能力的情況下發生。事實上，系統似乎能夠確定它在哪個物種中工作。許多進化群體使用具有不同信號集的遺傳密碼來停止蛋白質翻譯。Evo 2能夠識別何時查看來自這些物種之一的序列，並為它們使用正確的遺傳密碼。

它還擅長識別能容忍大量變異性的特徵，如信號從蛋白質編碼序列中剪切RNA以去除內含子的位點。從某些測量來看，它比專門用於該任務的軟體更好。在評估BRCA2基因中的突變時也是如此，其中許多突變與癌症相關。給定已知BRCA2突變的額外訓練，其性能進一步改善。

總體而言，Evo 2似乎非常適合評估基因組和識別關鍵特徵。構建它的研究人員建議它可以作為初步基因組注釋的良好自動化工具。

但Evo早期版本的驚人之處在於，當給出包含已知細菌基因的序列塊時，它的一些回應包括具有相關功能的全新蛋白質。現在它在更複雜的真核基因上進行了訓練，它能做同樣的事情嗎？

贊助商廣告

我們並不完全知道。如果給它一堆來自酵母（真核生物）的DNA，它會回應一個包含功能RNA和具有調節資訊和剪切位點的基因樣序列的序列。但研究人員沒有測試任何蛋白質是否有特定作用。而且很難看出他們如何能做這個測試。對於細菌基因，他們可以安全地假設AI生成的基因應該做與附近基因相關的事情。但這在真核生物中通常不是這樣，所以很難猜測他們應該測試哪些功能。

在一個稍微更有資訊性的測試中，研究人員要求Evo 2在給出關於在這兩種細胞類型中活躍序列的資訊後，製作一些在一種細胞類型中活躍而在另一種中不活躍的調節DNA。產生的序列然後被插入這些細胞並進行測試，但結果相當弱，只有17%的序列在兩種細胞類型之間的活性差異達到兩倍或更多。這是一個重大成就，但它不在設計全新蛋白質的同一領域。

接下來是什麼？

總的來說，鑑於這在描述原始Evo的論文發表不到四個月後就出現了，沒有做更多工作來測試Evo 2在設計生物學相關DNA序列方面的能力一點也不令人驚訝。生物學實驗很困難且耗時，而且提前判斷哪些實驗會提供最令人信服的資訊並不總是容易的。所以我們可能要等幾個月到幾年才能發現社區是否能找到Evo 2的有趣用途，以及它是否擅長解決任何有用的蛋白質設計問題。

還有一個問題是進一步的訓練和專業化是否可以創造出在特定任務方面特別擅長的Evo 2相關系統，如評估癌細胞基因組或注釋新測序的基因組。在某種程度上，研究團隊似乎想要發布這個系統，以便其他人可以開始探索如何使用它；這與所有軟體都被開放的事實一致。

一個巨大的開放問題是這個系統是否識別了我們不知道如何測試的任何東西。像內含子/外顯子邊界和調節DNA這樣的東西已經經過幾十年的研究，我們已經知道如何尋找它們，並且可以識別Evo 2何時發現它們。但在過去幾十年中，我們在基因組中發現了穩定的新特徵流——CRISPR重複序列、微RNA等。在技術上仍然可能存在我們尚不知道的基因組特徵，而Evo 2已經挑選出了它們。

贊助商廣告

可以想像使用這裡描述的工具來查詢Evo 2並挑選出新的基因組特徵的方法。所以我期待看到這種工作最終可能產生什麼。

Q&A

Q1：Evo 2是什麼？它有什麼特別之處？

A：Evo 2是一個開源AI系統，基於名為StripedHyena 2的卷積神經網路構建。它在包含8.8萬億個鹼基的生命三大域（細菌、古細菌和真核生物）基因組數據上進行訓練。與之前只能處理細菌基因組的Evo不同，Evo 2能夠識別複雜真核基因組中的關鍵特徵，如調節DNA和剪切位點。

Q2：Evo 2如何訓練？使用了多少數據？

A：Evo 2採用兩階段訓練方法。第一階段通過8000個鹼基長的序列塊教授系統識別重要基因組特徵；第二階段一次處理一百萬個鹼基的序列來識別大規模基因組特徵。研究團隊訓練了兩個版本：70億參數版本使用2.4萬億個鹼基，400億參數完整版本在整個OpenGenome2數據集上訓練。

Q3：Evo 2能夠識別哪些基因組特徵？

A：Evo 2能夠識別多種複雜的基因組特徵，包括蛋白質編碼區域、內含子邊界、剪切位點、調節DNA、轉錄和翻譯起始位點，甚至能識別蛋白質結構特徵如α螺旋和β摺疊。它還能檢測突變的嚴重性，識別移動遺傳元件，並根據不同物種使用正確的遺傳密碼。