這項由香港大學、國際數字經濟學院、北京協同創新研究院、北京大學和耶魯大學聯合開展的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.08659,有興趣深入了解的讀者可通過該編號在arXiv平台查詢完整論文。
在現代藥物研發的世界裡,科學家越來越依賴人工智慧來"設計"新分子。這些AI系統就像一台不知疲倦的化學家助手,能在極短時間內提出海量候選藥物分子。然而,當研究人員開始用獎勵信號訓練這些AI,讓它們專注於找到"最好的"分子時,一個令人頭疼的問題逐漸浮出水面——AI開始"偏執"了。
這種偏執不是心理問題,而是一種技術現象:當你反覆告訴AI"這類分子是好的",它就會越來越多地生成同一類型的分子,最終把所有"雞蛋"都放進同一個籃子裡。在藥物研發中,這是非常危險的。藥物研發領域有一個行業共識:多樣性是成功的關鍵。不同的分子骨架可能針對不同的患者群體,在不同的病理環境下發揮作用,而且當某條化學路徑走不通時,備選方案越多,研發成功的概率就越高。這種AI的"偏執"現象在學術上被稱為"模式坍縮"(mode collapse)——生成的內容越來越集中,越來越雷同。
正是為了解決這個核心矛盾,研究團隊提出了一種名為"超組相對策略優化"(Supergroup Relative Policy Optimization,簡稱SGRPO)的新訓練框架。這個名字聽起來頗為技術化,但背後的核心思路其實可以用一個日常場景來理解:如何在一場廚藝比賽中,既讓每道菜都美味,又確保整桌菜品風格多樣、不重複。
一、AI藥物設計的"偏食"困境:為什麼光追求"好"還不夠
要理解這項研究解決的問題,先得明白AI分子生成器是怎麼工作的。把AI分子生成器想像成一個廚師。這位廚師會不斷嘗試新食譜,然後有人對它做出的菜評分——口感、營養、賣相。如果廚師只追求高分,它很快就會發現"紅燒肉"總能得高分,於是開始每天做紅燒肉,甚至把所有菜都做成類似紅燒肉的風格。最後,雖然每道菜分數都不低,但整桌菜單變成了"紅燒肉全席"。
在AI分子設計領域,這個比喻對應的是一個叫做強化學習(Reinforcement Learning)的訓練方法。研究團隊用獎勵信號告訴AI哪種分子更好——比如更像藥物、更容易合成、對目標蛋白結合力更強。AI就會調整自己的策略,越來越多地生成高分分子。問題在於,高分分子往往屬於類似的化學家族,AI最終陷入"只會做一道菜"的困境。
這個問題有多嚴重?現有的一些解決方案試圖通過"記憶"機制來應對——AI會記住自己之前生成過的分子,如果新生成的分子和歷史記錄太像,就扣分懲罰它。這相當於告訴廚師"你上周做過紅燒肉了,今天別再做了"。雖然這個方法有一定效果,但它存在一個根本性的局限:它比較的是新菜和"歷史菜單"的關係,而不是"今天這一桌菜"之間的關係。廚師可能因為上周做了紅燒肉而被罰,但今天同時做了五道風格相近的蒸菜,卻沒有人注意到。
這個問題的本質是:多樣性是一個"集合屬性"——它描述的是一批候選方案作為整體的特性,而不是單個方案的特性。正如"百花齊放"描述的是花園的整體狀態,而非某朵花的特點。現有的AI訓練方法大多是對每個單獨生成的分子評分,沒有辦法直接衡量和獎勵這種集合層面的多樣性。研究團隊將此稱為核心挑戰:如何把"集合層面的多樣性"變成可以直接優化的訓練目標,同時還要把這個集合獎勵合理地分配給每個具體的分子?
二、超組策略:像美食評委一樣同時審視整桌菜
SGRPO的核心思路可以用一場高級廚藝競賽來理解。在這場比賽中,評委不是一道一道菜孤立地評分,而是同時端出幾桌菜,然後比較哪桌菜的組合更加多樣、豐富。
具體來說,對於同一個設計任務(比如"設計能結合某種蛋白質口袋的分子"),SGRPO會讓AI同時生成好幾組候選方案,每組包含若干個分子。研究團隊把這個總體集合稱為"超組"(supergroup)。每組分子就像競賽中的一桌菜,超組就是參加比賽的所有桌子。
評判過程分兩個層次進行。第一層是對每個具體分子單獨評分,衡量它是否是一個好分子——藥物屬性好不好、合成難度如何、和目標蛋白的結合力如何。這就是廚藝比賽中對每道菜單獨評判口味和品質。第二層是對每一組分子作為整體評分,衡量這組分子的多樣性——它們彼此之間是否夠不同、是否覆蓋了足夠多的化學類型。這就是評委評判整桌菜是否豐盛多樣。
接下來有一個聰明的設計:對組級多樣性的比較只在同一個超組內進行。這意味著所有比較的任務條件是一樣的,排除了不同任務難度的干擾——就好像廚藝比賽必須所有廚師做同一道主題的菜,才能公平比較誰的菜單更多樣。
這種"超組內部比較"用了一個具體的數學方法:對於超組裡的每一組,計算它的多樣性得分與其他組的平均分之差。如果某組的多樣性高於平均水平,它就獲得正向獎勵;如果低於平均水平,就得到負向懲罰。用廚藝比賽的語言來說就是:你這桌菜是否比其他參賽者的菜單更豐富多彩?
三、"誰的功勞":把集合獎勵公平分配給每一個分子
拿到了組級多樣性的評分之後,還面臨一個難題:AI在訓練時需要針對每一個單獨的分子更新策略,但多樣性評分是給整組打的,怎麼告訴AI"這個分子對組的多樣性貢獻了多少"?
研究團隊用了一個叫做"留一法貢獻"(leave-one-out contribution)的方法。道理很直觀:把某個分子從組裡拿掉,看看整組的多樣性分數下降了多少。下降越多,說明這個分子對組的多樣性貢獻越大;下降越少甚至不變,說明這個分子是個"可有可無"的複製品。
這就好比在評價合唱團中每個成員的貢獻時,讓每人輪流暫時退出,聽聽缺了誰之後音樂最沒味道,那個人的貢獻就最大。
為了讓這種貢獻的分配更加精細,研究團隊設計了一種"符號感知"的權重機制。如果一組分子的整體多樣性比其他組好(獲得了正獎勵),那麼在這組內部,貢獻了更多獨特性的分子會獲得更多獎勵;貢獻少的分子獎勵就少。反過來,如果這組分子的多樣性比其他組差(得到了負懲罰),那麼在組內,那些本來就雷同、沒什麼獨特性的分子會被加重懲罰;而少數幾個還算有獨特性的分子受到的懲罰就相對輕一些。整套設計保證了一個重要性質:重新分配之後,每個分子的獎勵加起來還是等於原來的組級獎勵,不多不少。
四、把兩種獎勵合併:既要好又要不同
有了每個分子的質量評分(單體獎勵)和多樣性貢獻評分(來自組級多樣性的分配),SGRPO最後把這兩個分數用一個可調節的權重參數合併成一個總獎勵。這個參數(文中稱為λ)控制著"追求單體質量"和"追求集合多樣性"之間的平衡:λ越大,多樣性的權重越高;λ越小,質量的權重越高。
最終的訓練信號被稱為"超組相對優勢"——它衡量的是某個分子的總獎勵與超組內所有分子平均總獎勵的偏差。簡單說就是:這個分子在質量和多樣性的綜合表現上,比同一批次生成的其他分子好多少或差多少?然後用這個相對優勢去更新AI的策略,讓AI學會如何生成那些既有質量、又對組的多樣性有貢獻的分子。
整個訓練過程還加入了一個"錨點"機制(KL正則化),防止AI在追求獎勵時走偏太遠,偏離預訓練模型學到的合理化學知識。這就像給廚師一個守則:在追求創新菜單的同時,不能完全拋棄基本的烹飪原則。
五、在三種分子設計任務上的實戰測驗
研究團隊在三類具體任務上對SGRPO進行了全面測試,每類任務都代表了生物分子設計中的一種典型場景。
第一類是"無條件從頭小分子設計"。這就像在沒有任何指定主題的情況下,讓AI自由創作新藥分子。使用的基礎模型是GenMol——一種通過疊代去噪生成分子SAFE字符串的離散擴散語言模型。由於GenMol不是傳統的自回歸語言模型,直接套用標準GRPO訓練方法有技術障礙,研究團隊因此採用了一種叫做coupled-GRPO(耦合GRPO)的變體來適配擴散式生成過程。評估的質量指標是QED(藥物相似性分數,衡量分子"看起來像不像藥")和SA(合成可及性評分,衡量分子是否容易合成)的加權組合;多樣性則用Morgan分子指紋的Tanimoto距離來衡量——兩個分子的化學結構差異越大,多樣性分數越高。
第二類是"基於蛋白口袋的小分子設計"。這一次,AI不是漫無目的地創作,而是要針對特定的蛋白質"口袋"(蛋白質表面能與藥物結合的凹陷區域)設計合適的配體分子。這類任務更貼近真實藥物研發場景——你要設計的分子不僅要長得像藥,還要能和特定的疾病靶點緊密結合。研究團隊專門開發了GenMol-P,這是GenMol的"升級版",通過引入蛋白質口袋的結構資訊作為前綴條件,讓模型知道自己在為哪種口袋設計分子。具體實現方式是:用一個凍結的ESM-IF1蛋白編碼器把口袋結構轉換成嵌入向量,再通過一個可訓練的兩層投影網路映射到分子生成器的隱藏空間。質量評分中加入了AutoDock Vina對接分數,這是一種模擬分子和蛋白質口袋結合強度的計算方法,分數越負越好。多樣性的計算針對同一口袋生成的分子集合,避免把不同口袋的分子混在一起統計,那樣會產生虛假的多樣性。
第三類是"無條件從頭蛋白質設計"。這次的目標不是小分子,而是胺基酸序列——蛋白質的基本構成單位。使用的基礎模型是ProGen2,一種自回歸胺基酸語言模型,可以直接生成蛋白質序列。由於ProGen2是標準自回歸模型,可以直接使用原始GRPO,無需耦合版本。質量評估整合了四個維度:自然性(通過ESM2語言模型的序列概率判斷蛋白質是否"看起來合理")、可摺疊性(通過ESMFold預測的結構置信度)、穩定性(通過TemBERTure預測的熱穩定性)和可開發性(通過蛋白質溶解度和結構風險評分衡量是否容易生產和使用)。多樣性則用標準化的編輯距離相似度來衡量——兩條胺基酸序列改動越少就能互相轉換,說明它們越相似、多樣性越低。
六、"效用-多樣性帕累托前沿":一把衡量好壞的精妙標尺
要理解這項研究是怎麼評估成果的,先得理解一個關鍵概念。AI模型生成的結果取決於很多調節參數,比如"溫度"參數——溫度越低,AI越保守,傾向於生成高分但雷同的分子;溫度越高,AI越隨機,生成的分子更多樣但質量可能下降。
研究團隊對每個模型都跑了一系列不同溫度設置下的生成結果,記錄每個設置下的"平均質量"和"整體多樣性",形成一批數據點。把這些點畫在坐標軸上——橫軸是質量,縱軸是多樣性——可以看到一條曲線。這條曲線上質量和多樣性互相制約的最優點集合,就是"帕累托前沿"(Pareto frontier)。帕累托前沿越靠向右上角(質量越高、多樣性越大),說明模型越強。
為了量化這條曲線的好壞,研究團隊使用了三個指標。超體積(HV)衡量帕累托前沿所覆蓋的面積,面積越大越好。理想點距離(DIP)衡量帕累托前沿上的最優點到"質量和多樣性都是滿分"這個假想理想點的距離,距離越小越好。R2指標則在不同的質量-多樣性偏好權重下,綜合衡量帕累托前沿的整體表現,值越小越好。
對比的基準線包括四種方法:沒有經過強化學習後訓練的原始預訓練模型、只優化質量的耦合GRPO、記憶輔助的GRPO(通過歷史記錄懲罰重複)以及SGRPO本身。
七、三場測驗的成績單:SGRPO如何表現?
在無條件小分子設計任務中,四種方法在保守解碼設置下表現差距不大,分子質量和多樣性都處於中等水平。但當調節參數推向高質量端時,差異開始顯現。耦合GRPO和記憶輔助GRPO的多樣性會迅速崩塌,整體前沿曲線出現急劇向下彎折的態勢。耦合SGRPO的多樣性下降則明顯更慢,前沿曲線更向右延伸,維持住了更高的多樣性水平。在量化指標上,耦合SGRPO的超體積達到0.0672,高於原始模型的0.0579和耦合GRPO的0.0629;理想點距離為0.2551,優於其他三種方法;R2指標為0.0979,同樣最優。這說明SGRPO主要的作用不是在所有操作點都提升表現,而是在高質量端延緩多樣性的崩塌。
在基於蛋白口袋的小分子設計任務中,SGRPO的優勢最為突出。這正是因為口袋條件設計任務本身就有極強的"聚焦"壓力——AI會集中優化對接分數,很容易固化在幾個高分的化學骨架上。耦合GRPO確實能提升質量,但代價是口袋內多樣性的大幅犧牲。耦合SGRPO的帕累托曲線則明顯向外擴展,在相近的質量水平下保持了高得多的口袋內多樣性。超體積從原始模型的0.0293一躍升至0.0654,而耦合GRPO只有0.0090;理想點距離從0.4643降到了0.3818,而耦合GRPO高達0.7527。這組數據揭示了一個重要規律:越是條件收緊、任務目標明確的場景,直接獎勵集合多樣性的策略越有價值。
在從頭蛋白質設計任務中,原始ProGen2模型的帕累托前沿作為基準,超體積為0.2708,整體表現不錯但可以提升。耦合GRPO訓練後質量提升,但多樣性大幅下降,超體積跌至0.2078。記憶輔助GRPO的情況更糟,多樣性出現最嚴重的模式坍縮,超體積僅剩0.0245,遠低於沒有做任何強化學習的原始模型。SGRPO則達到了最高的超體積0.3627,理想點距離0.3538,R2指標0.1693,三項指標均最優。這意味著SGRPO不僅超越了其他後訓練方法,甚至在帕累托前沿層面超過了原始模型——這是一個特別有意義的結果,因為它說明SGRPO不只是在"防止退化",而是真正地推進了模型的整體能力邊界。
八、拆開黑盒:SGRPO為什麼能做到這一點?
為了理解SGRPO內部的運作機制,研究團隊從多個角度做了深入分析。
消融實驗是最直接的拆解方式。研究團隊在無條件小分子設計任務上分別移除了SGRPO的兩個關鍵組件,觀察性能變化。當完全去掉多樣性獎勵時,方法退化為耦合GRPO,帕累托前沿最差。加入超組多樣性獎勵但不使用留一法貢獻分配時,前沿有明顯改善,說明組級多樣性壓力本身就有效果。使用完整SGRPO(包含留一法分配)時,前沿進一步改善,說明精細的個體貢獻分配對於進一步提升效果是必要的。
為了更直觀地理解訓練過程中發生了什麼,研究團隊利用蛋白質設計任務進行了分布動態分析。他們對三種後訓練方法在訓練的三個時間節點(初始、20步後、100步後)各生成一批序列,把所有序列混合後用UMAP降維可視化(UMAP是一種把高維數據壓縮到二維平面展示的技術),這樣可以直觀地看到不同序列的聚集模式。結果非常清晰:訓練20步後,GRPO和記憶輔助GRPO各自收縮進了一個相對集中的區域,而SGRPO的序列分散在多個不同的簇里,覆蓋了更廣泛的序列空間。隨著訓練到100步,GRPO繼續收縮,變得更加集中;記憶輔助GRPO則出現了一種奇怪的漂移——它確實離開了原來的高密度區域(這是記憶懲罰的效果),但卻朝向一個孤立的遠端區域聚集,說明記憶懲罰驅動的是"逃離熟悉區域"而非"探索整體空間"。SGRPO則在保持多個簇的同時,每個簇內的序列質量逐步提升。這組可視化結果生動地解釋了為什麼SGRPO能在保持多樣性的同時提升質量,而不是像其他方法一樣犧牲其中一個。
關於組大小對性能的影響,研究團隊做了一個系統測試:在總樣本量不變的前提下,把超組分成不同大小的組(組大小K從1到64),K=1相當於退化回普通GRPO。結果顯示,哪怕是K=4的近最小設置,SGRPO就已經明顯優於K=1(普通GRPO)。隨著組變大,性能逐步提升,但提升幅度遞減。這說明SGRPO不需要極大的組規模就能工作,在計算資源有限時也可以實用。
關於多樣性獎勵權重λ的敏感性,研究團隊測試了λ從0到0.9的多個取值。結果表明,只要λ大於0(即加入任何多樣性獎勵),SGRPO都優於純質量優化的GRPO。性能在λ=0.5附近達到峰值,說明質量和多樣性各占一半權重是最優平衡點。這個結果展示了SGRPO對超參數的魯棒性——不需要精心調參,大範圍內都能有效。
九、研究的邊界與未來方向
研究團隊在論文中也坦誠地討論了SGRPO的局限性和改進空間。
從計算成本來看,SGRPO需要對同一個條件生成多組樣本,並計算組內所有分子對之間的相似度。對於使用Morgan指紋的小分子任務,相似度矩陣的構建是主要的額外開銷;對於蛋白質序列,編輯距離的計算同樣需要額外時間。不過,這個開銷的實際大小取決於組大小K和相似度計算的成本,研究團隊也指出,由於同一相似度矩陣可以同時服務於組級多樣性評分和留一法貢獻計算,不需要重複計算,實際overhead並不像看起來那麼大。與記憶輔助GRPO相比,隨著訓練步驟增加,記憶庫中的歷史條目越來越多,查詢開銷也在增長,所以兩者在計算上各有取捨。
從適用場景來看,這項工作刻意保持了SGRPO的通用性,沒有針對某個特定的分子類型、任務或多樣性指標做深度定製。這種通用性讓SGRPO能夠橫跨多種任務和模型架構,但也意味著對某些具體場景來說,專門設計的多樣性獎勵可能效果更好。例如,在藥物化學中,"骨架多樣性"(scaffold diversity)往往比整體分子指紋多樣性更重要;在蛋白質工程中,功能分區的多樣性可能比序列編輯距離更有意義。研究團隊明確指出,這些更專門化的實例化留給未來工作探索。
此外,當前的評估以研究團隊定義的質量和多樣性指標為軸,這些指標本身的選擇和權重設計也是整個系統的一部分。如何選擇、校準和驗證這些組成指標,是所有基於獎勵的後訓練方法共同面對的問題,不是SGRPO特有的,但仍然是實際應用中的重要挑戰。
說到底,這項研究做的事情可以用一句話概括:它讓AI藥物設計系統學會了"在優秀的前提下,保持多樣化",而不是一味追求"最好的那一個"。在真實的藥物研發中,這種能力可能意味著某個疾病領域能有更多條可以探索的化學路徑,某個難以成藥的靶點能有更多不同骨架的候選分子等待測試,以及面對患者個體差異時有更豐富的方案儲備。
從技術層面看,SGRPO展示了一種優雅的思路:把"集合屬性"變成可訓練的目標,不是通過間接的代理指標(比如歷史記憶),而是直接在訓練時對生成的集合進行比較和評分。這個思路本身超越了藥物設計的範疇,對任何需要同時追求質量和多樣性的生成式AI任務都有參考價值——比如設計多樣化的廣告文案、生成覆蓋不同風格的音樂旋律,或者在機器人設計中探索多樣化的機械結構。
歸根結底,好的AI系統不應該只會"炒一道好菜",而應該能端出一桌各有特色又各自精彩的佳肴。SGRPO在這個方向邁出了可驗證、可復現的一步。有興趣深入了解技術細節的讀者,可通過arXiv編號2605.08659查閱完整論文,相關代碼也已在GitHub的IDEA-XL/SGRPO倉庫公開發布。
Q&A
Q1:SGRPO和普通GRPO有什麼本質區別?
A:GRPO只對每個單獨生成的分子打質量分數,然後根據這個分數更新AI策略,結果AI會越來越集中在高分的化學類型上,多樣性崩塌。SGRPO在此基礎上增加了一個關鍵步驟:對同一條件下生成的多組分子,直接計算每組的整體多樣性並與其他組比較,再通過留一法把組級多樣性獎勵分配給每個具體分子。這樣AI在學習時不僅知道"這個分子質量好不好",還知道"這個分子對整組多樣性的貢獻多不多",從而同時優化兩個目標。
Q2:SGRPO生成的分子多樣性更高,會不會導致質量變差?
A:實驗數據顯示,SGRPO在三個任務中都達到了最好的帕累托前沿,這意味著在相同質量水平下多樣性更高,在相同多樣性水平下質量也更高。特別是在蛋白質設計任務中,SGRPO甚至超過了沒有經過強化學習的原始預訓練模型。這說明SGRPO不是在質量和多樣性之間做簡單取捨,而是真正拓展了兩者同時可達的範圍邊界。
Q3:超組的組大小設置對SGRPO效果影響大嗎?
A:影響存在但並非決定性的。研究測試了從K=4到K=64的不同組大小,發現哪怕最小的K=4設置,SGRPO就已經明顯優於K=1(即普通GRPO)。組越大,多樣性估計越準確,性能也越好,但提升幅度是遞減的。這說明SGRPO在計算資源有限、只能用小組的情況下依然實用,不需要非常大的組才能發揮作用。






