從它的名字就可以看到,它同樣使用了把「詞」變成塊的方法。在「切塊」後,MoBA 里有個像 「智能篩選員」 一樣的門控網路,它負責挑選與一個「塊」最相關的 Top-K 個塊,只對這些選中的塊計算注意力。在實際實現過程中,MoBA 還結合了 FlashAttention(能讓注意力計算更高效)和 MoE(專家混合模型)的優化手段。
與 NSA 相比,它更強調靈活性,沒有完全離開現在最主流的全注意力機制,而是設計了一套可以自由切換的方式,讓這些模型可以在全注意力和稀疏注意力機制之間切換,給已有的全注意力的模型更多的適配空間。
根據論文,MoBA 的計算複雜度隨著上下文長度增加而優勢明顯。在 1M token 的測試中,MoBA 比全注意力快了 6.5 倍;到 10M token 時,則提速 16 倍。而且,它已經在 Kimi 的產品中使用,用來處理日常用戶們的超長上下文的處理需求。楊植麟最初創辦月之暗面受到關注的一個重要原因,是他的論文影響力和引用量,但 K1.5 論文之前,他最後一篇論文類的研究停留在 2024 年 1 月。而梁文鋒雖然作為作者出現在 DeepSeek 最重要的模型技術報告裡,但這些報告的作者名錄幾乎相當於 DeepSeek 的員工名錄,幾乎所有人都列在裡面。而 NSA 的論文作者則只有幾人。由此可以看出這兩個工作對這兩家公司創始人來說的重要性,以及對了解這兩家公司技術路線的意義。另一個可以為這種重要性做註腳的細節是,有網友發現,arxiv 上 NSA 這篇論文的提交記錄顯示,它在 2 月 16 日提交,提交者正是梁文鋒自己。
這不是月之暗面和 DeepSeek 第一次「撞車」。在 R1 發布的同時,Kimi 難得的發布了 K1.5 的技術報告,此前這家公司並不以對外展示它的技術思考為優先重點。當時這兩篇論文同時把目標瞄準了 RL 推動的推理模型。事實上,仔細閱讀這兩篇技術報告,在 K1.5 的論文裡,月之暗面對如何訓練一個推理模型做了更詳細的分享,甚至單從資訊度和細節程度上,它是高過 R1 論文的。但之後 DeepSeek 的風潮掩蓋掉了不少對這篇論文本身的討論。一個可以作為印證的,是 OpenAI 最近難得發布的一篇對其 o 系列模型推理能力講解的論文裡,同時點了 DeepSeek R1 和 Kimi k1.5 的名字。「DeepSeek-R1 和 Kimi k1.5 通過獨立研究顯示,利用思維鏈學習(COT)方法,可顯著提升模型在數學解題與編程挑戰中的綜合表現。」也就是說,這是 OpenAI 自己選來用來對比的兩個推理模型。
「大模型這套架構最神奇的一點我感覺就是它似乎自己就指出了前進的路線,讓不同的人從不同的角度得出了相似的前進方向。」參與了 MoBa 核心研究的清華大學教授章明星在知乎上分享。他還提供了一個很有趣的對比。「DeepSeek R1 和 Kimi K1.5 都指向了 ORM based RL,不過 R1 從 Zero 開始,更加『存粹』或者說『less structure』一些,上線更早,同步開源模型。Kimi MoBA 和 DeepSeek NSA 再一次都指向了可以反向傳遞的 learned sparse attention,這一次 MoBA 更加 less structure 一些,上線更早,同步開源代碼。」這兩家的連續「撞車」有助於人們對比著更好理解強化學習的技術發展,以及更高效更長文本的注意力機制的進化方向。「結合 R1 和 K1.5 一起看能更好的學習 Reasoning Model 怎麼訓一樣,結合 MoBA 和 NSA 一起看能從不同側面更好的理解我們對於 —— Attention 中 sparsity 應當存在而且可以通過端到端訓練習得 —— 的相信。」章明星寫到。在 MoBA 發布後,月之暗面的許欣然也在社交媒體上稱,這是一個做了一年半的工作,現在開發者可以開箱即用。而選擇此刻開源註定還是會被放在 DeepSeek 的「陰影」里討論。有意思的是,在各家積極接入 DeepSeek 和開源自己的模型的今天,外界似乎總在第一時間想到月之暗面,對於 Kimi 是否會接入、模型是否會開源的討論不停,月之暗面和豆包似乎成了兩個僅剩的「異類」。而現在看來,DeepSeek 對月之暗面的影響相比其他玩家是更加持續的,它帶來了從技術路線到用戶爭奪全方位的挑戰:一方面它證明了哪怕是進入到產品的競爭上,基礎模型能力也依然是最重要的;另外,今天越來越清晰的另一個連鎖反應是,騰訊的微信搜索和元寶的組合拳,正借 DeepSeek R1 的勢頭補上一次它之前錯過的營銷投放戰,最終也是衝著 Kimi 和豆包而來。月之暗面的應對思路也就變得引人注目。其中開源是必須要做的一步。而看起來月之暗面的選擇,是想要真正匹配 DeepSeek 的開源思路 —— 目前在 DeepSeek 後出現的諸多開源大部分像是應激反應,它們還是用此前 Llama 時期的開源思路來跟隨。事實上 DeepSeek 的開源與此前的已經不同,不再是 Llama 似的防守擾亂閉源對手式的開源,而是一種能帶來明確收益的競爭策略。月之暗面最近傳出內部「把 SOTA(state-of-the-art)結果做為目標」,看起來是最接近這種新的開源模式的策略,要開的是最強的模型,最強的架構方法,這樣反而會得到它一直渴望的在應用側的影響力。根據兩家的論文,MoBA 已經用在月之暗面的模型和產品上,NSA 也一樣,它甚至讓外界可以對 DeepSeek 接下來的模型有更明確預期。於是接下來的看點就是,月之暗面和 DeepSeek 用 MoBA 和 NSA 各自訓練出的下一代模型,要不要再撞車一次,並且還是以開源的方式 —— 這可能也是月之暗面在等待著的那個節點。
我們正在招募夥伴
✉️ 郵件標題
「姓名 崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)