今日凌晨,在一片質疑聲中,信守承諾的馬斯克卡在最後一日正式開源了 GroK。
好消息是, 馬斯克開源了 Grok 1.0 的完整代碼,壞消息是,關於模型完整的訓練過程和細節卻是一點也沒透露,這就好比給你一本詳盡的教科書讓你自學成才。
另外,藏著掖著的 Grok 1.5 也沒有發布,相信屆時會給我們帶來一波大驚喜。

本次開源的 Grok 1.0 是擁有 314B 參數的先進混合專家模型,也是截至目前參數量最大的開源大型語言模型,其規模相當於 Meta LlaMA 2 70B 的 4.4 倍。
模型是由 xAI 團隊利用定製的訓練技術棧,在 JAX 和 Rust 的基礎上從零開始構建的,包含了 Grok 1.0 在 2023 年 10 月完成預訓練階段時的基礎模型數據。
這也意味著該模型尚未對任何特定應用(如對話系統)進行微調,所以在處理特定任務時的表現甚至不如一些專門為任務微調過的模型。
根據 Apache 2.0 許可協議, 現在公眾可以自由訪問模型的權重和架構。以下是關於 Grok 1.0 的一些關鍵資訊:
模型參數數量高達 314B
混合專家模型(MoE 架構)
每一個數據單元由 2 位專家處理
嵌入向量的維度為 6144
採用旋轉式嵌入表示
最大序列長度為 8192 個數據單元,以處理更長的上下文資訊
在 MMLU、GSM8K 等一系列的基準測試中,Grok 1 的表現遠勝於 LLaMA 2 70B,但和 Claude 2 以及 GPT-4 仍有不小的差距。

Grok 1.0 開源之後,網友用 AI 惡搞了一段祖克柏揶揄 Grok 開源的影片。
AI 版的祖克柏調侃道,「Grok 的開源並沒有給人留下真正深刻的印象,3140 億參數太多了,你需要一堆 H100,不過我已經買下了。」
一向愛「套殼」熱門模型的 Perplexity AI 創始人,也第一時間在 X 上宣稱將對該模型進行微調,以增強其在對話搜索方面的表現,並提供給所有 Pro 用戶。
英偉達高級科學家 Jim Fan 則對這個模型展現出了濃厚的興趣。

網友還發現了一個有趣的細節:xAI 團隊似乎為了體現其「理解宇宙」的宏偉理念,特意將模型的參數量設定為與圓周率相關的「314B」。

但也有網友質疑, Grok 的開源更像是一場作秀,並指出 Grok 1.0 在實用性或性能上存在局限,甚至達不到公司商業的產品標準。

馬斯克自然不會放過這個貼臉輸出的大好機會,對著 ChatGPT APP 官方賬號揶揄道,「告訴我們更多關於 OpenAI 的『Open』部分......」

配上網友的玩梗圖有種莫名的喜感
OpenAI CEO Sam Altman 則發了一條耐人尋味的推文。
儘管 Grok 1.0 因為龐大的模型體量和對計算資源的高需求而面臨諸多局限,使得哪怕是開源社區在實際應用之前,也需要經過複雜的微調和優化過程。
但不可否認的是,Grok 仍然是一個值得銘記的歷史性時刻,也是邁向開源 AGI 的重要一步。