宅中地 - 每日更新

贊助商廣告

X

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

2024年08月14日首頁 » 熱門科技

就在剛剛，馬斯克旗下 xAI 大模型 Grok 2 正式發布。

贊助商廣告

本次發布的 Grok 2 系列主要包括兩個版本：Grok-2 和 Grok-2 mini。簡單總結一下這兩款模型：

Grok-2：大而全，類 GPT-4 級別模型，處於大模型的中上游水準

Grok-2 mini：小而美，響應速度快，但回復的質量不及 Grok-2

xAI 公司宣稱，當下推出的預覽版 Grok-2 在聊天、編程和推理方面均有著不俗的表現。Grok-2 系列模型將陸續集成到 X 平台，並且也將在 8 月底通過企業 API 向客戶提供。

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

類 GPT-4 級別模型迎來新玩家，Grok 2 登場

老規矩，先說結論，雖說馬斯克和 Altman 的唇槍舌戰中常常處於上風，但早期預覽版的 Grok-2 沒能上演逆襲 ChatGPT 馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

的大戲。

在公認比較靠譜的大模型競技場 LMSYS 排行榜上，它的得分表現壓過了 GPT-4o 馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

mini 和 Claude 3.5 Sonnet 一頭。

而排在它前面的分別有「宿敵」OpenAI 馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

的 GPT-4o-2024-05-13、Gemini-1.5-Pro-Exp-0801 以及 GPT-4o-latest-2024-08-08 等模型。

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

在大模型競技場與其他模型的較量中，Grok-2 遇上 Gemini 1.5 Pro 的勝率最低，只有 48%，其次分別為 GPT-4o（05-13）以及 GPT-4o mini（07-18）等一眾模型。

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

贊助商廣告

據介紹，在內部評估里，xAI 重點評估模型在兩個關鍵方面的能力，其一為遵循指令，其二是提供準確、真實的資訊。

其中 xAI 會採用一種模擬測試的方法：

AI 導師與模型在各種任務中進行互動，這些任務模擬了與 Grok 的真實互動場景。

在每次互動中，AI 導師會根據我們制定的評估標準，從 Grok 生成的兩個回應中選擇出更佳的一個。

結果表明，相比 Grok-2 mini 以及 Grok-1.5，Grok-2 在處理檢索到的內容時的推理能力，以及在使用工具方面的能力，如正確識別缺失資訊、通過事件序列進行推理以及排除無關內容等方面，都有了顯著的進步。

從基準測試結果來看，Grok-2 的水準基本上能夠碾壓 GPT-4 Turbo 以及 Claude 3 Opus，甚至在表現上也能與 GPT-4o 以及 Llama 3-405B 互有勝負。

不過，xAI 所披露的基準測試結果也有點「小心思」，比如雖說能和 GPT-4o 不分伯仲，但是用的卻是 GPT-4o 以及 GPT-4 Turbo 5 月份的得分，所以很難不讓人懷疑這是為了美化結果所打的時間差。

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

xAI 團隊成員 Guodong Zhang 則發文稱：

有趣的是，與我們大多數其他公司和實驗室不同，我們的發展速度非常快，以至於我們一直沒有時間為每個模型發布編寫正式的技術報告。

此外，xAI 還特地指出，Grok-2 在大規模多任務語言理解基準測試 MMLU 中，使用的是沒有經過特定任務訓練的 Grok-2，更真實地反映了該模型的泛化能力和對新任務的適應性。簡言之，哥們菜歸菜，但勝在真實。

9.8 大還是 9.11 大？Grok-2 竟然知道答案

去年底，馬斯克宣布 Grok 將被集成到 X 平台上，並同期向 X 平台的 Premium+ 訂閱用戶開放，然而，除了可以實時訪問 X 的資訊，體驗過後的網友幾乎都給 Grok 打了負評。

現在，Grok-2 和 Grok-2 mini 都將逐步集成到 X 平台上，X Premium 和 Premium+ 用戶均可體驗這兩款新模型。

官方說了，Grok-2 具備文本和視覺理解能力，能實時整合 X 平台的資訊。Grok-2 mini 則主打小巧精緻，在速度和答案質量之間實現了平衡。

但既然 Grok-2 系列都要集成到 X 上了，總歸要給付費的訂閱用戶拿出一些新東西。

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

與前代相比，Grok-2 的最大變化莫過於能直接生成圖片了。據 xAI 團隊內部成員透露，生圖的模型正是用到了近期大火的 FLUX.1 模型。

獲得訪問權限的 X 網友 @ai_for_success 也分享了新版 Grok 的用戶使用界面。嗯，看起來有種 AI 搜索的即視感。

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

贊助商廣告

玩梗的網友讓 Grok 生成一幅「Llama（駱駝）吃草莓」的圖，效果也相當不錯。

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

新版 Grok 的自由度更高，川普前腳剛直播完，今天 X 平台就鋪滿了由 Grok 生成的照片，甚至還能生成略微裸露的圖片。

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

網友發現，Grok-2 在圖片生成次數方面存在限制，Premium 用戶預計能夠生成約 20 - 30 張圖像，而 Premium+ 用戶能夠生成更多。

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

贊助商廣告

由 Grok-2 mini 生成的圖片搭配 Luma Dream Machine 製作而成的鋼鐵人影片，感覺如何？

「9.8 和 9.11 哪個大」的經典難題也沒難倒 Grok-2。

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

甚至也能數清草莓（strawberry）里有多少個「r」的難題。

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

激動不已的馬斯克接連轉發了數條有關 Grok 2 的推文，為其大力站台宣傳，並盛讚 xAI 團隊進展速度非常出色。

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

贊助商廣告

不看廣告，看療效，Grok-2 更像是一款意義大於實際的新模型，它的發布意味著整個 AI 行業開始迎來了新的類 GPT-4 級別模型，但或許並沒有帶來足夠多的驚喜。

今年 4 月，馬斯克在接受挪威主權基金負責人 Nicolai Tangen 採訪時表示，Grok-2 需要大約 2 萬張 H100 來進行訓練。

馬斯克突然發布類 GPT-4 級別模型，能解「9.8 和 9.11 哪個大」，爆火 AI 生圖功能被網友玩瘋了

而上個月在給 Grok-2 的預熱期間，馬斯克也透露 Grok-3 用了 10 萬塊英偉達 H100 晶片進行訓練，預計將於年底發布，屆時將有望成為最強的 AI 大模型。

為此，馬斯克甚至不惜調用特斯拉的晶片來給 xAI 團隊加 Buff，以至於惹得特斯拉投資者紛紛不滿。

值得一提的是，在最近的 X Space 活動上，馬斯克依然對 AI 的未來充滿信心，他預測到明年年底， AI 可能比任何人類都聰明。

而我的建議是，要不還是先等等 Grok 3 的的效果如何吧。

宅中地 - Facebook 分享

宅中地 - Twitter 分享

宅中地 - Whatsapp 分享

宅中地 - Line 分享

相關內容

Copyright ©2026 | 服務條款 | DMCA | 聯絡我們

宅中地 - 每日更新