就在剛剛,馬斯克旗下 xAI 大模型 Grok 2 正式發布。贊助商廣告本次發布的 Grok 2 系列主要包括兩個版本:Grok-2 和 Grok-2 mini。簡單總結一下這兩款模型: Grok-2:大而全,類 GPT-4 級別模型,處於大模型的中上游水準 Grok-2 mini:小而美,響應速度快,但回復的質量不及 Grok-2 xAI 公司宣稱,當下推出的預覽版 Grok-2 在聊天、編程和推理方面均有著不俗的表現。Grok-2 系列模型將陸續集成到 X 平台,並且也將在 8 月底通過企業 API 向客戶提供。 類 GPT-4 級別模型迎來新玩家,Grok 2 登場 老規矩,先說結論,雖說馬斯克和 Altman 的唇槍舌戰中常常處於上風,但早期預覽版的 Grok-2 沒能上演逆襲 ChatGPT 的大戲。 在公認比較靠譜的大模型競技場 LMSYS 排行榜上,它的得分表現壓過了 GPT-4o mini 和 Claude 3.5 Sonnet 一頭。 而排在它前面的分別有「宿敵」OpenAI 的 GPT-4o-2024-05-13、Gemini-1.5-Pro-Exp-0801 以及 GPT-4o-latest-2024-08-08 等模型。 在大模型競技場與其他模型的較量中,Grok-2 遇上 Gemini 1.5 Pro 的勝率最低,只有 48%,其次分別為 GPT-4o(05-13)以及 GPT-4o mini(07-18)等一眾模型。 贊助商廣告據介紹,在內部評估里,xAI 重點評估模型在兩個關鍵方面的能力,其一為遵循指令,其二是提供準確、真實的資訊。 其中 xAI 會採用一種模擬測試的方法: AI 導師與模型在各種任務中進行互動,這些任務模擬了與 Grok 的真實互動場景。 在每次互動中,AI 導師會根據我們制定的評估標準,從 Grok 生成的兩個回應中選擇出更佳的一個。 結果表明,相比 Grok-2 mini 以及 Grok-1.5,Grok-2 在處理檢索到的內容時的推理能力,以及在使用工具方面的能力,如正確識別缺失資訊、通過事件序列進行推理以及排除無關內容等方面,都有了顯著的進步。 從基準測試結果來看,Grok-2 的水準基本上能夠碾壓 GPT-4 Turbo 以及 Claude 3 Opus,甚至在表現上也能與 GPT-4o 以及 Llama 3-405B 互有勝負。 不過,xAI 所披露的基準測試結果也有點「小心思」,比如雖說能和 GPT-4o 不分伯仲,但是用的卻是 GPT-4o 以及 GPT-4 Turbo 5 月份的得分,所以很難不讓人懷疑這是為了美化結果所打的時間差。 xAI 團隊成員 Guodong Zhang 則發文稱: 有趣的是,與我們大多數其他公司和實驗室不同,我們的發展速度非常快,以至於我們一直沒有時間為每個模型發布編寫正式的技術報告。 此外,xAI 還特地指出,Grok-2 在大規模多任務語言理解基準測試 MMLU 中,使用的是沒有經過特定任務訓練的 Grok-2,更真實地反映了該模型的泛化能力和對新任務的適應性。簡言之,哥們菜歸菜,但勝在真實。 9.8 大還是 9.11 大?Grok-2 竟然知道答案 去年底,馬斯克宣布 Grok 將被集成到 X 平台上,並同期向 X 平台的 Premium 訂閱用戶開放,然而,除了可以實時訪問 X 的資訊,體驗過後的網友幾乎都給 Grok 打了負評。 現在,Grok-2 和 Grok-2 mini 都將逐步集成到 X 平台上,X Premium 和 Premium 用戶均可體驗這兩款新模型。 官方說了,Grok-2 具備文本和視覺理解能力,能實時整合 X 平台的資訊。Grok-2 mini 則主打小巧精緻,在速度和答案質量之間實現了平衡。 但既然 Grok-2 系列都要集成到 X 上了,總歸要給付費的訂閱用戶拿出一些新東西。 與前代相比,Grok-2 的最大變化莫過於能直接生成圖片了。據 xAI 團隊內部成員透露,生圖的模型正是用到了近期大火的 FLUX.1 模型。 獲得訪問權限的 X 網友 @ai_for_success 也分享了新版 Grok 的用戶使用界面。嗯,看起來有種 AI 搜索的即視感。 贊助商廣告玩梗的網友讓 Grok 生成一幅「Llama(駱駝)吃草莓」的圖,效果也相當不錯。 新版 Grok 的自由度更高,川普前腳剛直播完,今天 X 平台就鋪滿了由 Grok 生成的照片,甚至還能生成略微裸露的圖片。 網友發現,Grok-2 在圖片生成次數方面存在限制,Premium 用戶預計能夠生成約 20 - 30 張圖像,而 Premium 用戶能夠生成更多。 贊助商廣告由 Grok-2 mini 生成的圖片搭配 Luma Dream Machine 製作而成的鋼鐵人影片,感覺如何? 「9.8 和 9.11 哪個大」的經典難題也沒難倒 Grok-2。 甚至也能數清草莓(strawberry)里有多少個「r」的難題。 激動不已的馬斯克接連轉發了數條有關 Grok 2 的推文,為其大力站台宣傳,並盛讚 xAI 團隊進展速度非常出色。 贊助商廣告不看廣告,看療效,Grok-2 更像是一款意義大於實際的新模型,它的發布意味著整個 AI 行業開始迎來了新的類 GPT-4 級別模型,但或許並沒有帶來足夠多的驚喜。 今年 4 月,馬斯克在接受挪威主權基金負責人 Nicolai Tangen 採訪時表示,Grok-2 需要大約 2 萬張 H100 來進行訓練。 而上個月在給 Grok-2 的預熱期間,馬斯克也透露 Grok-3 用了 10 萬塊英偉達 H100 晶片進行訓練,預計將於年底發布,屆時將有望成為最強的 AI 大模型。 為此,馬斯克甚至不惜調用特斯拉的晶片來給 xAI 團隊加 Buff,以至於惹得特斯拉投資者紛紛不滿。 值得一提的是,在最近的 X Space 活動上,馬斯克依然對 AI 的未來充滿信心,他預測到明年年底, AI 可能比任何人類都聰明。 而我的建議是,要不還是先等等 Grok 3 的的效果如何吧。 原文地址 : https://www.animattoys.com/detail/onUxyqhL/馬斯克突然發布類GPT4級別模型能解98和911哪個大爆火AI生圖功能被網友玩瘋了