宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職

2025年04月07日 首頁 » 熱門科技
紙面參數很高大上,號稱原生多模態 MOE 模型,擊敗 DeepSeekAI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職 V3,還有 2 萬億參數巨獸,連 Meta CEO 祖克柏也發影片,搖旗高呼迎接「Llama 4 日」。
歡呼是短暫的,當網友開始實測後,卻幾乎是一邊倒的負面評價,堪稱今年 AI 界最大的「翻車」事件。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
在專門討論本地部署大語言模型的社區 r/LocalLLaMA(可理解為 Llama「貼吧」)中,一篇標題為「我對 Llama 4 感到 incredibly disappointed(極度失望)」的帖子迅速獲得了大量關注和共鳴。
更有 Llama 忠實粉絲原地破防,直言是時候該將「LocalLLaMA」改名為「LocalGemma」了,調侃 Llama 4 的發布更像是遲到的愚人節玩笑。
實測表現貨不對板,曝 Llama 4 發布前瘋狂「灌題」
在 Reddit 的這篇原帖中,網友 karminski 強烈建議不要使用 Llama 4 執行編碼任務。
他表示 Llama-4-Maverick——總參數達 402B 的型號——在編碼能力上僅能與 Qwen-QwQ-32B 勉強匹敵。而 Llama-4-Scout(總參數 109B 的型號)表現則大致與 Grok-2 或 Ernie 4.5 相仿。
值得一提的是,根據最新的 aider polyglot 編碼基準測試結果,Llama 4 Maverick 的得分僅為 16%。
這一基準測試旨在評估大型語言模型(LLM)在多語言編程任務中的表現,覆蓋了 C 、Go、Java、JavaScript、Python 和 Rust 六種主流編程語言。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
而這個分數,在眾多模型中也是屬於妥妥的墊底水平。
博主 @deedydas 同樣表達了對 Llama 4 的失望,直呼其為「一個糟糕透頂的編程模型」。
他指出,Scout (109B) 和 Maverick (402B) 在針對編程任務的 Kscores 基準測試中,表現遠不及 4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
另一位網友 Flavio Adamo 分別讓 Llama 4 Maverick 和 GPT-4o 生成一個小球在旋轉多邊形彈跳的動畫,並且,小球跳動的過程中要遵循重力和摩擦力的影響。
結果顯示,Llama 4 Maverick 生成的多邊形形狀缺乏開口,小球的運動也違背物理規律,相比之下,新版 GPT-4o 的表現明顯更勝一籌,而 Gemini 2.5 Pro 的表現則堪稱王者。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
回望今年 1 月,祖克柏還宣稱,AI 將達中級軟體工程師編程水平,就目前 Llama 4 糟糕的表現,屬實是打臉來的有些快。
另外,Llama 4 Scout 的上下文長度達到了 1000 萬 tokens。這一超長上下文長度使得 Llama 4 Scout 能夠處理和分析極長的文本內容,例如整本書籍、大型代碼庫或多媒體檔案。
Meta 官方甚至還展示了「大海撈針」的測試結果以證明其能力。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
然而,根據 Fiction.LiveBench 最新給出的結果,Llama 4 模型的效果也是中看不中用,整體效果不及 Gemini 2.0 Flash,而 Gemini 2.5 Pro 依舊是當之無愧的長文本王者。
Google 上大分 1。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
網友 karminski 進一步指出,Llama 4 在 1K 上下文召回率(近似理解為問題回答的正確率)時就已跌至 60% 以下,甚至 Llama-4-Scout 在超過 16K 時僅剩 22%。
他還給出了一個形象的例子,《哈利·波特與魔法石》的文本長度恰好約為 16K。這意味著,如果你把整本書輸入模型,然後問「哈利小時候是住在臥室還是樓梯下的儲物間」,Llama-4-Scout 只有 22% 的概率能答對(近似理解,實際召回機制更複雜)。而這個成績自然也遠低於頭部模型的平均水平。
不僅模型本身稍顯拉胯,Llama 4 作為「開源扛把子」的光環也在逐漸褪色。
Meta 開放了 Llama 4 的權重,但即使使用量化(quant),也無法在消費級 GPU 上運行。號稱單卡運行,但實際指的卻是 H100。門檻之高,對開發者可謂是相當不友好。
更何況,Llama 4 的新許可證還有幾個限制條款,其中備受詬病的則是擁有超過 7 億月活躍用戶的公司必須向 Meta 申請特別許可證,Meta 可以自行決定是否批准或拒絕。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
等等,昨天 Meta 公布的紙面參數可不是這麼說的,怎麼過了一天,風向就全變了。
在大模型競技場(Arena)排名中,Llama 4 Maverick 名列總榜第二,成為第四個突破 1400 分的模型,在開源模型中更是高居榜首,更是超越了 DeepSeek V3。
面對實測性能的「貨不對板」,細心的網友很快嗅到一絲蹊蹺。在 LM Arena 上取得高分的 Maverick 其實用到了一個「實驗性聊天版本」。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
這還沒完,今天一畝三分地社區的爆料貼也似乎揭開了一些內幕。爆料稱,經過反覆訓練後,Llama 4 未能取得開源 SOTA,甚至與之相差甚遠。
而 Meta 公司內部設置發布的 deadline(截止日期)則是 4 月底。
於是,公司領導層建議將各個 benchmark 的測試集混合在 post-training 過程中,目的是希望能夠在各項指標上交差。拿出一個「看起來可以」的結果。
這裡說的將各個 benchmark 的測試集混合在 post-training 過程中,是指在模型的後訓練(post-training)階段,通過混合不同基準測試的數據集,模型可以在多種任務和場景中學習,從而提升其泛化能力。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
打個簡單的比方,這就像考試作弊。試題本該從保密題庫(benchmark 測試集)中隨機抽取,考前無人知曉。可如果有人提前偷看了題目並反覆練習(相當於將測試集混入訓練),那考試成績自不必多說。
帖主進一步解釋說,Llama 4 發布之後,實測結果遭到 X 和 Reddit 網友的吐槽。作為一名目前也在學術界的人他宣稱實在無法接受 Meta 的做法,已提交離職申請,並明確要求在 Llama 4 的 Technical Report 中剔除自己的名字。
他還表示,Meta 的 VP of AI 也是因為這個原因辭職的。而早在幾天前,就有報道稱 Meta AI 研究負責人喬爾·皮諾(Joelle Pineau)宣布將於 5 月 30 日離職。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
不過,對於這樁疑似「刷榜作弊」的指控,真相究竟如何,或許還需更多證據。一位名為 LichengYu 的 Meta 員工也疑似在留言區實名回應稱:
「這兩天虛心聆聽各方 feedback(比如 coding,creativewriting 等缺陷必須改進),希望能在下一版有提升。但為了刷點而 overfit 測試集,我們從來沒有做過,實名 Licheng Yu,兩個 oss model 的 post training 有經手我這邊。請告知哪條 prompt 是測試集選出來放進訓練集的,我給你磕一個 道歉!」
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
公開資料顯示,Licheng Yu(虞立成)曾本科畢業於上海交通大學,2014 年獲喬治亞理工學院和上海交通大學雙碩士學位,在 2019 年 5 月獲北卡羅來納大學教堂山分校電腦科學博士學位,。
他的研究領域專注於電腦視覺和自然語言處理,多篇論文被 CVPR、ICLR、ECCV、KDD 等頂級會議接收。
Licheng Yu 曾在微軟、Adobe 等大廠有過工作經歷,目前(2023.06 至今)擔任 Meta 的研究科學家經理。在 Meta 期間,他曾參與 Llama3.2 多模態模型(11B 90B)的發布,以及領導 Llama 4 項目中 17Bx128 和 17Bx16 的文本 圖像強化學習階段。
真假難辨,或許還可以讓子彈再飛一會。
開源大模型的王座,不能只靠「蠻力」奪取
在去年這個時候,Meta 還被譽為 AI 行業的天選之子。
當時,脫下簡單的灰色T恤、牛仔褲和連帽衫,祖克柏也開始頻繁地穿著大 LOGO 的名牌服裝,頸間掛上粗獷的大金鍊子,甚至在公開場合自信展示自己的健身成果。
醉翁之意不在酒的祖克柏試圖通過展現更「真實」、更「接地氣」的一面,拉近與公眾的距離。這不僅讓 Meta 顯得更加親民,也使其順勢成為對抗 OpenAI 閉源模型的開源旗手,聲勢一時無兩。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
與此同時,Meta 的雄厚實力為轉型提供了堅實後盾。據悉,Meta 計劃在 2025 年投入高達 650 億美元用於擴展其 AI 基礎設施,這一數字在業內堪稱大手筆,到 2025 年底,Meta 計劃擁有超過 130 萬塊 GPU。
其次,Meta 坐擁豐富的社交平台數據,這為其 AI 研發提供了得天獨厚的優勢。
作為 Facebook、Instagram 和 WhatsApp 等全球知名社交平台的母公司,Meta 掌握著數十億用戶的日常交互數據。據統計,其平台的全球日活躍用戶數(DAU)在 2024 年已超過 30 億,這一龐大的數據體量為 AI 模型的訓練提供了海量的原材料。
再者,Meta 在人才儲備上同樣不遑多讓。其 AI 部門的領軍人物是業界享有盛譽的圖靈獎得主 Yann LeCun。在他的帶領下,Meta 堅持開源策略,推出了 Llama 系列模型。
因此,Meta 也野心十足——它不僅要鞏固自身在社交領域的地位,更希望在 AI 領域實現彎道超車,目標是在 2025 年底前超越 OpenAI 等強勁對手。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
但眼見他起朱樓,眼見他宴賓客,眼見他樓塌了。
若一畝三分地的爆料屬實,Llama 4 的研發過程中可能存在為追求基準測試分數而「作弊」的行為——通過將測試集混入訓練數據,也更像是「AI 流量焦慮」下的操作變形。
年初就曾有消息稱 DeepSeek 讓 Meta AI 團隊陷入恐慌:
「當生成式 AI 組織中的每個高管薪資都比訓練整個 DeepSeek-V3AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職 的成本還要高,而我們有好幾十個這樣的高管,他們要如何面對高層?」
2023 年,Meta 憑藉 Llama 系列在開源大模型領域幾乎建立了壟斷地位,成為開源 AI 的代名詞和標杆。
然而,AI 一日,人間一年,在 Llama 4 遭遇「滑鐵盧」的留言區中,其他開源模型的好評隨處可見。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
其中,Google Gemma 以輕量高效和多模態能力贏得廣泛認可,阿里的 Qwen 系列基座模型嶄露頭角,而 DeepSeek 更以低成本高性能的黑馬姿態震撼了整個行業。
AI 圈今年最大醜聞曝光!Llama 4 被揭訓練作弊,實測慘遭滑鐵盧,核心骨幹憤然離職
Meta 能否調整策略重回開源 AI 的模型領跑位置尚未可知,但無論如何,開源 AI 的百花齊放已經不可逆轉地到來了。
秉持著哪個 AI 好用,用哪個的原則,Meta 也不能全然怪用戶「牆頭草」。更何況,在開源透明度方面,相較於上述幾家公司的開源模型,Llama 4 的種種限制,也頗有些自斷一臂的意味。
而 Meta 目前的掙扎或許也表明,即便手握全球所有的 GPU 算力和海量數據,資源優勢已不再是決定性因素。開源大模型的王座,也不能只靠「蠻力」奪取。
宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新