AI 圈今年最大醜聞曝光！Llama 4 被揭訓練作弊，實測慘遭滑鐵盧，核心骨幹憤然離職

紙面參數很高大上，號稱原生多模態 MOE 模型，擊敗 DeepSeek AI 圈今年最大醜聞曝光！Llama 4 被揭訓練作弊，實測慘遭滑鐵盧，核心骨幹憤然離職

V3，還有 2 萬億參數巨獸，連 Meta CEO 祖克柏也發影片，搖旗高呼迎接「Llama 4 日」。

贊助商廣告

歡呼是短暫的，當網友開始實測後，卻幾乎是一邊倒的負面評價，堪稱今年 AI 界最大的「翻車」事件。

在專門討論本地部署大語言模型的社區 r/LocalLLaMA（可理解為 Llama「貼吧」）中，一篇標題為「我對 Llama 4 感到 incredibly disappointed（極度失望）」的帖子迅速獲得了大量關注和共鳴。

更有 Llama 忠實粉絲原地破防，直言是時候該將「LocalLLaMA」改名為「LocalGemma」了，調侃 Llama 4 的發布更像是遲到的愚人節玩笑。

實測表現貨不對板，曝 Llama 4 發布前瘋狂「灌題」

在 Reddit 的這篇原帖中，網友 karminski 強烈建議不要使用 Llama 4 執行編碼任務。

他表示 Llama-4-Maverick——總參數達 402B 的型號——在編碼能力上僅能與 Qwen-QwQ-32B 勉強匹敵。而 Llama-4-Scout（總參數 109B 的型號）表現則大致與 Grok-2 或 Ernie 4.5 相仿。

值得一提的是，根據最新的 aider polyglot 編碼基準測試結果，Llama 4 Maverick 的得分僅為 16%。

這一基準測試旨在評估大型語言模型（LLM）在多語言編程任務中的表現，覆蓋了 C 、Go、Java、JavaScript、Python 和 Rust 六種主流編程語言。

而這個分數，在眾多模型中也是屬於妥妥的墊底水平。

博主 @deedydas 同樣表達了對 Llama 4 的失望，直呼其為「一個糟糕透頂的編程模型」。

他指出，Scout (109B) 和 Maverick (402B) 在針對編程任務的 Kscores 基準測試中，表現遠不及 4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7。

贊助商廣告

另一位網友 Flavio Adamo 分別讓 Llama 4 Maverick 和 GPT-4o 生成一個小球在旋轉多邊形彈跳的動畫，並且，小球跳動的過程中要遵循重力和摩擦力的影響。

結果顯示，Llama 4 Maverick 生成的多邊形形狀缺乏開口，小球的運動也違背物理規律，相比之下，新版 GPT-4o 的表現明顯更勝一籌，而 Gemini 2.5 Pro 的表現則堪稱王者。

回望今年 1 月，祖克柏還宣稱，AI 將達中級軟體工程師編程水平，就目前 Llama 4 糟糕的表現，屬實是打臉來的有些快。

另外，Llama 4 Scout 的上下文長度達到了 1000 萬 tokens。這一超長上下文長度使得 Llama 4 Scout 能夠處理和分析極長的文本內容，例如整本書籍、大型代碼庫或多媒體檔案。

Meta 官方甚至還展示了「大海撈針」的測試結果以證明其能力。

然而，根據 Fiction.LiveBench 最新給出的結果，Llama 4 模型的效果也是中看不中用，整體效果不及 Gemini 2.0 Flash，而 Gemini 2.5 Pro 依舊是當之無愧的長文本王者。

Google 上大分 1。

贊助商廣告

網友 karminski 進一步指出，Llama 4 在 1K 上下文召回率（近似理解為問題回答的正確率）時就已跌至 60% 以下，甚至 Llama-4-Scout 在超過 16K 時僅剩 22%。

他還給出了一個形象的例子,《哈利·波特與魔法石》的文本長度恰好約為 16K。這意味著，如果你把整本書輸入模型，然後問「哈利小時候是住在臥室還是樓梯下的儲物間」，Llama-4-Scout 只有 22% 的概率能答對（近似理解，實際召回機制更複雜）。而這個成績自然也遠低於頭部模型的平均水平。

不僅模型本身稍顯拉胯，Llama 4 作為「開源扛把子」的光環也在逐漸褪色。

Meta 開放了 Llama 4 的權重，但即使使用量化（quant），也無法在消費級 GPU 上運行。號稱單卡運行，但實際指的卻是 H100。門檻之高，對開發者可謂是相當不友好。

更何況，Llama 4 的新許可證還有幾個限制條款，其中備受詬病的則是擁有超過 7 億月活躍用戶的公司必須向 Meta 申請特別許可證，Meta 可以自行決定是否批准或拒絕。

等等，昨天 Meta 公布的紙面參數可不是這麼說的，怎麼過了一天，風向就全變了。

在大模型競技場（Arena）排名中，Llama 4 Maverick 名列總榜第二，成為第四個突破 1400 分的模型，在開源模型中更是高居榜首，更是超越了 DeepSeek V3。

面對實測性能的「貨不對板」，細心的網友很快嗅到一絲蹊蹺。在 LM Arena 上取得高分的 Maverick 其實用到了一個「實驗性聊天版本」。

這還沒完，今天一畝三分地社區的爆料貼也似乎揭開了一些內幕。爆料稱，經過反覆訓練後，Llama 4 未能取得開源 SOTA，甚至與之相差甚遠。

而 Meta 公司內部設置發布的 deadline（截止日期）則是 4 月底。

於是，公司領導層建議將各個 benchmark 的測試集混合在 post-training 過程中，目的是希望能夠在各項指標上交差。拿出一個「看起來可以」的結果。

這裡說的將各個 benchmark 的測試集混合在 post-training 過程中，是指在模型的後訓練（post-training）階段，通過混合不同基準測試的數據集，模型可以在多種任務和場景中學習，從而提升其泛化能力。

贊助商廣告

打個簡單的比方，這就像考試作弊。試題本該從保密題庫（benchmark 測試集）中隨機抽取，考前無人知曉。可如果有人提前偷看了題目並反覆練習（相當於將測試集混入訓練），那考試成績自不必多說。

帖主進一步解釋說，Llama 4 發布之後，實測結果遭到 X 和 Reddit 網友的吐槽。作為一名目前也在學術界的人他宣稱實在無法接受 Meta 的做法，已提交離職申請，並明確要求在 Llama 4 的 Technical Report 中剔除自己的名字。

他還表示，Meta 的 VP of AI 也是因為這個原因辭職的。而早在幾天前，就有報道稱 Meta AI 研究負責人喬爾·皮諾（Joelle Pineau）宣布將於 5 月 30 日離職。

不過，對於這樁疑似「刷榜作弊」的指控，真相究竟如何，或許還需更多證據。一位名為 LichengYu 的 Meta 員工也疑似在留言區實名回應稱：

「這兩天虛心聆聽各方 feedback(比如 coding，creativewriting 等缺陷必須改進)，希望能在下一版有提升。但為了刷點而 overfit 測試集，我們從來沒有做過，實名 Licheng Yu，兩個 oss model 的 post training 有經手我這邊。請告知哪條 prompt 是測試集選出來放進訓練集的，我給你磕一個道歉！」

公開資料顯示，Licheng Yu（虞立成）曾本科畢業於上海交通大學，2014 年獲喬治亞理工學院和上海交通大學雙碩士學位，在 2019 年 5 月獲北卡羅來納大學教堂山分校電腦科學博士學位，。

他的研究領域專注於電腦視覺和自然語言處理，多篇論文被 CVPR、ICLR、ECCV、KDD 等頂級會議接收。

Licheng Yu 曾在微軟、Adobe 等大廠有過工作經歷，目前(2023.06 至今)擔任 Meta 的研究科學家經理。在 Meta 期間，他曾參與 Llama3.2 多模態模型(11B 90B)的發布，以及領導 Llama 4 項目中 17Bx128 和 17Bx16 的文本圖像強化學習階段。

真假難辨，或許還可以讓子彈再飛一會。

開源大模型的王座，不能只靠「蠻力」奪取

在去年這個時候，Meta 還被譽為 AI 行業的天選之子。

當時，脫下簡單的灰色T恤、牛仔褲和連帽衫，祖克柏也開始頻繁地穿著大 LOGO 的名牌服裝，頸間掛上粗獷的大金鍊子，甚至在公開場合自信展示自己的健身成果。

醉翁之意不在酒的祖克柏試圖通過展現更「真實」、更「接地氣」的一面，拉近與公眾的距離。這不僅讓 Meta 顯得更加親民，也使其順勢成為對抗 OpenAI 閉源模型的開源旗手，聲勢一時無兩。

贊助商廣告

與此同時，Meta 的雄厚實力為轉型提供了堅實後盾。據悉，Meta 計劃在 2025 年投入高達 650 億美元用於擴展其 AI 基礎設施，這一數字在業內堪稱大手筆，到 2025 年底，Meta 計劃擁有超過 130 萬塊 GPU。

其次，Meta 坐擁豐富的社交平台數據，這為其 AI 研發提供了得天獨厚的優勢。

作為 Facebook、Instagram 和 WhatsApp 等全球知名社交平台的母公司，Meta 掌握著數十億用戶的日常交互數據。據統計，其平台的全球日活躍用戶數（DAU）在 2024 年已超過 30 億，這一龐大的數據體量為 AI 模型的訓練提供了海量的原材料。

再者，Meta 在人才儲備上同樣不遑多讓。其 AI 部門的領軍人物是業界享有盛譽的圖靈獎得主 Yann LeCun。在他的帶領下，Meta 堅持開源策略，推出了 Llama 系列模型。

因此，Meta 也野心十足——它不僅要鞏固自身在社交領域的地位，更希望在 AI 領域實現彎道超車，目標是在 2025 年底前超越 OpenAI 等強勁對手。

但眼見他起朱樓，眼見他宴賓客，眼見他樓塌了。

若一畝三分地的爆料屬實，Llama 4 的研發過程中可能存在為追求基準測試分數而「作弊」的行為——通過將測試集混入訓練數據，也更像是「AI 流量焦慮」下的操作變形。

年初就曾有消息稱 DeepSeek 讓 Meta AI 團隊陷入恐慌：

「當生成式 AI 組織中的每個高管薪資都比訓練整個 DeepSeek-V3 的成本還要高，而我們有好幾十個這樣的高管，他們要如何面對高層？」

2023 年，Meta 憑藉 Llama 系列在開源大模型領域幾乎建立了壟斷地位，成為開源 AI 的代名詞和標杆。

然而，AI 一日，人間一年，在 Llama 4 遭遇「滑鐵盧」的留言區中，其他開源模型的好評隨處可見。

其中，Google Gemma 以輕量高效和多模態能力贏得廣泛認可，阿里的 Qwen 系列基座模型嶄露頭角，而 DeepSeek 更以低成本高性能的黑馬姿態震撼了整個行業。

贊助商廣告

Meta 能否調整策略重回開源 AI 的模型領跑位置尚未可知，但無論如何，開源 AI 的百花齊放已經不可逆轉地到來了。

秉持著哪個 AI 好用，用哪個的原則，Meta 也不能全然怪用戶「牆頭草」。更何況，在開源透明度方面，相較於上述幾家公司的開源模型，Llama 4 的種種限制，也頗有些自斷一臂的意味。

而 Meta 目前的掙扎或許也表明，即便手握全球所有的 GPU 算力和海量數據，資源優勢已不再是決定性因素。開源大模型的王座，也不能只靠「蠻力」奪取。