上個月你剛花 20 美元訂閱了 ChatGPT Plus,轉頭這個月朋友圈就被「Claude 秒殺一切」刷屏,再過一個月可能又換成「Gemini 吊打一切」。
看著每月的賬單,你難免開始懷疑人生:這 AI 會員,開不完,真的開不完?
這並非你的錯覺,知名大模型競技場 LMArena.ai 分析了自 2023 年年中以來的模型排名榜單,撕開大模型行業最殘酷的一面:

排名第一的模型平均只能保持約 35 天的領先地位,通常情況下會在 5 個月內跌出前五名,在 7 個月內跌出前十名。
而曾經一戰封神的榜首模型 OpenAI o1 目前排在第 56 位,Claude 3 Opus 更是跌到了第 139 位。

雖然 LMArena.ai 的這份榜單本身可能存在注水空間,但這種劇烈洗牌依然反映了 AI 模型過氣速度之快,35 天正在成為頂級 AI 模型的「斬殺線」。
億級投流,換不來 AI 用戶的「回頭率」
過去兩年,你一定有看到過網際網路上流傳的這張梗圖。

去年年初還是 ChatGPT 獨領風騷,隨後 DeepSeek、Claude 輪番坐莊,如今 Gemini 又異軍突起。無論 2025 還是 2026 年,影響用戶選擇模型最核心的因素依舊是性能至上。
用戶的選擇從來純粹,哪款模型好用、順手,便會堅定不移地投向其懷抱,不得不承認的是,現在的 AI 用戶,從一開始就沒有忠誠可言。
比如 Sora 2 剛發布時被吹捧為短影片的降維打擊,5 天內下載量破百萬,但 a16z 合伙人 Olivia Moore 拋出的數據卻顯示,用戶的 30 天留存率僅 1%,60 天直接歸零。

如果把視野轉回國內,大模型戰火敘事同樣殘酷:AI 應用月投流規模動輒千萬甚至十億級,但除了嘗到初期的流量甜頭,用戶留存率同樣慘不忍睹。
而這種「始亂終棄」的現象繞不開因 AI 熱潮催生的「FOMO」心理——大量所謂的 AI 遊客只是為了跟上潮流、探索新鮮工具,但在體驗過後轉身離開。
深究根源,多數 AI 產品至今未能搭建起留住用戶的閉環。
在過去的 SaaS 行業,「因 X 而來,因 Y 而留」是奉為圭臬的增長邏輯。就像有人最初用 Canva 做社交海報,但後來卻被品牌素材包、模板庫和團隊協作功能綁住,成為長期用戶。亦或者很多人第一次點開微信影片號,就是因為朋友圈、群聊里的一次順手轉發。
內容本身未必驚艷,但它被包裹在熟人關係之中。你可以不關心影片講了什麼,但很難對誰轉了這條、誰在下面留言視而不見。按贊除了給創作者,也是為了維持關係的連接。
但這套邏輯在多數 AI 產品身上徹底失靈。

最典型的就是 Sora 2,即便能生成真假難辨的影片,但若沒有原生社區支撐用戶分享、互動、收穫反饋,它終究只是個孤立工具——除了極少數專業人士,大多數普通用戶往往缺乏長期使用的需求。
除此之外,重度用戶的使用邏輯也在發生變化。
英偉達 CEO 黃仁勛就曾在公開場合分享自己的 AI 使用秘籍:從不依賴單一模型,而是將同一個問題同時拋給多個 AI,讓它們互相參考、交叉驗證,以此提升回答質量與可信度。

這背後的邏輯不難理解:當下沒有哪個模型能贏家通吃,不同模型各有優勢。時至今日,ChatGPT 已不再是 AI 唯一入口,用 Claude 寫長文本、Gemini 寫代碼、多模型協作取長補短才是常態。
尤為關鍵的是,巨頭們早已手握成熟的生態閉環,只需將 AI 能力無縫嵌入其中,便能坐享生態紅利。
Google 手握一整套已經被驗證過二十年的入口體系,能夠將 Gemini 能夠無縫嵌入 YouTube、Workspace 辦公套件,更深度綁定 Chrome、地圖等核心流量入口,同時開放 API 拉攏海量開發者。

這種潤物細無聲的渠道分發,能夠讓 Gemini 輕鬆收割海量的普通用戶與企業客戶,也讓 ChatGPT 用戶反覆搖擺。
面對用戶使用意圖薄弱、遷移成本近乎為零的困境,OpenAI 為代表的初創廠商一方面不斷加築功能防線:綁定生態廠商合作,推出 AI Office、AI 瀏覽器、AI 群聊等產品。

用 Sam Altman 的話說,這是為了發揮 AI 最大生產力,一切都值得用 AI 重做一遍,但換個角度看,這也是入口焦慮下的被動選擇。
另一方面,OpenAI 也在 C 端加碼押注「個性化記憶」與情商——允許用戶讓模型跨會話記住寫作風格、專業術語等偏好,還能手動編輯記憶庫;針對心理諮詢等場景優化語氣,本質上就是希望通過個性化功能和「情感綁定」來抬高用戶遷移門檻。
但這些煞費苦心的防禦招式,短時間終究還是難以逆轉用戶流失的大趨勢。當產品端的突破變得舉步維艱,於是也有許多廠商將目光投向了更「省時省力」的賽道——在衡量行業性能地位的榜單上動起了歪腦筋。
「我可以隨時換,我也應該隨時換」
前文提到的 35 天斬殺線,核心是參考 LMArena 反映的行業趨勢,但需要指出的是,即便是這份被視作相對權威的評測榜單,本身也暗藏不少貓膩。
Meta 此前被曝出的刷榜行為,直接扯下了這份權威榜單的遮羞布。
發布 Llama 4 前,Meta 私下測試了 27 個變體版本,卻只將分數最高的」特供版「公之於眾,靠著這套玩法,Llama 4 一度霸榜。但當面向公眾的正式版發布後,排名瞬間從第 2 名暴跌至第 32 名,濾鏡破碎一覽無餘。

榜單的評測機制本身也存在不少問題,其理論上是這麼運作的:用戶輸入提示,比較兩個 AI 回應,然後選出更好的一個。實際情況卻是:隨機網民匆匆掃一眼,用兩秒鐘點擊他們感覺還不錯的選項。
Surge AI 在《LMArena is a cancer on AI》一文中曾指出,競技場中 52% 的對決判定存在錯誤,大眾投票更偏愛回答冗長、排版華麗甚至帶表情包的「顯眼包」。
很多時候,AI 只要自信地胡說八道,就能輕鬆擊敗誠實卻枯燥的對手。
當刷榜作弊成為 AI 行業的潛規則,用戶對模型的信任也在不斷被透支。再加上模型們隔三差五出現的「降智」更新,用戶對「榜一大哥」的祛魅,顯然也只是時間問題。

而開源與低價的崛起,則進一步衝擊了行業格局。
微軟基於內部數據的研究顯示,DeepSeek R1 極大推動了全球大多數地區的 AI 普及,在白俄羅斯拿下 56% 的份額,古巴 49%、俄羅斯 43%,即便是衣索比亞和辛巴威,份額也分別達到 18% 和 17%。

原因並不複雜,甚至可以說相當樸素:價格屠夫。
對於絕大多數人來說,免費模型已經覆蓋了大多數日常需求,用戶就會很自然地進入另一種心態:我可以隨時換,我也應該隨時換。對於開發者而言,即便 OpenAI 等巨頭多次大幅降價,其每 Token 收費依舊遙遙領先於 DeepSeek。
此外,開發者還基於 Qwen、DeepSeek 等開源模型,針對教育、醫療等細分場景做輕量化微調,誕生了一批「小而美」的垂直模型。它們雖在通用榜單分數不高,但特定場景表現遠超閉源巨頭,進一步瓦解了頭部模型的話語權。
在這樣的背景下,那些卡在中間地帶的 AI 玩家反而最為尷尬:既不夠強,也不夠便宜,卻還寄希望於刷榜、講故事維持存在感。在「35 天生死線」面前,他們幾乎沒有迴旋空間。
等待他們的結局,便只有遲早被斬殺。






