實測 MiniMax M2.7：AI 狠起來，連自己都卷

龍蝦爆火之後，全網的注意力都盯著「它該怎麼用」——本地部署還是雲端、一鍵安裝還是敲命令、要不要接微信飛書……反而沒人再認真問那個老問題：驅動龍蝦的那顆「大腦」，夠不夠聰明？

贊助商廣告

這倒不奇怪。OpenAI 和 Google 最近發布的幾款新模型，清一色都是 Mini、Flash 款，官方潛台詞幾乎寫在臉上：專門給 Agent 大量消耗 Token 準備的。

模型本身的能力邊界，反而成了最不被討論的話題。

該圖片屬於AI生成

一個真正適配龍蝦的模型，除了 Token 要量大管飽還實惠，更多的是模型要足夠聰明、動手能力和學習能力足夠強。

最近，MiniMax 正式推出了全新的 MiniMax M2.7 模型，主打「開啟 AI 的自我進化」和做「最強的 Cowork Agent 模型」，既能處理代碼工作、常見的 Office 任務，還能主動學習構建穩定的 Agent 系統。

具體來說，它能做好的工作比大多數模型要更寬。對於寫代碼，M2.7 能真正理解一個系統在運行時發生了什麼，做到了 SRE（網站可靠性工程）級別的系統推理，看日誌、關聯時間線、推斷根因、給出有優先級的處理方案。新模型在 SWE-Pro 上跑了 56.2%，幾乎追平 Opus 4.6。

辦公場景里它已經夠用了。 Excel、Word、PPT 的複雜編輯和多輪修改，M2.7 在這塊有明顯提升，金融分析這類需要專業知識 + 格式交付的場景尤其明顯。不能說它可以完全替代專業人士，但是真正進入工作流，作為輔助完全可以。

它在多 Agent 協作里不會「斷掉」。這是 M2.7 專項打磨的能力，多角色場景下邊界清晰，面對包含 50+ Skills 的複雜環境，依然能保持極高的指令遵循能力。

然後是這次更新的重點，它開始參與優化自己了。 MiniMax 說 M2.7 是他們第一個深度參與疊代自己的模型，不只是「輔助疊代」，是「深度參與疊代自己」。能夠自我進化，M2.7 可以自主疊代 Agent Harness（智能體腳手架）來勝任大部分的工作流。

贊助商廣告

實戰能力的提升，也讓 MiniMax M2.7 一發布就在龍蝦榜上迅速攀升，來到了最高分排行榜的第四名。

PinchBench 排行榜是為 OpenClaw 量身定做的模型評估基準，它測試的是大模型在 OpenClaw 真實業務場景下的表現，圖中為任務成功率指標，MiniMax M2.7 排名第四，在 Claude Opus 4.6 之後｜https://pinchbench.com/

我們也在 Claude Code、本地部署的龍蝦里，都接入了 MiniMax M2.7 模型，以及 MiniMax 提供的 MaxClaw，然後把真實的開發過程中遇到的 Bug、枯燥的金融數據，還有大量的長流程任務統統交給它。

兩天的測試下來，我們發現不僅軟體要為了 AI 重做，就連 AI 模型本身，除了要理解人類的用意和產出人類滿意的結果，模型更需要懂得 AI 的工作方式和工作流，還得學會自己優化自己。

用 AI 的工作流當人類的助手

在 OpenClaw 等 Agent 框架爆火後，真正的「AI 時代工作流」應該是，AI 作為核心運轉樞紐，去調用幾十個工具、去指揮其他 AI 隊友、甚至去優化 AI 自己的代碼。

在測試 MiniMax M2.7 是如何自我進化之前，我想先看看它的 AI 工作流如何。它到底是不是一個好用的 Agent 模型，還是說拿去跑個 benchmark 好看，實際用起來一言難盡。

我們從知名的機器學習挑戰賽 Kaggle 的網站上下載了一份股票的歷史數據，然後按照比賽的要求，告訴 MiniMax M2.7 幫我實現對應的需求，即根據給定的數據，進行合適的數據處理和特徵工程，為我生成一份可視化的分析報告。

整個數據集的內容相當龐大，有超過 3000 行的表格數據，整體文件大小來到 446.35 MB。把 5 個表格數據文件下載到本地之後，我們使用接入了 MiniMax M2.7 的 Claude Code 來完成這項工作。

要做好這份分析，需要模型是個數據分析師完成數據清洗和整理、宏觀分析師完成對應的金融市場的洞察、統計分析師完成初步的數學建模、算法工程師要建立對應的模型，最後還有網頁工程師要交出一個可視化的方案。

贊助商廣告

面對這樣一個複雜的任務，MiniMax M2.7 充分利用了我已經安裝的各種 Skills，它先使用 Anthropic 官方提供的 xlsx 完成了表格數據結構的資訊讀取，接著開始編寫 Python 代碼，自動安裝 Pandas 庫（常用來處理表格數據），一步一步進行。

最後，MiniMax M2.7 也交出了一份完整的可視化方案，它同時生成了多張圖片用來展示收益率分布，不同特徵的重要性和類別排名，以及綜合儀錶盤。

而在可視化的網頁里，它利用 Streamlit 庫將數據腳本直接轉成了可交互的網頁系統，所有的資訊都可以直接動態查看。

贊助商廣告

這種大型的項目任務，MiniMax 能夠順利完成，我們日常工作中的辦公和編程任務，就更不用說了。

我們先是在手機上操作龍蝦，讓它幫我總結我放在電腦上的文件，然後要求 MiniMax M2.7 根據這份文件，幫我寫一個研究計劃 Word 文件，再整理一份相關論文的 Excel 文檔，最後是一個用來組會做匯報的 PPT 文檔，直接在手機上就能操作。

接入 MiniMax M2.7 的龍蝦能快速回應需求

Office 三件套的處理如今是不在話下

在辦公領域的優勢，也讓 MiniMax M2.7 在衡量專業知識與任務交付能力的 GDPval-AA 評測中，ELO 得分達到了 1495，國產模型最高。

前段時間，AI 工作助手的可視化面板很火，把龍蝦放到了真實的二次元風格辦公室里，用一句話就能安裝到自己的 OpenClaw。我們也成功讓這隻 Appso 小龍蝦有了自己的家，但是如果我想要修改二次元房間布局，可以怎麼做呢？交給 MiniMax。

贊助商廣告

在 OpenClaw 的可視化本地界面里，我們直接發送「我想修改這個小房子的風格該怎麼做？」，MiniMax M2.7 會自動閱讀項目的代碼，然後告訴我們哪些地方是可以修改的，如何修改。

由於我輸入的要求是科技編輯部辦公室的風格，然後它就幫我修改成了有星球大戰的海報，還加了十幾個人坐在電腦前面碼字。

不過我們沒有在 OpenClaw 內配置 Nano Banana Pro 的 API Key，所以 MiniMax M2.7 在 OpenClaw 里幫我選擇了用代碼的方式來生成簡單的圖片。

接著和它聊天，我們還能根據這個風格設計一個編輯部大亨的遊戲，誰做的任務多，誰的辦公室就大，就能升級。

贊助商廣告

如果是 MiniMax 官方的 MaxClaw，是直接支持多模態的生成，可以一步到位生成影片、音頻、圖片等，不需要配置額外的 API。

我們使用官方提供的 gif-sticker-maker Skill 生成了幾張馬斯克的表情包。雲端部署的 MaxClaw 能確保運行環境的足夠安全，但是它不允許我們像操作本地電腦一樣，任意安裝不同的庫文件。

最後在將影片轉成 GIF 時，MaxClaw 提醒我，它沒有足夠的權限將 ffmpeg（一個開源的多媒體處理庫）安裝到雲端伺服器上。

該圖片疑似AI生成

在 MaxClaw 內可以直接使用 MiniMax M2.7，它會自動調用海螺等影片、音頻和圖片生成模型，為我們生成多媒體文件，而不需要額外配置專門的 API KEY。

點擊 MaxClaw 對話框下面的技能，我們就能看到所有安裝在 MaxClaw 的 Skills 詳情，並且點擊「問問 MaxClaw」，它會自動編輯一條消息「告訴我 frontend-dev 能做什麼，並告訴我如何使用它」，引導我們學習如何使用這項 Skill。

除了 GIF 生成這個 Skill，MiniMax 還提供了包括前端開發、全棧後端、安卓和 iOS 應用開發以及創作驚艷視覺效果的 GLSL 著色技術等技能庫，我們可以直接在龍蝦里發送「你能幫我安裝這個項目里的 Skill 嗎 https://github.com/MiniMax-AI/skills」，龍蝦會自動獲取 Skill 文檔完成安裝。

贊助商廣告

AI 狠起來，連自己都卷

除了在日常工作和辦公領域上表現出的完整工作流，以及實際的交付能力，MiniMax M2.7 最讓我們感到特別的，還有它展現出的「模型自疊代閉環」。

MiniMax 曾提到人類研究員只需要把控大方向，把構建系統的任務交給模型，它就能以解決方案架構師的身份自主搭建開發 Agent harness。

Agent harness 可以理解成套在 AI agent 外面的一層運行基礎設施。模型負責思考，harness 負責把這個「會想」的東西，變成一個能穩定幹活的系統。這個系統像是運行層，負責讓 agent 在真實環境裡穩定運行。

為了測試 M2.7 的極限，MiniMax 讓它去優化某個內部腳手架的軟體工程表現。結果，M2.7 全程零人工干預，硬生生跑出了一個超過 100 輪的疊代循環。

它自己分析失敗軌跡，自己規劃改動，改完腳手架代碼再去跑評測，最後對比結果決定是保留還是回退。在不停歇自我互搏中，它自己發現了最優解，最終讓評測集上的效果飆升了 30%。

這種「AI 搞科研」的能力也在公開的測試集上得到了驗證，MiniMax M2.7 被扔進了全球最大的機器學習競賽 Kaggle 的 MLE Lite 測試集。

22 道高難度競賽題，M2.7 依靠內部的短時記憶文件和自反饋機制，每跑完一輪就給自己提優化建議。

24 小時內，它一舉拿下了 9 枚金牌、5 枚銀牌、1 枚銅牌，得牌率 66.6%。

這個成績，僅次於 Opus-4.6（75.7%）和 GPT-5.4（71.2%），與 Gemini-3.1 直接打平。

當一個模型能夠以解決方案架構師的身份，僅用 1 人 4 天時間，零人工編碼就搭出一套包含測試和代碼審查的 Agent 系統時，AI 研發的齒輪，大概已經換上了自動擋。

在極其硬核的生產力之外，MiniMax M2.7 的底層框架也賦予了它長程穩定的記憶和極強的情商，這讓它在互動角色扮演（Roleplay）上，比傳統的閒聊機器人表現要好上不少。

官方在 GitHub 上開源了一個多模態交互系統 OpenRoom，一個萬物皆可互動的 Web GUI 空間，可以實時地讓 AI 與空間產生不同的交互。

贊助商廣告

AI 開始學會「自己工作」，這件事比寫好代碼更重要

體驗下來，MiniMax M2.7 真正讓我們在意的，不是它把 Kaggle 競賽刷出了 66.6% 的得牌率，也不是 Office 三件套交付得足夠乾淨。

而是它在試圖解決一件更底層的事：讓 AI 真正理解工作流，並且參與到工作流的演化里。

過去，軟體是人寫的、人用的。現在，AI 開始寫軟體、改軟體、用軟體。當一個模型能夠在沒有人工編碼的情況下，自己搭系統、自己測試、自己回退——「AI 研發」這件事的齒輪，某種程度上已經換上了自動擋。

所謂「龍蝦到底該怎麼用」，我想很快就不再是一個問題——因為決定這一切的，不再是我們。

而是那個，開始學會自己工作的 AI。