AI 模型訓練進入了一個新階段。MiniMax M2.7 宣稱是首個「深度參與自己演化」的模型——這不是比喻,而是模型確實在 RL(強化學習)訓練流程中自主優化了程式碼與任務處理方式。這意味著什麼?
傳統訓練 vs 自我演化
傳統的模型訓練是人類閉環:資料準備 → 訓練 → 評估 → 人類分析錯誤 → 調整參數或資料 → 重新訓練。每一輪迭代都需要人類專家介入瓶頸分析與策略調整。
M2.7 的模式不同:模型在 RL 流程中被賦予更多自主權,能夠自己識別訓練中的弱點、自己生成更有針對性的練習題、自己評估進步幅度。人類的角色從「全程主導」變成「最後把關」。
SWE-Pro 56.22% 的意義
在 SWE-Pro(軟體工程專業能力測試)取得 56.22% 的分數,超越所有開源模型,逼近 Claude Opus 水準。這個數字的意義不在於「又一個 SOTA」,而在於它展示了一條可行路徑:讓模型自己學會 debug、自己優化演算法、自己理解複雜系統架構。
Terminal Bench 57.0% 同樣引人注目——模型不只會寫程式,還能操作命令列、執行自動化腳本,這是工程師日常工作的核心能力之一。
對企業的啟示
對於正在評估 AI 工具的企業而言,M2.7 的進展提醒我們:AI 能力的評估不能再只看「靜態測試分數」,更要關注「學習曲線」與「自我優化能力」。一個能從錯誤中快速成長的系統,長期價值遠高於一個靜態高分但缺乏適應性的系統。
當然,自我演化也帶來新的管理挑戰:如何在放權與控制之間取得平衡?如何確保模型演化方向符合人類價值?這些問題沒有標準答案,但企業需要開始思考。
下一步會是什麼?
M2.7 標誌著 AI 從「被動工具」向「主動夥伴」演化的開端。接下來的競賽不只是「誰的模型更強」,更是「誰能更安全、更有效地釋放模型的自我學習潛力」。
對於技術決策者而言,持續追蹤這條技術線的進展,已經不是「追逐熱點」,而是「掌握未來競爭力」的必要功課。