當 AI 開始自己學習：解析 MiniMax M2.7 的自我迭代能力

AI 模型訓練進入了一個新階段。MiniMax M2.7 宣稱是首個「深度參與自己演化」的模型——這不是比喻，而是模型確實在 RL（強化學習）訓練流程中自主優化了程式碼與任務處理方式。這意味著什麼？

傳統訓練 vs 自我演化

傳統的模型訓練是人類閉環：資料準備 → 訓練 → 評估 → 人類分析錯誤 → 調整參數或資料 → 重新訓練。每一輪迭代都需要人類專家介入瓶頸分析與策略調整。

M2.7 的模式不同：模型在 RL 流程中被賦予更多自主權，能夠自己識別訓練中的弱點、自己生成更有針對性的練習題、自己評估進步幅度。人類的角色從「全程主導」變成「最後把關」。

在 SWE-Pro（軟體工程專業能力測試）取得 56.22% 的分數，超越所有開源模型，逼近 Claude Opus 水準。這個數字的意義不在於「又一個 SOTA」，而在於它展示了一條可行路徑：讓模型自己學會 debug、自己優化演算法、自己理解複雜系統架構。

Terminal Bench 57.0% 同樣引人注目——模型不只會寫程式，還能操作命令列、執行自動化腳本，這是工程師日常工作的核心能力之一。

對於正在評估 AI 工具的企業而言，M2.7 的進展提醒我們：AI 能力的評估不能再只看「靜態測試分數」，更要關注「學習曲線」與「自我優化能力」。一個能從錯誤中快速成長的系統，長期價值遠高於一個靜態高分但缺乏適應性的系統。

當然，自我演化也帶來新的管理挑戰：如何在放權與控制之間取得平衡？如何確保模型演化方向符合人類價值？這些問題沒有標準答案，但企業需要開始思考。

M2.7 標誌著 AI 從「被動工具」向「主動夥伴」演化的開端。接下來的競賽不只是「誰的模型更強」，更是「誰能更安全、更有效地釋放模型的自我學習潛力」。

對於技術決策者而言，持續追蹤這條技術線的進展，已經不是「追逐熱點」，而是「掌握未來競爭力」的必要功課。