

2026年春节前夜,MiniMax认真上线新一代文本模子MiniMax M2.5。当各家大模子厂商围绕“春节档”伸开密集发布与营销攻势,这款定位为“原生Agent坐蓐级模子”的居品,认真加入这场被业界称为“AI诸神之战”的竞争。
尽管有着编程、器具调用、办公等坐蓐力场景大众SOTA得益,这家在成本阛阓备受瞩计算公司却思抛开参数领域与模子榜单的浅薄比拼,而是在科技圈开放另一种叙事:从头界说Agent2.0时间。
10B激活参数跑出旗舰得益
在编程能力方面,M2.5在泰斗榜单SWE-Bench Verified得分80.2%、Multi-SWE-Bench得分51.3%,较上一代显耀提高;在Multi-SWE-Bench等多言语复杂环境中高出Opus 4.6,达到了行业最佳的水平。更蹙迫的是,模子展现出“原生Spec能力”——在编码前主动拆解架构与功能计算,更接近果然架构师的责任款式。
器具调用和搜索能力方面,模子大要自动处置复杂任务,在BrowseComp、Wide Search等多项 Agent 任务中以更低的轮次破钞获得了更优的成果,相较于上一代模子领略提高20% ,达到了行业顶尖水平。

办公场景中,在 Word、PPT、Excel 金融建模等 Workspace 高阶场景中获得了显耀的能力提高,在测评框架GDPval-MM与主流模子的对比获得了 59.0%的平均胜率。
极致推理重构Agent经济
性能以外,M2.5的另一中枢亮点在于极致的推理速率与成本终止。M2.5-lightning版块支抓100 TPS以上输出速率,是主流模子的2倍傍边;输入价钱约0.3好意思元/百万Token,输出约2.4好意思元/百万Token。按每秒输出100 Token狡计,集合脱手一小时成本约1好意思元;若按50 Token狡计,成本约0.3好意思元。
这意味着1万好意思元表面上可支抓4个Agent集合责任一年。MiniMax方面合计,当性能与成本不再组成敛迹,Agent领域化部署的经济模子将发生根柢变化。
在Vibecoding(氛围编程)越来越火确当下,M2.5的极致性价比可谓径直界说了果然寰球责任王者。
始创Agent RL支抓高速进化
昔日108天,MiniMax从M2、M2.1迭代至M2.5,在SWE-Bench Verified得益从69.4提高至80.2,跳跃弧线在同行中尤为陡峻。团队将这一跃迁归因于大领域Agent强化学习(RL Scaling)。
其自研Forge框架通过解耦考试引擎与Agent,杀青对纵脱Agent脚手架和器具的泛化优化,并通过异设施度与树状归拢计谋杀青约40倍考试加快。同期,在算法层面禁受CISPO优化与经过奖励机制,缓解长险峻文场景中的信用分派问题,并将“任务果然耗时”纳入奖励函数,在成果与反应速率之间获得均衡。

M2.5已于2月12日在 MiniMax Agent上线,并于13日大众开源支抓土产货化部署。不到一天,来自全寰球的用户也曾在MiniMax Agent上构建了1万多个大家,且仍在快速增长。
MiniMax示意配资炒股网官网,但愿在抓续提高模子能力的同期,构建一个可抓续膨大的Agent生态-Agent Universe。当模子能力、泛化性和成本齐不再是瓶颈,Agent浸透到责任和生计的各个边际——从编程、办公到创作、文娱,大幅促进Agentic讹诈的进一步发展。
股票配资实盘交易系统_平台功能说明提示:本文来自互联网,不代表本网站观点。