大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


大伙都在养虾,MiniMax 带着新模型来偷偷上分了? 最近 AI 圈这么热闹,全是在养龙虾的,给大伙都看乏味了,我们最爱的新模型发布环节去哪里了?


别急。在大伙忙着把虾养肥的时候,有一家国产模型公司,其实一直在偷偷上分。


MiniMax 最近更新了他们最新的 M2.7 版本,官方给出的说明非常干脆,指令遵循、办公协同和 Coding都有很大提升。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


它甚至能自行建构复杂的Agent Harness,也就是搭出一套完整的任务框架,调度多个 Agent 协作、组合各种技能和工具,把那些光靠单个模型根本搞不定的复杂任务给跑通,有点“最强赛博员工”那味了


大伙都在养虾,MiniMax 带着新模型来偷偷上分了? 而且 M2.7 它最有意思的地方在于,它能通过构建Agent Harness 来“自我进化”在测试中,测试员给它甩在了 MLE Lite 22 道高难度竞赛中,M2.7 最后取得了 9 金 5 银 1 铜,得牌率 66.6%,仅次于 Opus-4.6(75.7%)、GPT-5.4(71.2%),与 Gemini-3.1 持平。


这成绩不是第一次就跑出来的,而是通过一个简易的脚手架,来引导 Agent 进行自主优化,核心的模块包括短时记忆、自反馈以及自优化三个模块,然后它自己一轮轮迭代优化出来的分数。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


世超也有幸搞到了一波内测名额,接入了我们的“龙虾”和 Claude Code 里。实测跑了一段时间,怎么说呢,不管是养虾还是干活,这代模型给我的印象是,确实抗打。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


大伙应该都知道了,OpenClaw 本体只是一个外壳,它的智商完全取决于你给它接什么模型当大脑。模型不行,虾就是个傻子。而这次 M2.7 也是针对 Agent 场景做了专项加强。咱就先拿龙虾来试试它的水平。


大伙都在养虾,MiniMax 带着新模型来偷偷上分了? 我上来就给它安排了个任务:帮我生成一个自然博物馆的网站——包含首页、购票页面、展馆地图、捐款通道,得是一个完整的多页面站点。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


它有个让我很舒服的特点,就是我在龙虾里派任务的时候,它不会像一些模型一样硬控你的屏幕,让你在那干等着。


它的偏好是,自己在后台开一个子会话去执行任务,你屏幕上的主会话该干嘛干嘛,完全不耽误。


大伙都在养虾,MiniMax 带着新模型来偷偷上分了? 而且还会自己指挥Claude Code去干,还有领导力这一块的。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


等它做完了,会把结果推送回主会话通知你,确实有点意思,有种幕后助理的感觉,你吩咐一句,它默默去办了,办完了才给汇报。


过了大概两分钟,桌面上多了一个文件夹,点开一看,是一个结构完整的网站,导航栏能跳转各个子页面,配色和排版都挺像回事的,啥按钮都能按,满分好吧。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


大伙都在养虾,MiniMax 带着新模型来偷偷上分了? 光做前端牛,那你给我找点资料呗?于是我又给了一个更有挑战的任务:盘点一下从初代 iPhone 到 iPhone 17 的历代外观,每款附上渲染图。


它很快就把框架搭好了,每款机型都有文字描述和关键设计变化,时间线也对。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


但美中不足的是,图片加载失败了。。它尝试从网上直接获取图片,没能下载成功。让它解释一下,它说被阻断了。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


最后还是我给它接了 MaxClaw 搓的图片合集,它才把渲染图下载下来插入进去了(MaxClaw是Minimax的云Claw,也蛮有意思)。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


大伙都在养虾,MiniMax 带着新模型来偷偷上分了? 图片获取这块确实是目前一个卡手的地方,理论上操作浏览器应该能做到,但实际体验还不太稳定。不过操作龙虾干正事这块,M2.7 的表现还是扎实的。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


一般模型装多了 Skills 就容易搞混,该用 A 技能的时候调了 B,或者干脆无视 Skill 规范自由发挥,M2.7 在指令遵循上确实下功夫了。


按照官方的说法,M2.7 在有 40 个复杂 Skills 同时加载的情况下,仍能保持 97% 的使用准确率。


我电脑上32个skills,龙虾跑的时候也确实没怎么乱过。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


大伙都在养虾,MiniMax 带着新模型来偷偷上分了? 嚯嚯嚯,对了,之前网传的MiniMax不认识马嘉祺的bug,M2.7也修好了。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


接下来,咱来测下M2.7的办公能力,听说它Excel玩得很溜。


我让 M2.7 做一个基金月度投资组合分析表——10 只 A 股,要有市值计算、盈亏公式、条件格式(赚了标绿亏了标红)、底部汇总行,再加一个饼图展示仓位分布,标准的基金经理桌面工具。


它很快生成了第一版,结构没问题,公式、条件格式、饼图都有。但我扫了一眼数据,全是编的。。居然炒的是预制股?

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


所以我直接跟它说"要实时数据"。然后它便开始了深刻的思考。


大伙都在养虾,MiniMax 带着新模型来偷偷上分了? 它先尝试用一个 Python 库去拉 A 股实时行情,结果直接挂了。。


但 M2.7 也没开摆,它自己开始排查:先 curl 百度确认基础网络是通的,再检查环境变量发现没配代理,然后直接 curl 东方财富的 HTTP 接口,通了。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


最终 10 只股票全部获取成功,全是当天的真实盘中价格。我专门去东方财富核对了一遍,是对的。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


这让我觉得有点靠谱,人也不能百分百找到正确方案,但碰到问题会自己换方案,而M2.7真能做到这一点。


拿到实时数据之后,我开始给它追加编辑指令。比如美化一下颜色、加一个行业筛选的下拉框,显示目前该行业总市值,盈亏率等等,公式联动都是对的。而且之前做好的内容也没有被搞乱,表现蛮稳定的。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


然后我把 Excel 的数据和结论丢给它,让它直接搓一个 PPT,要求就是给我汇报,我一目了然。最后整体效果,是那种拿去开会不会丢人的水平,还带内部超链接。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


最后来看看代码吧。我之前写了一个 Python 的个人记账小工具,有一些世超摸不着头脑的问题,我把代码和最近的报错日志一起丢给了它。


大伙都在养虾,MiniMax 带着新模型来偷偷上分了? 哥们直接给我送来一个表格,表上是些我看不懂的原因。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


但的确是四个 bug,Claude Opus 4.6也如是说。一个没漏,分析逻辑非常清晰。


而且,它的修复方案也不是头痛医头的那种,做了系统性重构,最后还给出了架构层面的判断:JSON 单文件已经到瓶颈了,建议迁移 SQLite,并且没有硬吹自己的修复能解决所有问题。


翻译成人话,就是我拿了一份自己的作业去找人批改,上面有4个叉,对面不但把4个错全找出来了,还发现了几个你之后可能犯的隐藏错误,顺手帮你优化了。

大伙都在养虾,MiniMax 带着新模型来偷偷上分了?


整体感觉大概相当于一个有经验的开发来帮你 review 代码,确实比我强。对于不是程序员的普通用户来说,拿它来检查和修复自己的小脚本、自动化工具,vibe coding是真够用了。


OK,最后来点实在的总结吧。M2.7 的 Agent 能力、办公能力、代码能力都拿得出手,可以说是养虾的优质模型,也是干活的靠谱工具。


要说不足的话,网络资源获取还能再提升下,不管是龙虾场景里下载图片,还是其他需要从网上抓取股价这块,经常加载失败,得我压力它才搞得定。。不过这也算目前模型的通病了,就看大伙怎么优化了。


总之 2026 年,AI 能干活也不是啥新闻了,但真正拉开差距的,还它能不能像个负责的同事一样,自己拆问题、自己想方案、搞砸了也会自己调整。

所以,M2.7 还真跨过了这个门槛,让人看到了一种最强的 Cowork Agent 形态。从当年 ChatGPT 的“你问我答”,到如今模型能够带队协作、自己排查 Bug、主导端到端交付。。再这么进化下去,普通人未来能用 AI 做的事情,将会越来越多,也越来越复杂。


大伙都在养虾,MiniMax 带着新模型来偷偷上分了? 可能以后就没人再说,年轻人不会用电脑了,维新派要指挥电脑自己干活了!

前沿技术多模态技术新闻资讯

微软又上大分!刚刚开源一款 0.5B 轻量级实时 TTS 模型,还能边想边说!

2026-4-12 8:08:06

RAG技术前沿技术新闻资讯

Qwen3-VL 正式开源:多模态 RAG 的关键一环终于补齐

2026-4-12 9:05:12

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索