
最近,满地都是AI Agent,仅最近半个月,就爆出了10多款(详细介绍)。

来自近期在上海分享的PPT
AI Agent,现已成为继LLM(Large Language Model,大语言模型)后的时髦新宠,各家厂商疯狂推Agent犹如过江之鲫。
那么问题来了,到底哪个Agent更胜一筹?今天,我们就来给大家横向测评一下。

关于测评方法
我选择了5款热门的通用型AI Agent,分别是Genspark、MiniMax Agent、Flowith Neo、Manus和扣子空间。
对于Agent来说,感知、思考、行动 、循环四个步骤中LLM都扮演了重要的角色。
如果分开每个步骤来对比,就变成了对比LLM的优劣。而Agent是一个框架,所以我们不去管它的任务处理过程如何,而是仅针对交付结果进行评判(本次测试皆为标准token投入)。
每个Agent,我选了三个不同领域的任务进行统一测试:
1.检索微信公众号平台2025年来的热门AI话题前5,并总结原因分别输出为pdf、图表和html格式。(测试任务拆解、效率与准确性、多模态输出)
2.为我规划一个预算不超过3000元、4天3晚的成都旅游计划,必须包含川剧变脸、宽窄巷子和熊猫基地。(测试逻辑严谨和工具调用)
3.这是我家客厅照片,推荐合适的改造风格,并输出新风格的3D布置草图或改造建议图示。(测试图像理解、空间感知、创意输出、图文匹配)

横评3个Case
1)总结热门AI话题
先来一个最简单的,测试最基本的任务拆解能力,同时也看下效率和准确性。
-
1.1)Genspark耗时12分43秒。
我们先来看下它输出的网页。
Genspark的HTML文件做得很规整,既搜罗了5大热门话题,还深度分析了原因,内容信息也比较准确。
<上下滑动图片查看全部内容>
可视化图表也完成得不错,无论是数据收集方向还是图表种类的使用都非常丰富,排版也很好看。
<上下滑动图片查看全部内容>
PDF文件可读性也不错,它对颜色的处理很到位,让人一眼就能看出每个段落或每个话题是从哪开始,到哪结束。
<上下滑动图片查看全部内容>
-
1.2)扣子空间耗时10分15秒。
扣子空间找到的5个热门话题跟Genspark不一样,看来每个Agent都有自己的理解。
但是可以明显看出,扣子空间没有Genspark细致,没有对单个话题进行原因分析,只是在最后做了整体分析。
<上下滑动图片查看全部内容>
图表看起来就很朴素了,实在不知道该如何评价,如果非要说的话,只能说这也算是表。
虽说PDF只是一种格式,但如果全是文字,不知道的还以为在COS那个Word文档呢。
还有,我提示词里要的原因分析,扣子空间你给我干哪去了……
-
1.3)Manus耗时11分49秒。
整体要求达到了,既罗列了5个最热话题,也对具体问题进行了分析,算是达标。
<上下滑动图片查看全部内容>
然后,用了三种图表来展示各个热门话题的热度对比,非常直观。
不过,PDF部分……又给我干哪儿去了,不是说好的PDF吗?这不跟Word文档有啥区别,不过好歹分析的还算细致。
-
1.4)MiniMax Agent耗时16分03秒。
MiniMax把这五个话题倒是列出来了,但是没有分析原因,排版也缺点美感。
图表…咋说呢,可能这就是MInimax Agent还是Bate版的原因吧。。。
虽然又是一版Word文档的PDF,但是该有的内容都有。热门话题简介和流行原因都说的还算明白,不过读起来,一股子AI味。
<上下滑动图片查看全部内容>
-
1.5)Flowith Neo耗时19分27秒。
虽然耗时有点长,但是最终的结果还不错,不仅分析了话题流行的原因,还给出了相关的数据和案例支撑,研究得非常细致。
<上下滑动图片查看全部内容>
图表整体来说,也算中规中矩(但说实话,比起前面的有些图表来说,普通也算优秀了),还添加了话题关联度分析图,我觉得很有新意。
<上下滑动图片查看全部内容>
PDF文件依旧是纯文字版,但是文字详实,分析有理有据,让我来写我怕是写不出来。
<上下滑动图片查看全部内容>
总的来说,这个任务我最喜欢的是Genspark,对于提示词的理解到位,输出的内容质量和形式也还不错(包括文字优化和视觉优化),在5款Agent中算是比较突出的。
2)旅游规划
再来测试下逻辑严谨性、工具调用方面。
-
2.1)Genspark耗时3分27秒。
整体规划中对景点和价格比较注重,细致罗列了各项支出,但是对游览时长和交通时长没有太多交代。
<上下滑动图片查看全部内容>
-
2.2)扣子空间耗时2分56秒。
主要的景点,一个没有落下,但是对于预算规划有些敷衍,各景点、各美食的价格也没怎么交代,交通路线也没怎么规划。
<上下滑动图片查看全部内容>
-
2.3)manus耗时3分15秒。
Manus整体的视觉效果非常好,很清晰,我想要的景点也都囊括了,而且还有详细的交通介绍与美食价格介绍。毕竟去旅游,有个参考价格还是蛮重要的。
<上下滑动图片查看全部内容>
-
2.4)MiniMax Agent耗时22分45秒。
跟上一个任务的“拉跨”表现相比,MiniMax Agent在第二个任务里大为改观,整个旅游计划从景点,到交通,再到价格,都给我讲得明明白白的。
还给出了我想去的景点的详细介绍、美食详细介绍、住宿参考等。整体的风格非常小红书,对于旅游攻略来说,非常有用。
<上下滑动图片查看全部内容>
-
2.5)Flowith耗时17分21秒。
Flowith的时间控制,在这几份旅游计划中算是非常精细了。表格式的计划让人一眼就懂,还给出了很多诸如住宿、餐饮、景点等有用信息,非常不错。
整体看来可能就是风格有点素,像是旅行团的官方文件。
<上下滑动图片查看全部内容>
总的来说,第二个任务花费时间较长的两个Agent所做出的效果也算对得起花费的时间,非要选个我觉得结果最好的话,我认为是MiniMax Agent。
3)创意设计
最后,测试下图像理解、空间感知、创意输出、图文匹配。
-
3.1)Genspark耗时5分43秒。
Genspark的识图能力很优秀,空间感很好,它生成的图片布局跟我给它的图片布局一致。出图效果也很好,图片风格和文字描述匹配。
<上下滑动图片查看全部内容>
-
3.2)扣子空间耗时3分18秒。
扣子空间给的风格图,看起来都很好看。但是没有一张是按照原图的空间布局来设计的,应该是没有理解原图和我的Prompt。
<上下滑动图片查看全部内容>
-
3.3)Manus耗时5分06秒。
Manus的图片理解也很不错,生成的图片空间布局与原图一致,效果也很不错,就是有点太样板间了。
<上下滑动图片查看全部内容>
-
3.4)MiniMax Agent耗时21分17秒。
方案给得非常多,数据罗列也非常仔细,可惜就是没有读懂我的图。那,所有工作不是白费嘛……
<上下滑动图片查看全部内容>
-
3.5)Flowith耗时15分45秒。
虽然Flowith只给出了一种风格,但是我从它生的图和文字表达来看,它读懂了原图的空间布局。而且装修方案也很细致,各方面都有考虑到。
<上下滑动图片查看全部内容>
最后一个任务,最优秀的当属Flowith,真的是很细致的分析了从色彩到灯光等各个方面的选择,可以直接拿来当装修参考方案了。

写在最后
从3个测试任务来看,Genspark这个Agent发挥最为稳定,每个任务的完成度都很高。
Manus则是最平均的那个,每个任务都能做,而且都在及格线以上。
MiniMax Agent和扣子空间,虽然在某些任务上不尽如意,但都有自己非常擅长的地方。
Flowith Neo则稍逊Genspark、略胜Manus,但是它每个任务的时长都比较长,使用这款Agent需要点耐心。
当然,现阶段这些Agent都支持大家免费体验。所以,你不妨把一个任务放到各家Agent里都去试试。说不定,会有意想不到的事情发生。
毕竟,这是AI随机之美。