无限上下文、无限推理、无限输出,这个AI凭什么敢说”无限”?| Flowith 详细体验实测

 

Flowith 发布了它们最新的 Agent,Neo,这是世界上第一个能够做到无限上下文,无限推理步骤的 Agent,并且它还拥有着无限输出的能力。

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

一个有意思的点是,上一代它们的 Agent 其实是叫 Oracle, 而这一次,他们没有延续之前的名字,而是改了个名字叫 Neo。它们说,这个灵感来自于他们喜爱的一部电影,黑客帝国,但是不包括最新的一季。

那作为 flowith 的老用户,甚至都不需要邀请码,就直接升级 Neo 了。

我也详细测试了一番,看看 Neo 到底效果怎么样,下面分享几个 case 给大家看看效果。

测试

案例 1:调研报告生成

第一个 case, 先来个简单的,做一个调研报告生成。我让 Neo 自己调研自己。

任务指令可以说是非常的粗糙,主打一个随意。

帮我完成一份关于 flowith 这个产品的深度调研报告,要囊括其最新的产品特点,信息等。
最后制作成一个精美的网页用于展示!

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

我非常喜欢 Flowith 整体的页面交互设计。从页面左侧可以看到,Neo 把我非常烂的指令拆解成了整整 13 个步骤,每一步该做什么都被规划的清清楚楚;在页面右侧,用户可以看到 Neo 在每一个环节的输出结果,让每一个环节都更加可控。

在这份 case 中,我分享几个我认为比较有趣且值得重点关注的点:

  • • Neo 的搜索并不是只做单次搜索就进入下一步,而是同时调用多个搜索工具,进行并发式的搜索,来减小内容上的误差。
    无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测
  • • 除了文本的搜索之外,它还会搜索图片素材。Neo是少有的同时注意图像搜索和文本搜索的 Agent
    无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测
  • • 对于文档报告的撰写,Neo 的实现方式是拆分式的或者说式模块化的,不是一次性傻傻的写完所有的东西,而是一次写一个模块的内容。
    无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测
  • • 在写完报告之后,Neo 还有两个步骤是比较关键的,就是“反思 + 提升”
无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

以上基本上可以看作一个 Agent 的规范工作流程。不过,因为我的提示词实在是太粗糙了,强如 Neo 这样的超级Agent,生成出来的网页都是奇丑无比。

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

好在,Neo 是支持“Human in the loop”这个定义,当发现结果不够满意的时候,还可以继续提出需求让 Neo 进行修改。所以我又让它稍加修改润色了一下,马上就有了些不同。

现在界面长下面这样:

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

完整的网页链接放在这里了,可以点击查看: https://flo.host/TdfNZAb/#future-outlook

现在的这个美观程度明显比之前有了很大的提升。非常不错!

案例 2:短剧剧本创作

AI + 短剧一直是一个非常热门的赛道。基本上一个 AI 短剧视频前期的工作流可以分为剧本人物大纲撰写、剧情编写、分镜脚本编写,分镜图像生成等。 而这其中,如何确保角色的一致性,一直是一个比较难的问题。

我也用 Neo 测试了一下 AI+短剧的可能性。 使用的提示词如下,同样非常粗糙:

帮我写一个短剧剧本,剧本要求涉及当下热度最高的短剧题材,然后根据题材内容,生成短剧中的人物角色图像,和分镜图。

这里,Neo 有一个细节,其实也是我在案例 1 里提到的“Human in the loop”,它在搜索完一些当前最热门的题材之后,会征求我的意见,问我最感兴趣的题材,让我给出明确的定义。

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

确定好题材之后,它开始制定剧本大纲,包括角色设定,故事梗概,故事核心冲突与发展,主要情节节点。

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

之后,Neo 开始剧本详细的创作。

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

这个剧本创作的非常详细,一共十集,包括了人物对话,动作指导,场景的切换。这里因为长度关系,我就放出了部分。

完成这部分后,Neo 接着会挑选关键的场景,并且对它们进行分镜描述。

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

完成了这部分后,Neo 接下来会执行分镜图像的生成。

但是这里遇到了问题,每个图像的风格和人物都出现了不一致性。

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

不过,这里除了人为的去干预,保证一致性以外,光靠 Agent 自己去做到一致性,估计目前还是比较有难度的。

最后,在关键的图像生成好后,Neo 会做成一个网页进行汇总展示。

但是在这个环节里发现一个问题,就是 Neo 发现最后生成的网页,还有一些潜在的修复点,可以提升,出具了一份分析报告,然后根据这份分析报告进行二次修改的时候,反而把原先对的人物名称,图像都给改错了。

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测
无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

这类错误其实也算比较普遍,如果经常 Vibe Coding 的小伙伴,肯定再熟悉不过。这类 Agent – 全自动模式下,非常容易出现把原先对的改成错的。

总的来说,Neo 在这个任务里我觉得做的能有 70-80 分之间吧。大部分的子任务里,我觉得它表现的都是 ok 的。毕竟 Agent 的底层逻辑是对强有力模型的依赖。

案例 3: 游戏制作

我对 Neo 做成个愤怒的小鸟其实没啥预期,但是我还是测试了一下。提前透露:这是个badcase。

我使用的提示词如下:

帮我制作一个像素风格的游戏,叫愤怒的小鸟。完整的记分系统,玩家排行榜等这些一个游戏的必备要素。

在这个 case 里,Neo 做的比较好的地方是对需求的拆解,非常详细。

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

这个 case 失败的主要原因是从 Neo 发现测试工具无法访问到生成的游戏,导致无法继续测试游戏的效果。然后,它询问了我的建议。

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

我让它继续执行后面的工作,所以,它就直接写了个交付文档给我,表示任务已经结束了。

虽然这个 case 最后没有成功,但是比较有意思的是我发现 Neo 还掌握了不少工具,比如给我发送邮件,是真的有收到!第一次收到来自 AI 的邮件,还是感觉蛮特别的。

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

p.s. 这个 case 我应该还会再多测测,感觉应该是能够成功的,可能跟我的 prompt 也有关系。

案例 4:落地页设计

Neo 是一个全能选手,还可以让它来进行品牌落地页的设计, 比如: 我想给 Prada 设计一个落地页。 

Neo 的生成效果如下所示:

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测
无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

因为图片大小的限制原因,只能分别截图来展示。

完整的网页地址在:https://flo.host/MRa2JGh/

其实到这所有都看上去非常完美了。

但在这个 case 里,我还发现一个问题,就是反思阶段,Neo 发现自己生成的效果还有提升空间,然后会选择进一步提升,但是这个进一步提升往往会带来倒退的效果。 比如下面这样:

无限上下文、无限推理、无限输出,这个AI凭什么敢说"无限"?| Flowith 详细体验实测

可以看到,新提升之后的落地页下方原有的精美的引导示意图都没了,导致整个落地页一下子变得非常空洞。

其实,之前看过 Google 的一篇论文叫Large Language Models Cannot Self-Correct Reasoning Yet,讲的就是关于模型自我反思,进一步提升这一点。大概意思是说,不要轻易的让模型去自我纠正。大部分的模型自我纠正后,效果反而会降低。

感觉放到如今 Agent的环境中,这个论点也是值得相信的。毕竟 Agent 的底座就是模型,一个好的 Agent 离不开一个强有力的模型支撑。轻易的去让模型做自我反思,审查,容易把原本是对的内容改坏掉。

RAG技术前沿技术新闻资讯

Coze搭建RAG应用,解锁数据分析知识库

2025-5-20 15:24:00

RAG技术前沿技术新闻资讯

GraphRAG 工作步骤详解:从图的创建到搜索的实战示例

2025-5-20 16:34:09

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索