为何行业焦点从AI智能体转向智能体工作流

我们正身处一个技术进化的阶梯之上-从最初的大语言模型(LLMs)起步，如今已迈向能够模拟人类数字化交互的AI智能体。然而…

…然而在商业化落地领域，行业焦点已从AI智能体转向了智能体工作流/数据合成方向。

为何行业暂时将焦点从AI智能体移开？

以Salesforce和ServiceNow为代表的公司曾全力押注AI智能体，但残酷的现实是：现有技术精度远未达到商用标准。

若拨开营销炒作与精美原型演示的迷雾，便会发现现有AI智能体的准确率根本达不到生产环境要求。Anthropic最新发布的AI智能体计算接口（ACI）性能数据显示，其表现仅达到人类水平的14%。

下图来自TheAgentFactory的调研，清晰呈现了当前AI智能体在成本、执行步骤和成功率维度的真实水平-注意成功率仅徘徊在20%左右。

这些数据赤裸裸地揭示了行业现状。

随着OpenAI最新推出的智能体操作框架（Operator）上线，其在计算机操作和网页浏览任务的准确率已提升至30%-50%，但仍显著低于人类70%以上的基准水平。

更值得关注的是，最新研究表明：具备网页浏览功能的AI智能体极易遭受恶意弹窗攻击，存在显著安全漏洞。

目前AI智能体模拟人类操作主要通过两种路径实现：

这些方案本质上都将图形界面（GUI）转化为智能体的"API接口"。

早期方案曾尝试为每个功能开发独立API，但存在两大硬伤：

为何聚焦智能体工作流？

当前知识型工作的低效已成共识，多项研究数据佐证了这一现状。有报告显示，职场人平均耗费30%的工作时间在信息检索上。

更深层的挑战是知识工作者处理复杂问题时，往往需要跨文档整合信息，传统工具难以实现多源信息的动态合成。

智能体工作流（如下图所示）的价值正在于此-它能将复杂任务智能分解为子任务，并通过任务链实现自动化推理。

通过任务序列的执行，系统自然具备三大特性：可观测性、可审查性与可发现性。其中，数据合成能力正变得愈发关键-以知识工作者为例，智能体工作流能将其工作数据与资源整合为精准的单一答案。

语言模型提供商不再仅仅提供模型本身，而是进一步扩展到用户体验领域。ChatGPT中的"深度研究"功能并不是一个新模型，而是ChatGPT内部的一项新智能体能力，它能在互联网上为复杂任务进行多步研究。这项功能只需几十分钟就能完成人类需要数小时的工作。

这也是一个很好的例子，展示了如何合成不同来源的数据来回答用户问题。我认为这与LlamaIndex提出的"智能体RAG（Agentic RAG）"概念不谋而合，即在特定时间点为"单一受众"合成数据将变得非常重要。

未来几个月，业界将高度关注个人智能体工作流、信息合成，也可以称之为桌面级任务编排（desktop orchestration）。

推理与问题解决

现代AI模型正将推理能力作为核心功能进行整合，使其能够通过将复杂问题分解为可处理的组件来攻克难题。

这一转变的核心在于创新性的问题分解方法-将复杂问题拆解为若干子问题，使模型能够系统化处理每个组成部分。通过将推理能力内置为模型机制，这些系统得以模拟人类思维过程，从而显著提升其提供精准、细致回答的能力。

问题分解策略不仅提高了解决效率，更使得推理过程透明化：

• 每个结论的生成路径清晰可循

• 决策逻辑的连贯性得到保障

由此产生的直接效益是：用户获得更易解读的输出结果，这在尖端计算技术与可理解决策之间架起了关键桥梁。早期用户需手动在提示词中加入推理要求，通过明确指令模型如何分解复合型任务、采用小样本示例(few-shot)提供推理范本的等方式，如今这些机制已内化为模型的固有能力。

写在最后

企业必须转变关注点-不再执着于特定工具或趋势（比如那些曾自诩为RAG公司、提示词工程平台等概念），而应优先解决实际的商业挑战。

世界正以前所未有的速度发展，几乎每天都有新技术涌现，个个都号称要颠覆行业。

但创新的真正标准不在于掌握最新技术，而在于运用这些进步创造实际价值。

无论是提升客户体验、优化运营效率，还是满足社会需求，核心问题始终是：我们如何利用技术提供真正有意义的解决方案？

秉持这种思维模式，企业才能在持续变化的浪潮中保持竞争力，确保自己始终与时俱进。

— END —

{{userData.name}}已认证