火山引擎OS Agent解决方案、豆包1.5·UI-TARS模型发布

从 “被动响应指令” 迈向 “主动规划执行”，随着 Agentic AI 技术的飞速演进，一个以 “自主决策、全流程自动化” 为特征的智能时代正加速到来。

4月17日，火山引擎发布 OS Agent 解决方案、GUI Agent 大模型 —— 豆包1.5·UI-TARS 模型，为企业和个人打造专属的通用 Agent 提供技术底座。

火山引擎 OS Agent 解决方案，可依据用户的提示词，跨场景唤起并操作各类工具与应用，通过自主决策实现复杂任务的自动化处理。以生成斐波那契数列并运行得到结果为例，用户只需用自然语言描述需求并简单配置，豆包1.5·深度思考模型即可快速生成 Python、Node.js 代码，同时由 veFaaS 代码安全沙箱完成编译与运行。

在智能比价场景中，当用户要求 “对比苹果官网和 Amazon 上全新 iPhone16的价格”，OS Agent 解决方案通过豆包1.5·深度思考模型拆解执行步骤，调用 veFaaS 托管的浏览器沙箱，自动完成 “思考规划-唤起浏览器-页面检索-比价反馈” 全流程操作，用户仅需输入一句自然语言指令。

针对 PC 与手机端跨程序、跨应用的复杂交互需求，火山引擎同步发布 GUI Agent 大模型 —— 豆包1.5·UI-TARS 模型。该模型整合屏幕视觉理解、逻辑推理、元素定位与操作能力，通过更接近人类的思考操作方式，端到端完成复杂任务，突破了传统自动化工具依赖预设规则的局限。

例如，当用户需要在远程计算机上通过剪映新建项目，基于小猫照片生成视频并导出发布时，OS Agent 解决方案会通过云服务器 ECS 调用豆包 1.5·UI-TARS 模型，凭借其精准的屏幕视觉理解能力，完成从任务感知-逻辑推理-自动化执行的全链路操作。

操作演示：操作剪映完成视频导出发布

另一案例中，OS Agent 解决方案借助豆包1.5·UI-TARS 模型，帮助用户实现了从豆包APP 生成图文内容并跨平台发布至今日头条的流程自动化。

面向移动端场景，企业可通过火山引擎 OS Agent 解决方案、豆包1.5·UI-TARS 模型及云手机产品，构建算力云端化的智能 AI Agent。例如，OS Agent 解决方案在云手机上调用 UI-TARS 模型，可通过云端算力帮用户在指定 APP 上完成订票等操作，解放用户双手，突破终端设备算力限制。

作为 OS Agent 解决方案的核心技术支撑，豆包1.5·UI-TARS 模型集成了感知、推理、定位、记忆等核心能力，在 OS World 等权威测试集中取得国内最优效果。

目前，豆包1.5·UI-TARS 模型已经登录火山方舟平台，OS Agent 解决方案也将于未来两周内陆续登陆火山引擎官网。

{{userData.name}}已认证

火山引擎OS Agent解决方案、豆包1.5·UI-TARS模型发布

前沿导读 | 基于大模型智能体的出行行为模拟

n8n + mcp王炸组合：5个节点轻松搭建一个AI工作流