从 “被动响应指令” 迈向 “主动规划执行”,随着 Agentic AI 技术的飞速演进,一个以 “自主决策、全流程自动化” 为特征的智能时代正加速到来。
4月17日,火山引擎发布 OS Agent 解决方案、GUI Agent 大模型 —— 豆包1.5·UI-TARS 模型,为企业和个人打造专属的通用 Agent 提供技术底座。
火山引擎 OS Agent 解决方案,可依据用户的提示词,跨场景唤起并操作各类工具与应用,通过自主决策实现复杂任务的自动化处理。以生成斐波那契数列并运行得到结果为例,用户只需用自然语言描述需求并简单配置,豆包1.5·深度思考模型即可快速生成 Python、Node.js 代码,同时由 veFaaS 代码安全沙箱完成编译与运行。
在智能比价场景中,当用户要求 “对比苹果官网和 Amazon 上全新 iPhone16的价格”,OS Agent 解决方案通过豆包1.5·深度思考模型拆解执行步骤,调用 veFaaS 托管的浏览器沙箱,自动完成 “思考规划-唤起浏览器-页面检索-比价反馈” 全流程操作,用户仅需输入一句自然语言指令。
针对 PC 与手机端跨程序、跨应用的复杂交互需求,火山引擎同步发布 GUI Agent 大模型 —— 豆包1.5·UI-TARS 模型。该模型整合屏幕视觉理解、逻辑推理、元素定位与操作能力,通过更接近人类的思考操作方式,端到端完成复杂任务,突破了传统自动化工具依赖预设规则的局限。
例如,当用户需要在远程计算机上通过剪映新建项目,基于小猫照片生成视频并导出发布时,OS Agent 解决方案会通过云服务器 ECS 调用豆包 1.5·UI-TARS 模型,凭借其精准的屏幕视觉理解能力,完成从任务感知-逻辑推理-自动化执行的全链路操作。
操作演示:操作剪映完成视频导出发布
另一案例中,OS Agent 解决方案借助豆包1.5·UI-TARS 模型,帮助用户实现了从豆包APP 生成图文内容并跨平台发布至今日头条的流程自动化。
面向移动端场景,企业可通过火山引擎 OS Agent 解决方案、豆包1.5·UI-TARS 模型及云手机产品,构建算力云端化的智能 AI Agent。例如,OS Agent 解决方案在云手机上调用 UI-TARS 模型,可通过云端算力帮用户在指定 APP 上完成订票等操作,解放用户双手,突破终端设备算力限制。
作为 OS Agent 解决方案的核心技术支撑,豆包1.5·UI-TARS 模型集成了感知、推理、定位、记忆等核心能力,在 OS World 等权威测试集中取得国内最优效果。
目前,豆包1.5·UI-TARS 模型已经登录火山方舟平台,OS Agent 解决方案也将于未来两周内陆续登陆火山引擎官网。