淘宝营销会场智能测试平台的AI落地实践

本文介绍了淘宝营销会场智能测试平台的AI落地实践：基于LLM与多模态Agent，实现“所见即所得”渲染校验、价格/内容/交互一致性比对、定投与多端适配自动检测；覆盖需求提测、测试执行、线上回归全流程。达成问题发现率↑、线上风险↓、测试人效提升100%、整体提效40%，推动测试从“人工驱动”迈向“AI智能判定+闭环自治”。后续聚焦需求意图识别、AI造数、智能用例选择等深度智能化方向。

背景与现状

▐ 业务演进：测试内容模板化

目前会场需求测试中，被测对象（页面、组件、数据服务）、技术方案，在支持营销多业务产技需求场景下趋近稳定。测试流程、测试范围、测试手段相对标准化。在过往的测试过程中，关键节点通过自动化工具切入进行提效，但交互、视觉体验等验证领域介入成本较高。

大促、日常营销导购会场需求测试内容中，围绕着以会场主链路测试、埋点验证测试为主，以会场性能、压测、适配、兜底容灾测试验证保障会场极致用户体验，交付需求测试产物。

业务需求-》测试执行

会场测试在“所见所得渲染验证、价格一致性、Tab/Feed 交互、骨架/快照/终态对比、渠道投放一致性、内容异常发现”等多个维度，传统依赖人工肉眼和脚本、难以覆盖且易遗漏。引入 LLM 大模型和测试 Agent ，旨在通过截图比对、多模态识别、自动链路拼接和可视化异常发现，实现C端可视化校验、核心交互路径验证、场景体验统一和内容缺失自动识别，达到提升测试质量与效率效果。

▐ 会场测试：传统测试工具下保障会场极致体验

会场主链路测试

会场主链路功能测试	页面与楼层交互功能	会场（上、下游）一致性验证	会场状态切换、定投渲染验证
·会场页面结构完整性测试 ·页面渲染方式：csr、ssr、快照、骨架 ·验证点：页面结构符合预期、内容渲染正常	1.上下、左右手势滑动 ·页面头下滑搜索头展开 ·会场feeds下滑吸顶 ·会场下滑软刷新 ·会场左右滑动 2.页面与楼层交互功能	具体一致性检查点包含但不限于以下内容 1.业务实体（品、店、内容、直播间等）承接正确， 2.业务实体数据表达（价格，名称，利益点，素材，氛围等）符合预期	1. 随大促里程碑、业务需求变更，页面结构、内容、氛围随排期切换 2. 页面、楼层设置定投实验 3. 手淘终端渠道渲染 4. 其他终端渠道渲染（其他淘内app与非淘内app） ·打开渲染、内嵌半屏渲染

用户极致体验验证

服务端压测	兜底容灾验证	适配验证	会场性能测试
业务流量模型梳理-》OPM模型流量录入-》压测报告与数据沉淀	多层的容灾兜底场景下服务异常且不影响C端用户的正常浏览访问	通过覆盖同一张H5会场在不同型号、系统版本、尺寸、分辨率及DPR（设备像素比）下内容、样式正确性表达，来确保视觉一致性与操作可用性。	通过简单的图片纹理canny算子计算边缘纹理，计算会场渲染过程中终帧与首帧加载时间耗时，计算会场渲染首帧响应时长

▐ Agent在测试中应用机会

期望在会场测试经验全面、基建完善的当前基础上，应用AI大模型能力，在需求提测、需求测试、线上回归阶段，提供会场业务智能测试解决方案，提高会场需求测试整体效率。

实现方案

在既有测UI自动化能力基础上，接入AI多模态偏差检测与智能纠错判定能力，覆盖相对大促会场巡检、会场需求AI测试测试流程节点，构建基于AI大模型的会场智能测试平台。

🔍 过去是“任务驱动”——人定义规则、工具执行VS💡 现在是“AI驱动”——模型理解意图、自主判断结果。

测试工具执行-进化->Agent测试

▐ 测试Agent：被测对象信息解析->测试工具执行->结果解析判断

示例1：（轻）流程+工具执行；（轻）测试判断

测试数据获取-》LLM信息解读-》测试工具执行-》LLM结果判断

示例2：（重）流程+工具执行；（轻）测试判断

测试数据获取-》LLM信息解读-》测试工具执行-》LLM结果判断

示例3：（轻）流程+工具执行；（重）多模态判断

测试数据获取-》LLM信息解读-》测试工具执行-》LLM结果判断

▐ 测试基建Agent管理与执行：工厂模式，模型供应方调用兼容与封装

会场测试后台：需求-测试过程-测试报告记录

测试Agent触发执行流程图

构建 AI Agent的 multiAgent 框架，借鉴了ald-lamp沉淀solution执行框架，将其扩展为支持多种Agent管理调用与Agent实时、异步调用的执行引擎。这不仅避免了重复造轮子，更确保了复杂场景下，AI测试Agent的执行具备稳定的技术追踪、稳定运维能力。

预解决的核心问题

1. 模型管理问题

多模型统一管理：通过工厂模式统一管理不同的LLM模型实例
动态模型注册：基于注解自动发现和注册模型服务
模型生命周期管理：统一的模型初始化、调用和销毁流程

2. 调用方式问题

同步调用支持：提供实时响应的同步调用接口
异步流式调用：支持流式输出的异步调用模式
消息驱动处理：基于MetaQ实现异步消息处理

3. 扩展性问题

插件化架构：新模型只需继承基类并添加注解即可接入
统一接口标准：所有模型遵循相同的调用协议和数据格式

Agent统一管理技术流程

Agent 测试模型请求入口


模型注册	模型同步调用	模型异步调用

1. IdealLabLLMAbstractBase (抽象基类)

职责：

定义统一的模型调用接口
提供通用的API调用方法
规范子类必须实现的抽象方法

2. AgentFactory (工厂类)

职责：

管理所有LLM模型实例
基于Spring Bean后处理器自动注册模型
提供模型实例获取接口

核心功能：

包路径过滤：只扫描指定包下的模型
注解驱动：基于@AgentParser注解自动注册
实例管理：维护appCode到模型实例的映射

3. IdeaLabLLMConsumer (消息消费者)

职责：

监听IdealLab平台的异步消息
分发消息到对应的模型处理器
处理模型执行开始/完成事件

消息类型：

idealab_ideas_finish_tag: 模型执行完成
answer: 模型回答消息
start: 模型开始执行

4. AgentParser (注解)

职责：

标记LLM模型实现类
提供模型元数据信息
支持工厂自动发现和注册

Agent动态扩展机制

新模型接入步骤：

继承 IdealLabLLMAbstractBase
添加 @AgentParser 注解配置
实现抽象方法
放置在指定包路径下 ( com.alibaba.bqc.llm 或 com.app.auto.llm )

示例：

@AgentParser(appCode = "text-generator",             name = "文本生成模型",            description = "用于生成创意文本内容")@Componentpublic class TextGeneratorLLM extends IdealLabLLMAbstractBase {    @Override    public void finishHandler(IdeaLabMessage message) {        // 处理完成回调        log.info("Model execution finished: {}", message.getSessionId());    }    @Override    public void startHandler(IdeaLabMessage message) {        // 处理开始回调        log.info("Model execution started: {}", message.getSessionId());    }    @Override    public void callback(Object[] args) throws Exception {        // 异步回写逻辑    }    @Override    public IdealabRunIdeasRequest buildRequest(Object[] args) {        // 构建请求参数        IdealabRunIdeasRequest request = new IdealabRunIdeasRequest();        request.setAppCode(getAppCode());        request.setQuestion((String) args[0]);        return request;    }    @Override    public CompletionRequest buildCompletionRequest(Object[] args) {        // 构建OpenAI兼容请求        return new CompletionRequest();    }}

Agent执行容错机制

异常隔离：单个模型异常不影响其他模型
消息重试：MetaQ消息处理失败自动重试
降级处理：API调用失败时返回错误信息
日志监控：完整的调用链路日志记录

结果

▐ LLM大模型、测试Agent应用后质量提升点

▐ 业务上成果与收货

会场智能测试平台实现从“人工测试”到“AI驱动智能测试判定”：构建覆盖全链路、贯穿全流程的智能化质量守护体系；在大促会场巡检中提高100%人效。

质量上：问题发现率↑82%，线上风险↓。

边界上：从“工具为主人工为辅”走向“AI驱动智能测试判定”。

效率上：会场测试整体提效40%，人力成本降低。（会场需求测试线上支持辅助回归验证）。

总结与规划

当前不足

1. 自动化深度不足

问题暴露后仍依赖人工确认与复现

2. 兜底验证能力有待补充

页面渲染异常（如闪烁）识别准确率需提升
Tab切换等动态交互体验检测能力不完善

3. 功能覆盖不够全面

巡检范围需进一步扩展（如复杂交互、个性化推荐）
快照能力、诊断时效性、多端一致性校验待增强

4. 定投策略验证能力不足

缺少对「用户分群定向展示」的自动化校验手段
无法自动识别“应展示未展示”或“非目标人群误展”问题
需支持基于标签（如会员等级、地域、设备）的模拟请求与结果比对

5. 功能或产品能力可以更加的产品化一些，让需要的开发产品运营也能方便的使用

用户反馈闭环缺失：期望增加对用户问题通知、跟进机制

后续规划

在上述不足之处建设并改进。

LLM、多模态、Agent在会场领域测试专项中落地通过串联复杂工具，多模态判断起到一定效果，但实际需求测试环节中需求理解、数据构造、测试用例识别（测试内容选择）上更多靠人工辅助判断。预期将智能体Agent在会场领域落地朝向“需求意图Agent识别”、“测试数据AI构造”、“测试用例AI选择”方向探索。

在AIGC技术爆发、市场剧烈波动、技术栈快速迭代、模型架构多样化的行业背景下，我们在会场AI模型的业务会场测试中进行了一些探索。实践是检验真理的唯一标准，期待与各位专家学者深度交流，共同推动营销导购智能测试的演进。欢迎批评指正。

{{userData.name}}已认证

淘宝营销会场智能测试平台的AI落地实践

GLM-5V-Turbo：多模态Coding，图像即代码

全解读｜智谱 GLM-5V-Turbo 发布，多模态 Coding 基模