
背景
-
【开播成本】相比起真人的直播,需要主播、助播和场控等角色,而数字人可以通过主播形象克隆的方案,只需要提前生成好直播素材即可开播,能有效降低商家的开播成本 -
【全天候开播】通过云端推流的方案,可以实现全天候24小时直播,有效的提高了主播的直播时长 -
【AI讲解文案】通过AI大模型的能力,自动生成商品讲解文案和图片素材,降低商家讲解成本 -
【实时互动】接入AI大模型,提供弹幕实时互动,主播视频回答用户提问能力 -
【展现力丰富】通过讲解商品时同步进行弹商品小卡、弹券等能力,提高用户观看体验,提升成交转化

数字人介绍
▐ 2.1 直播数字人

-
通过对主播的历史真人回放进行分析,构造主播的人设画像库,克隆真人主播的人设化数字分身 -
打造通用口语化的口播讲解文案,在语气词、停顿、表达方式等方面拟合真人的口语化讲述特点 -
基于多模态的素材文案结合,结合商品的基础信息和商品的图片、视频信息,生成更加生动的素材 -
实时的个性化的主被动互动,基于用户画像和直播间实时状态,能够主动和被动的与用户交互

-
主播如果需要使用数字人,需要先从服务市场进行下单,购买淘宝直播官方数字人服务,开通数字人使用权限 -
主播在服务市场下单后,跳转到直播中控台,提交视频和音频素材进行形象和音色的训练,等待小二审核 -
小二审核通过后,会创建形象和音色的训练任务,到训练集群,训练完成后生成形象和音色模型 -
主播在中控台上确认模型的效果,为当前数字人设置形象和音色效果 -
主播使用LLM大模型,对商品生成AI讲解话术,同时结合数字人的形象和音色,生成对应的视频素材 -
主播创建数字人直播,将生成话术的商品添加到宝贝口袋,再使用tbs端,开启数字人,进行推流,即可开始直播 -
如果主播购买的是高级版和旗舰版,则无需使用tbs端进行推流,直接使用云端推流,无需个人电脑在线
-
C端直播展现形式和正常真人直播间一致,C端用户可在手淘、点淘客户端中观看数字人直播,购买下单数字人直播间的商品 -
主播开启弹幕回复功能后,如用户在直播间进行评论提问,数字人会使用AI大模型能力对用户的提问进行弹幕回复

工程链路介绍

-
素材文件只能线下提交,无法统一管理审核标准,审核结果难以触达,素材和审核记录散落在各个表格文档中,无法统一管理 -
无自动化调度能力,将素材提交算法训练,需要人工导入素材再提交到机器,任务执行完成后再手动更新表格,任务失败还需要人工处理 -
新增主播开通数字人,需要人工进行配置多份数据,人工操作流程繁琐,人为操作容易失误、无法支持数字人进行规模化和商业化的发展
-
目前主播从购买数字人服务->提交素材训练->生成数字人直播素材->开播的整体流程来看,链路和流程都比较长,商家的理解和操作成本都比较高 -
训练素材的审核,公域质量评估审核和日常商家主播答疑目前都依赖外包人力,遇到节假期或者外包人力变化,都很容易造成任务无法被正常消化,影响主播规模的进一步扩大和整体的开播效率
-
对于主播而言,目前的开播流程和链路还比较长,在使用和理解上还存在一定的成本,他们的诉求是能够做到低成本快速一键开播,我们可以建设智能化的开播Agent,降低主播的使用门槛和提升开播效率 -
对于消费者而言,在逛直播间时,希望能有一个直播的导购助手,能够结合消费者自身的特点,能够理解消费者的诉求,带来个性化的直播讲解内容,更智能化的体验 -
对于平台而言,通过算法自动化审核素材,自动化公域质量分评估能力,能够极大减少对外包审核人力的依赖,能更快更高效的支持更多的主播入驻和开播
-
主播提交素材的量级较多时,审核人力不足时,容易会出现审核任务堆积的情况,影响主播的正常开播 -
由于没有数字人FaceId人脸库,对公模的判断和筛选只能依靠人工记录,带来了极高的成本

-
直播公域质量MOS评分的审核量级受到外包人力的限制,公域规模量级扩大后容易导致审核人力不足,审核时效慢的问题 -
人工评估结果具有较大的主观性,尽管已经将一场直播分发给到多个人审核后再取平均,仍会出现审核结果不稳定的情况,容易引发商家客诉


-
服务市场:主播对数字人商品服务的订购 -
主播中控台:主播创建数字人、生成直播商品话术库、播前准备操作 -
主播推流端tbs:主播进行数字人的开播推流操作 -
旗舰版实时互动:云端机器推流端,实时直播推流和对C端用户进行实时交互
-
小二管理端:用于小二审核训练素材、私模库管理等
-
直播间:用户观看数字人直播、购买商品和进行弹幕互动等
-
数字人服务订购能力、多版本售卖定价体系、主播的权限管控 -
数字人的创建和管理,模型资产库管理等 -
数字人素材的生成管理,AI话术文案和生成视频素材 -
数字人播前准备、开播校验、开播上报等能力 -
主播素材审核、公域直播审核的能力
-
机器资源管理,任务的灵活调度分发能力 -
在线数据服务,提供算法内容生成需要的各种数据 -
在线直播数据大盘,数字人直播快照 -
算法升级平台,模型版本管理和素材版本管理 -
生态治理,素材自动化审核,公域评分算法自动化打分
-
3.5.1 服务端工程如何和AI结合
-
负责和前端、TBS客户端、和云端的的交互,接受前台数据并保存,和客户端、前端采用mtop接口通信,和云端采用ACCS双向通讯; -
负责任务的调度和编排,包括算法任务的创建、调度、参数构建、执行回调的处理 -
根据约定参数调用TPP Python,执行算法服务,由于形象和音色的推理和训练需要较长时间(分钟到小时级),通过采用异步执行的方案,通过定时任务调度触发,再接受TPP网关的消息回调获取结果。执行话术和互动文案的耗时较短(秒级),采用同步执行的方案,使用流式输出协议(SSE)进行输出
-
负责算法工程服务,一般由算法工程或者算法同学维护 -
数字人的形象和TTS由算法同学提供SDK,算法工程同学负责进行环境搭建,提供SDK的部署和运维能力 -
数字人的话术&互动的算法工程由算法同学自己编写和维护
-
负责提供大模型的部署能力和服务,并提供kv-cache、高效推理等底层加速能力,由算法同学维护

-
3.5.2 任务调度分发&扩展能力

-
4.5.3 算法升级迭代






未来规划
-
数字人智能化开播agent,助力主播快速一键开播 -
数字人领域建模设计,抽象沉淀数字人领域服务 -
数字人个性化推荐,打造用户专属个性化导购主播

