
引言
-
【逆向文本风格迁移】拟人化训练数据生成流水线。原始的ASR噪声过多,存在语句不通顺、幻觉等问题,无法直接用于训练。为了解决这个问题,笔者提出一种自动化数据清洗流水线。可以基于ASR自动化构建语意高度相似,仅风格不同,形如 <AI感回复,拟人化回复> 的训练数据对。在此高质量的训练数据对的基础上经过模型SFT,即可得到拟人化改写模型。 -
【拟人化风格判定】虽然改写模型改写后的回复AI感大幅降低,但是又请求了一次模型服务。为改善该问题,借助SFT改写模型的推理结果,笔者训练了一个拟人化风格判定/奖励模型。可以快速判断模型回复的文本是否具有拟人化。在将该判定模型融入到原有的生成模型的强化学习训练框架中后,生成模型可以快速升生成正确、拟人化的回复。
-
旧版模型与拟人化模型回复对比
类目:商品推荐
用户问题:52号女宝脚长13,穿多大码
旧版模型回复:看到有宝宝问52号链接女宝脚长13穿多大码,这款M码适合13.5到14.5cm脚长哦,脚长13的话建议选S码哈。
拟人化改写:姐妹们看好了啊!我们这个52号链接,m码呢,就是说如果您的女儿脚长是13.5到14.5之间,就可以买我们的m码;如果说您家宝贝脚长只有13公分左右,那我建议您可以去拍s码。
评估:尺码推荐更加人性化
类目:商品问答
用户问题:叶黄素片一天吃几片
旧版模型回复:看到有宝宝问叶黄素片一天吃几片,7号链接的叶黄素片是每天两粒哈,直接按说明服用就行啦。
拟人化改写:对,就是按照说明书来啊,7号链接的这个叶黄素片呢,您就每天吃两颗就可以了。
评估:语序优化
类目:商品问答
用户问题:一岁吃几号DHA
旧版模型回复:看到有宝宝问一岁吃几号DHA,9号链接的小金珠DHA和2号链接的藻油DHA都适合10个月到3岁的宝宝哦,适用年龄里都有1岁哈。
拟人化改写:对啊,所以呢我们今天推荐给大家的是9号链接的小金珠DHA还有2号链接的藻油DHA都可以选择。因为这两个都是从10个月开始一直到三岁都能吃的。
评估:书面语去除
类目:卖点讲解
用户问题:被套面料是全棉的吗?
旧版模型回复:有宝宝问被套面料是不是全棉的,29号链接、63号链接和147号链接的被套都是全棉的哈,被里被面都是百分百棉的呢?
拟人化改写:对啊,全部都是用的是百分百的棉做的,所以大家放心去拍就可以了。我们今天给大家上架的这个29号链接、63号链接还有147号链接的被子,它的被里被面全部都是百分百棉的。
评估:卖点重复强调

实现方法
-
“从真人直播间定位具体商品获取商详”这一任务难度极大; -
线上互动模型使用的是推理模型,训练时需要思考过程,而ASR仅仅可以作为结果,无法构造对应的模型思考过程。
-
2.1.1 训练数据构建
|
query |
线上 |
拟人化回复 |
sim_score |
|
第一次尝试的话推荐哪个口味? |
有家人问第一次选什么口味哈。看到49号披萨有多口味尝鲜装,包括照烧、夏威夷、榴莲这些。第一次的话可以选比较大众的,比如夏威夷或者照烧比较容易接受哦。榴莲口味非常推荐,香甜浓郁值得一试。如果不确定的话可以选尝鲜装试试不同口味哈。 |
有朋友问第一次选哪个口味的话,推荐试试49号链接披萨,多口味尝鲜装,就是那个组合装。里面有像照烧的、夏威夷的,还有榴莲的。哦,榴莲的真的超好,一定要去试试,榴莲的用料成本会更高,而且那个榴莲味儿,又香又甜的,真的好吃。 |
0.9187 |
|
这个营养软糖的安全性如何? |
有家人问营养软糖的安全性哈。65号链接的产品信息有提到执行国标特殊食品标准,送检报告显示重金属未检出,还有提到2023年和今年质检投入均超四千万。这些说明安全性有充分保障的哦。 |
有家人问这个软糖的安全性啊。大家可以特别放心,65号链接的产品信息提到,我们执行的国标是特殊食品标准,送检报告显示重金属未检出。对于自营产品的质检我们一直特别重视,去年投入超过四千万在这上面,今年呢,也是这个样子的。安全和放心绝对做到位了! |
0.9293 |

图2-1:训练数据构造清洗流程图
|
核心解决问题 |
数据清洗流程 |
目的 |
|
逻辑通顺 |
1.ASR质量判定&逆向生成问题和商详 |
|
|
2.ASR修复 |
|
|
|
3.ASR过滤 |
|
|
|
幻觉 |
4.生成线上回复 |
|
|
5.根据线上回复对ASR进行补充 |
|
|
|
7.数字符号+语义及文本过滤 |
|
-
2.1.2 模型训练
learning_rate=2e-5epoch=4lr_scheduler_type='cosine'

图2-2 数据清洗前后训练loss对比
-
2.2.1 拟人化判别模型
|
外机一般是多大 |
有宝贝问到外机一般多大哈。那我们看下这个3号链接的臻净风空调,它的一个外机尺寸大概是802x350x555mm,不过因批次问题可能会有小点的出入的哦。 |
拟人化 |
|
看到有宝宝问外机一般是多大,咱们来说一下哈,外机大小根据不同链接来区分,比如咱们3号链接外机尺寸大概长802mm,具体大小宝宝们可以根据链接号对应商品确认,都是会有详细的尺寸说明的哦! |
|
|
|
看到有宝宝问外机一般是多大,我们以链接号3的变频空调为例,它的外机尺寸长宽高大概在802x350x555mm。不同的品牌型号尺寸会有一定的差异的哈 |
正式 |
|
|
看到有宝宝问外机一般是多大,我们可以参考一下链接号3的空调外机尺寸802x350x555mm哈。 |
|
-
2.2.2 GRPO训练

图2-3:长度奖励模型曲线

图2-4 GRPO训练框架图



图2-5 GRPO训练奖励曲线
|
问题 |
输入 |
旧版模型 |
优化后RL版本 |
|
有可穿浴巾吗? |
有家人问可穿浴巾哈。目前有三个链接符合哦。53号是浴巾可穿式,有青绿、水色兰等颜色,券35块。17号是夏浴袍,有紫色、蓝色可选,券26块。144号是浴袍三件套,材质聚酯纤维,券26块。宝宝们可以点号看看详情图,选喜欢的哈。 |
有宝宝问有没有可穿浴巾,咱们今天有推荐的可穿浴巾哦。比如53号链接的三利浴巾,是浴袍式浴裙设计,可以裹着穿,吸水性也很好。还有17号链接的三利浴巾,是夏款可穿浴裙三件套,加大加厚,吸水快干,宝宝们可以看看这两个链接,选自己喜欢的款式哈。 |
有家人问,这浴巾能不能穿对吧?哎呀,问得好!咱们家确实有三款宝贝是能穿的哈。第一个是53号链接,浴巾可穿式,颜色有青绿、水色兰,看着就清爽,券后只要35块,划算得很!再看17号链接,夏浴袍,紫色、蓝色,夏天穿刚刚好,券26块。还有144号链接,浴袍三件套,材质是聚酯纤维,舒服又耐用,券也是26块。宝宝们,点点号,看看详情图,挑自己喜欢的,带回家就对了! |
|
为啥锅铲价格变了 |
有家人问为啥锅铲价格变了哈,目前看到的三个链接号:68号是20,36号是26,32号419,券后价都没变哦。可能之前看到的是活动价或者规格不同,比如68号有不同颜色分类,但价格都是统一的。宝宝可以确认下是不是看错链接号,或者之前有优惠券没领到哈。 |
有宝宝问为啥锅铲价格变了,咱们来看一下。68号链接的三四钢迷你小锅铲,原价和券后价都是20元,价格没变哦。36号链接的加长款锅铲也是26元,价格没动。32号链接的七件套套装419元,价格也没变。宝宝说的价格变可能是指其他链接或者活动,可以再确认一下链接号,或者看看是不是活动结束导致价格变化了。 |
有家人问为啥锅铲价格变了哈,咱们家这锅铲可是实打实的好货,价格也一直稳得很!你看这链接号,68号是20块,36号是26块,32号是419块,券后价都没变哦。可能之前你看的是活动价,或者规格不一样,比如68号有不同颜色,但价格都是一样的。宝宝你再仔细看看,是不是看错链接号了,或者之前没领到优惠券呀?放心哈,咱们家绝对不玩虚的! |
表2-4:GRPO后模型效果

总结与展望
-
对于“什么是拟人化回复”的问题,我们当前是通过判定模型二分地去判定(黑盒)。后续会细化设计拟人化程度的打分机制(白盒); -
因为只可以拿到ASR信息,思考过程有缺失,所以基座模型无法直接进行SFT。虽然直接进行RL的方式可以使得模型获得一定的拟人化回复能力,但是更加合理的方式应该是通过SFT之后再进行RL; -
文本探究的是互动回复的拟人化,长度较短。后续如果想将当前的数据清洗、模型训练方式迁移到长文本上,还需要考虑长文本的通顺度和幻觉; -
学术界比较流行通过旋转因子进行文本风格迁移的,后续可以进一步探究。


