用户洞察从业人员经常把探索/洞察用户需求作为自己的核心价值,而且是比定量研究更难、更能体现用研能力。
定性更能看出水平,对吧。
现在看来,因为大模型擅长语言、文本理解,对于用户洞察常用的定性和定量研究方法来说,大模型能先做好的反而是定性研究。而定量研究,则因为需要看的维度不统一、要生成表格、图的格式也不统一等,反而在工作流上不如定性研究那么顺畅。
今年 2 月份美国西北大学、MIT 预发表在arXiv 上的一篇论文,就对比了基础大模型、经过监督微调的大模型,以及专业分析师在提取用户需求上的质量差异
研究表明,通过监督微调(Supervised Fine-Tuning, SFT)的LLMs在提取客户需求方面表现优异,甚至在某些方面超过了专业分析师。这种方法不仅提高了效率,还能覆盖更广泛的客户需求范围,为产品开发、管理和营销策略提供了新的自动化工具。
来看他们是怎么做的。
研究是基于什么材料来评估提取的客户需求的质量的呢?
主要基于以下两类材料:
-
用户生成内容(UGC)
- 包括在线评论、博客、论坛等来源,这些内容被广泛用于挖掘客户体验和需求。
- 例如,木材染色剂产品的研究中使用了 14,341条在线评论,其中筛选出1,000条具有信息价值的评论供分析师和LLMs提取客户需求。
-
访谈记录
- 包括客户的体验式访谈数据,例如与行业专家、研究人员和客户的对话记录。
- 在访谈数据应用中,研究使用了 20份访谈记录,这些记录被分成语义相关的句子群组供LLMs和分析师提取需求。
可以看到,这两种材料的类型差别还是挺大的,UCG 内容很分散,而访谈记录的内容会更多,信息密度更大。
具体的研究设计是怎样的?
- 盲测方法:
- 评估过程中,专业分析师对提取的需求陈述进行了盲测,无法分辨这些需求是由LLMs还是其他分析师提取的。
- 样本构建(举例):
- 木材染色剂产品:从1,000条筛选出的评论中随机选择150条进行评估,包括90条明确包含客户需求的评论(verbatims)、30条信息性评论(informative)、30条无信息评论(uninformative)。
- 口腔护理产品:从专业访谈研究中筛选出86个最终需求,并将UGC评论与这些需求进行匹配。
有哪些评估维度?
会有另外的评估专家,从三个方面对大模型和专业分析师提取的用户需求进行判定:
- 是否属于客户需求:判断提取的陈述是否符合客户需求的定义,是否概念化地表达了客户想要的利益。
- 是否足够具体:评估提取的需求是否具有足够的细节,能够为产品开发和创新提供指导,而不是过于模糊或具体。
- 是否基于原始文本(这个是为了评估大模型的幻觉问题):确认需求陈述是否合理地来自评论或访谈中的原始内容。
结果对比:
- 基础LLMs(Base LLM):表现较差,提取的需求通常过于泛化或直接重述原始评论,缺乏专业标准。
- 监督微调LLMs(SFT LLM):
- 提取的需求符合专业标准,且在准确性、细节捕捉和依赖原始文本方面表现优异。
- 能够从大规模数据中提取更广泛的需求,包括小众需求和情感需求。
- 专业分析师:表现稳定,但在某些方面(如覆盖率和效率)略逊于SFT LLM。
实际上,作者使用的基础模型是 Vicuna 13B ,只是一个小小的 13B 模型,有理由相信现在的 DeepSeek v3 的效果要比经过监督微调的Vicuna 13B 效果要好。
科研跟实际工作还是不一样,如果想要利用大模型比较好地提取用户需求,还是要根据你自己的工作情境,创建你自己的工作流。
后续的需求分层、优先级排序,这些事情依赖很多的背景信息,也仍然依赖人工完成。