AI与“粉红诱惑”


沉寂已久的AI语音赛道,因GPT4o又热闹起来了。

语音开源项目ChatTTS爆火出圈,能笑、能模仿还能实时互动;主打共情AI语音的Hume AI趁势推出了第一个AI情感互动播客产品;AI音视频基础设施平台初创公司LiveKit宣布筹集2250万美元的A轮融资,OpenAI和Character.AI都是其客户。

自大模型浪潮席卷而来,AI语音赛道经历了从克隆、合成到实时反馈、情感化的变化。

在大模型多模态进化的主线之下,AI语音一直像“影子”般存在。作为工具属性的痕迹尤其明显,它是狼人杀游戏里NPC发号的指令,是数字人表演的一环,也是Sora生成视频后的背景乐。

正因如此,语音的价值被低估了。

声音打通的是无数个场,游戏的、带货的、教育的等等,最后抵达的是用户。在大模型时代,把声音功能前置是一种典型的产品思维,这意味着更低的门槛、更高效的交互方式以及更庞大的用户群体。

“这几乎是我第一次熬夜看美国科技产品发布会,很多场景能够被解锁,十分惊艳”,澜码科技创始人周健掩按捺不住内心的激动。

GPT4o进一步打开了多模态的想象力。当补齐了语音模态这块拼图后,主打原生交互体验的产品被推向了商业化落地的边缘,其背后是一批等待突围的情感陪伴类大模型应用产品。

不同于数字人、智能客服的toB模式,面向C端的AI产品同样竞争激烈,MiniMax“星野”、字节“猫箱”和“小黄蕉”、百度“万话”、美团“Wow”、阅文“筑梦岛”、聆心智能“Aiu”,正在排队等待下一场Kimi式的爆火。


语音激活客服、情感陪伴


TTS(文本转语音)在语音赛道已经是一项比较成熟的技术。大模型爆火初期,就有一些创业公司入局该领域,通过精调小参数模型来实现克隆、还原声音的功能,以出售“声音皮肤”或被集成到原有的游戏、直播等场景中来提供服务。

但在实际落地中,语音沦为了蛋糕上的装裱。

以典型的智能客服行业为例,智齿科技向光子星球透露,“语音在业务中仅承担了通道的角色,最终决定客户是否买单,还是解决问题的效率和准确率。”在这种情况下,很少有客户直接提出要定制化声音客服的需求。

“大模型来临前,在客服营销场景中,语音技术已经可以做到百毫秒内响应”,智齿科技表示道。

大模型创业者曾在公开采访中表示,GPT4o技术实现上