我们非常高兴地宣布,Open Audio 提供的多功能语音工具插件 Fish Audio,现已正式上线 dify Marketplace。通过这项集成,Dify 用户可以在 AI 应用中便捷地加入高质量的文本转语音(TTS)与语音克隆功能。
Fish Audio 的主要功能
Fish Audio 在语音生成和处理方面表现出色,主要提供以下核心能力:
语音合成 (TTS)
Fish Audio 提供实时的文本转语音功能,支持通过 WebSocket API 进行流式音频输出。用户可以灵活控制语速、音量等参数,并能输出包括 Opus、MP3、WAV 在内的常见音频格式。
语音克隆
该插件具备强大的语音克隆能力。只需 30 到 45 秒的音频样本即可完成快速克隆。
Voice ID
在 Fish Audio 平台上,Voice ID 就是特定语音模型的唯一标识符,它代表一款可用于文本转语音的具体声音。
创建和使用自定义语音
除了使用默认语音,你还可以使用 Fish Audio 的 “Build Voice” 功能训练自己的独特语音模型。训练完成后,打开 “My Library” 就能找到你定制的语音模型,只需复制对应的 Voice ID 并粘贴到 Dify 的工作流中即可使用。
快速上手
想在 Dify 中使用 Fish Audio 工具,首先需要在 Dify Marketplace 搜索并安装 “Fish Audio” 插件。
获取链接:https://fish.audio/zh-CN/go-api/api-keys/
在 Dify 的 Chatflow 中使用 Fish Audio TTS 工具
-
输入文本:指定需要转换为语音的文本。例如可将 LLM 节点的输出直接连接到 TTS 节点的输入字段。
-
选择语音:通过设置对应的 Voice ID,选择需要的合成语音。
-
输出格式:选择你想要的音频文件格式进行输出。
这样,工作流就能把 LLM 生成的文本转换为指定声音和格式的语音。
现实使用场景
-
多语言客服场景
借助 Fish Audio 的语音克隆功能,企业可以基于自家客服专家的录音来创建专属语音模型。系统会将文本形式的客服回复自动转成自然的语音,并可根据客户语言自动切换到相应的语音和语言。整个流程同时用到了 Fish Audio 的语音克隆、自动语音识别(ASR)和文本转语音(TTS)等核心能力,大幅提升了客服沟通的效率与自然度。
-
教育与培训内容制作
在教育培训领域,Fish Audio 能够轻松创建标准化课程内容。以语言教学为例,它可以克隆母语者的声音,为学生提供清晰的发音示范,并利用 ASR 功能对学生的口语进行实时纠正。通过 TTS 功能自动生成音频讲解,也让课程制作和交付更为一致、高效。
-
播客与媒体内容创作
Fish Audio 为媒体创作者提供灵活的解决方案。创作者可以通过少量本人音频样本训练出个性化数字音色,再将写好的文本脚本转换为音频。借助 ASR 功能,后期还可快速生成字幕或文字稿,提高内容的可及性。此外,平台允许调节语速、情感等维度,确保最终音频与创作者的需求完美匹配。
关于 Open Audio
Open Audio 是 Hanabi AI Inc 旗下的研究实验室,致力于为开源社区提供更加优质的音频相关项目。当前,其产品 Fish Audio 在音频合成和语音识别方面均达到了业内领先水平,无论是开源还是闭源领域都表现出色。
关于 Dify.AI
Dify.AI 是一个帮助开发者更简单、快速地构建 AI 应用的开源平台。我们相信,通过灵活的插件机制、提示词编排、RAG、Workflow、应用日志监测等特性,可以大幅降低开发者的上手门槛,并在最短时间内完成从概念到大规模生产的飞跃。