Dify x Open Audio：用 Fish Audio 插件轻松实现 TTS 和语音克隆

我们非常高兴地宣布，Open Audio 提供的多功能语音工具插件 Fish Audio，现已正式上线 dify Marketplace。通过这项集成，Dify 用户可以在 AI 应用中便捷地加入高质量的文本转语音（TTS）与语音克隆功能。

Fish Audio 的主要功能

Fish Audio 在语音生成和处理方面表现出色，主要提供以下核心能力：

语音合成 (TTS)

Fish Audio 提供实时的文本转语音功能，支持通过 WebSocket API 进行流式音频输出。用户可以灵活控制语速、音量等参数，并能输出包括 Opus、MP3、WAV 在内的常见音频格式。

语音克隆

该插件具备强大的语音克隆能力。只需 30 到 45 秒的音频样本即可完成快速克隆。

Dify x Open Audio：用 Fish Audio 插件轻松实现 TTS 和语音克隆

Voice ID

在 Fish Audio 平台上，Voice ID 就是特定语音模型的唯一标识符，它代表一款可用于文本转语音的具体声音。

Dify x Open Audio：用 Fish Audio 插件轻松实现 TTS 和语音克隆

创建和使用自定义语音

除了使用默认语音，你还可以使用 Fish Audio 的 “Build Voice” 功能训练自己的独特语音模型。训练完成后，打开 “My Library” 就能找到你定制的语音模型，只需复制对应的 Voice ID 并粘贴到 Dify 的工作流中即可使用。

Dify x Open Audio：用 Fish Audio 插件轻松实现 TTS 和语音克隆

快速上手

想在 Dify 中使用 Fish Audio 工具，首先需要在 Dify Marketplace 搜索并安装 “Fish Audio” 插件。

Dify x Open Audio：用 Fish Audio 插件轻松实现 TTS 和语音克隆

接着，获取你的 Fish Audio API Key 和 endpoint URL，并在插件设置中进行配置。配置时，你还需要选择适合的语音平衡模式。

获取链接：https://fish.audio/zh-CN/go-api/api-keys/

Dify x Open Audio：用 Fish Audio 插件轻松实现 TTS 和语音克隆

在 Dify 的 Chatflow 中使用 Fish Audio TTS 工具

举个例子：你可以在 Dify 中创建一个 Chatflow，让大型语言模型（LLM）先生成文本，然后将这些文本通过 Fish Audio 的文本转语音（TTS）节点自动转成音频片段。

配置 Fish Audio TTS 节点的流程如下：

输入文本：指定需要转换为语音的文本。例如可将 LLM 节点的输出直接连接到 TTS 节点的输入字段。
选择语音：通过设置对应的 Voice ID，选择需要的合成语音。
输出格式：选择你想要的音频文件格式进行输出。

这样，工作流就能把 LLM 生成的文本转换为指定声音和格式的语音。

Dify x Open Audio：用 Fish Audio 插件轻松实现 TTS 和语音克隆

现实使用场景

多语言客服场景

借助 Fish Audio 的语音克隆功能，企业可以基于自家客服专家的录音来创建专属语音模型。系统会将文本形式的客服回复自动转成自然的语音，并可根据客户语言自动切换到相应的语音和语言。整个流程同时用到了 Fish Audio 的语音克隆、自动语音识别（ASR）和文本转语音（TTS）等核心能力，大幅提升了客服沟通的效率与自然度。

教育与培训内容制作

在教育培训领域，Fish Audio 能够轻松创建标准化课程内容。以语言教学为例，它可以克隆母语者的声音，为学生提供清晰的发音示范，并利用 ASR 功能对学生的口语进行实时纠正。通过 TTS 功能自动生成音频讲解，也让课程制作和交付更为一致、高效。

播客与媒体内容创作

Fish Audio 为媒体创作者提供灵活的解决方案。创作者可以通过少量本人音频样本训练出个性化数字音色，再将写好的文本脚本转换为音频。借助 ASR 功能，后期还可快速生成字幕或文字稿，提高内容的可及性。此外，平台允许调节语速、情感等维度，确保最终音频与创作者的需求完美匹配。

关于 Open Audio

Open Audio 是 Hanabi AI Inc 旗下的研究实验室，致力于为开源社区提供更加优质的音频相关项目。当前，其产品 Fish Audio 在音频合成和语音识别方面均达到了业内领先水平，无论是开源还是闭源领域都表现出色。

关于 Dify.AI

Dify.AI 是一个帮助开发者更简单、快速地构建 AI 应用的开源平台。我们相信，通过灵活的插件机制、提示词编排、RAG、Workflow、应用日志监测等特性，可以大幅降低开发者的上手门槛，并在最短时间内完成从概念到大规模生产的飞跃。

{{userData.name}}已认证

Dify x Open Audio：用 Fish Audio 插件轻松实现 TTS 和语音克隆

语音合成 (TTS)

语音克隆

Voice ID

创建和使用自定义语音

快速上手

在 Dify 的 Chatflow 中使用 Fish Audio TTS 工具

现实使用场景

关于 Open Audio

关于 Dify.AI

OpenAI：发布 Codex 与收购 Windsurf

AI生产实践 | 基于大语言模型的海外KOL视频总结与问答