我们很高兴地宣布,DupDub 的一系列强大音频 AI 插件现已上架 dify Marketplace。通过此次集成,用户可在 Dify 平台中直接使用先进功能,如语音转写、语音克隆、说话人识别以及文本转语音合成等,帮助大家构建更多元、更具可及性和互动性的 AI 应用。
Dify Marketplace:推动 AI 创新的新引擎
自 Dify v1.0.0 发布以来,我们的 Marketplace 生态系统正在快速成长,汇聚了多种插件类型,包括模型(Models)、工具(Tools)、Agent 策略(Agent Strategies)、扩展(Extensions)及插件集(Bundles)。这些插件基于 Dify 开源的 AI 应用开发平台,为用户加速创新、快速扩展 AI 解决方案提供了更多可能。其模块化设计使得像 DupDub 这样的前沿工具得以轻松接入,进一步丰富了 Dify 社区的多模态能力。
DupDub 工具为 Dify 带来先进音频处理
-
语音转写(TranscribeSpeech):将音视频内容精准地转换成文本,用于内容分析、字幕生成、数据处理,并提升可及性。 -
语音克隆(Voice Cloning):从特定人的语音样本生成个性化语音,适用于品牌音色、个性化助手或多语种的内容配音等。
-
说话人识别(Speaker Identification):借助 Get Speaker ID 工具来分辨音频内容中的不同说话人。非常适用于会议记录、客服通话或任何多人参与的音频场景。 -
文本转语音(Text-to-Speech,TTS)合成:使用 Speech Synthesis 工具将文本转换为自然的语音输出,并可通过选择不同的标准或克隆声音、调整语速和音调来打造高质量的音频内容。
在 Dify 可视化工作流的帮助下,这些功能都能轻松编排并自动化处理,大幅减少人工干预,提升效率。
如何在 Dify 中使用 DupDub 工具
以下简要介绍如何在 Dify 中使用 DupDub 的各项工具。
TranscribeSpeech 工具
-
添加工具至工作流程:
-
在左侧面板点击 “Orchestrate” -
点选 “Tools”,搜索 “TranscribeSpeech”(归属 dupdup 插件) -
拖拽 “TranscribeSpeech” 工具至工作流程图中
-
配置 TranscribeSpeech 工具:
-
将 START 节点与 TranscribeSpeech 节点连起来 -
填写必需的输入变量: -
Duration(必填):输入视频/音频的时长 -
URL(必填):提供视频/音频文件的链接 -
Language(必填):指定内容语言(如 en 表示英文)
-
其他设置:
-
Retry on Failure(重试):可在出现错误时自动重试 -
Error Handling(异常处理):定义遇到错误时的处理方式
-
运行 & 发布:
-
点击 Run 进行测试运行 -
测试成功后,点击 Publish 即可完成部署

Voice Cloning 工具
-
添加工具至工作流程:
-
在左侧面板点击 “Orchestrate” -
在 “Tools” 中搜索 “Voice Cloning”(归属 Dupdub 插件) -
将 “Voice Cloning” 工具拖拽到工作流程中

-
配置 Voice Cloning 工具:
-
将 START 节点与 Voice Cloning 节点连起来 -
填写必需的输入变量: -
Speaker Name(必填):输入需要克隆的讲话者名称 -
URL(必填):提供对应的语音样本链接(支持 WAV、MP3、MP4 等格式) -
Language(必填):指定语音样本使用的语言(如英文 en、中文 zh) -
Gender(必填):说明讲话者性别(MALE 或 FEMALE) -
Age(必填):说明讲话者的大致年龄段(Children、Youth、Adults、Seniors)
-
其他设置:
-
Retry on Failure(重试):在出现错误时可自动重试 -
Error Handling(异常处理):选择出现错误时的处理方式
-
运行 & 发布:
-
点击 Run 运行并开始语音克隆 -
测试成功后,点击 Publish 即可完成部署

Get Speaker ID 工具
-
添加工具至工作流程:
-
在左侧面板点击 “Orchestrate” -
在 “Tools” 中搜索 “Get Speaker ID”(归属 Dupdub 插件) -
将 “Get Speaker ID” 工具拖拽到工作流程图中

-
配置 Get Speaker ID 工具:
-
将 START 节点与 Get Speaker ID 节点连起来
-
其他设置:
-
Retry on Failure(重试):在出现错误时自动重试 -
Error Handling(异常处理):定义遇到错误时的处理方式
-
运行 & 发布:
-
点击 Run 执行流程并获取说话人 ID -
测试成功后,点击 Publish 完成部署

使用此流程后,就能在音频处理中区别不同说话者,使输出更精确、个性化。
Speech Synthesis 工具
-
添加工具至工作流程:
-
在左侧面板点击 “Orchestrate” -
在 “Tools” 中搜索 “Speech Synthesis”(归属 Dupdub 插件) -
拖拽 “Speech Synthesis” 工具到工作流程中

-
配置 Speech Synthesis 工具:
-
将 START 节点与 Speech Synthesis 节点连起来 -
填写必需的输入变量: -
Speaker Name(必填):指定合成语音的讲话者名称 -
Speaker(必填):提供要使用的讲话者标识 -
Speed(可选):调整语速,默认正常速度(1.0) -
Pitch(可选):调整音调,默认标准音调(0) -
Text(必填):输入需要转语音的文本内容
-
其他设置:
-
Retry on Failure(重试):在出现错误时是否自动重试 -
Error Handling(异常处理):指定错误管理方式
-
运行 & 发布:
-
点击 Run 执行流程并将文本合成为语音 -
测试成功后,点击 Publish 即可完成部署
应用场景示例
-
多语言内容创作助手:先用 TranscribeSpeech 为视频生成字幕,然后通过 Voice Cloning 和 Speech Synthesis 在 Dify 的工作流程里同步生成多语言自然配音,大幅提升内容的传播力。 -
增强的在线教育平台:使用 TranscribeSpeech 自动转写课程录音并生成可检索的笔记;借助 Speech Synthesis 生成可定制的音频课程;还可通过语音克隆技术为学生提供个性化的导师音频反馈。 -
自动化企业培训与数据分析:将静态培训资料转化为生动音频内容,借助 Speech Synthesis 打造更加丰富的培训形式;使用 TranscribeSpeech 提升多语言可及性;利用 Get Speaker ID 分析团队讨论或客户通话,对语音进行深入挖掘和管理。
关于 DupDub
DupDub 是一个尖端的 AI 内容创作与本地化平台,专注于文本转语音(TTS)、语音克隆与视频配音。DupDub 帮助创作者、教育者、营销人员及企业轻松生成自然流畅的高质量语音内容,并支持快速多语种转化。
平台操作简单易上手,内置超过 700+ 个逼真的 AI 合成声音,覆盖 90+ 种语言和口音,不论是制作 YouTube 视频、在线课程、播客,还是宣传素材,都能在数分钟内完成专业级语音生成。DupDub 让你省时省力,降低内容制作成本,并用真实的、本地化的语音体验吸引全球观众。
关于 Dify.AI
Dify.AI 是一个帮助开发者更简单、快速地构建 AI 应用的开源平台。我们相信,通过灵活的插件机制、提示词编排、RAG、Workflow、应用日志监测等特性,可以大幅降低开发者的上手门槛,并在最短时间内完成从概念到大规模生产的飞跃。