DupDub 插件登陆 Dify Marketplace,带来强大的音频 AI 能力

DupDub 插件登陆 Dify Marketplace,带来强大的音频 AI 能力

我们很高兴地宣布,DupDub 的一系列强大音频 AI 插件现已上架 dify Marketplace。通过此次集成,用户可在 Dify 平台中直接使用先进功能,如语音转写、语音克隆、说话人识别以及文本转语音合成等,帮助大家构建更多元、更具可及性和互动性的 AI 应用。

Dify Marketplace:推动 AI 创新的新引擎

自 Dify v1.0.0 发布以来,我们的 Marketplace 生态系统正在快速成长,汇聚了多种插件类型,包括模型(Models)、工具(Tools)、Agent 策略(Agent Strategies)、扩展(Extensions)及插件集(Bundles)。这些插件基于 Dify 开源的 AI 应用开发平台,为用户加速创新、快速扩展 AI 解决方案提供了更多可能。其模块化设计使得像 DupDub 这样的前沿工具得以轻松接入,进一步丰富了 Dify 社区的多模态能力。

DupDub 插件登陆 Dify Marketplace,带来强大的音频 AI 能力

DupDub 工具为 Dify 带来先进音频处理

借助 DupDub 插件,用户可将高阶的音频处理功能加入 Dify 的工作流程中。以下是目前可用的主要功能:
  • 语音转写(TranscribeSpeech):将音视频内容精准地转换成文本,用于内容分析、字幕生成、数据处理,并提升可及性。
  • 语音克隆(Voice Cloning):从特定人的语音样本生成个性化语音,适用于品牌音色、个性化助手或多语种的内容配音等。

  • 说话人识别(Speaker Identification):借助 Get Speaker ID 工具来分辨音频内容中的不同说话人。非常适用于会议记录、客服通话或任何多人参与的音频场景。
  • 文本转语音(Text-to-Speech,TTS)合成:使用 Speech Synthesis 工具将文本转换为自然的语音输出,并可通过选择不同的标准或克隆声音、调整语速和音调来打造高质量的音频内容。

在 Dify 可视化工作流的帮助下,这些功能都能轻松编排并自动化处理,大幅减少人工干预,提升效率。

DupDub 插件登陆 Dify Marketplace,带来强大的音频 AI 能力

如何在 Dify 中使用 DupDub 工具

以下简要介绍如何在 Dify 中使用 DupDub 的各项工具。

TranscribeSpeech 工具

让工作流程具备语音转写功能,轻松把音视频转换为文本。
  1. 添加工具至工作流程:
  • 在左侧面板点击 “Orchestrate”
  • 点选 “Tools”,搜索 “TranscribeSpeech”(归属 dupdup 插件)
  • 拖拽 “TranscribeSpeech” 工具至工作流程图中

DupDub 插件登陆 Dify Marketplace,带来强大的音频 AI 能力

  1. 配置 TranscribeSpeech 工具:
  • 将 START 节点与 TranscribeSpeech 节点连起来
  • 填写必需的输入变量:
    • Duration(必填):输入视频/音频的时长
    • URL(必填):提供视频/音频文件的链接
    • Language(必填):指定内容语言(如 en 表示英文)
  1. 其他设置:
  • Retry on Failure(重试):可在出现错误时自动重试
  • Error Handling(异常处理):定义遇到错误时的处理方式
  1. 运行 & 发布:
  • 点击 Run 进行测试运行
  • 测试成功后,点击 Publish 即可完成部署
DupDub 插件登陆 Dify Marketplace,带来强大的音频 AI 能力

Voice Cloning 工具

为工作流程增添强大的语音克隆功能,实现精确且可定制化的音色复制。
  1. 添加工具至工作流程:
  • 在左侧面板点击 “Orchestrate”
  • 在 “Tools” 中搜索 “Voice Cloning”(归属 Dupdub 插件)
  • 将 “Voice Cloning” 工具拖拽到工作流程中
DupDub 插件登陆 Dify Marketplace,带来强大的音频 AI 能力
  1. 配置 Voice Cloning 工具:
  • 将 START 节点与 Voice Cloning 节点连起来
  • 填写必需的输入变量:
    • Speaker Name(必填):输入需要克隆的讲话者名称
    • URL(必填):提供对应的语音样本链接(支持 WAV、MP3、MP4 等格式)
    • Language(必填):指定语音样本使用的语言(如英文 en、中文 zh)
    • Gender(必填):说明讲话者性别(MALE 或 FEMALE)
    • Age(必填):说明讲话者的大致年龄段(Children、Youth、Adults、Seniors)
  1. 其他设置:
  • Retry on Failure(重试):在出现错误时可自动重试
  • Error Handling(异常处理):选择出现错误时的处理方式
  1. 运行 & 发布:
  • 点击 Run 运行并开始语音克隆
  • 测试成功后,点击 Publish 即可完成部署
DupDub 插件登陆 Dify Marketplace,带来强大的音频 AI 能力

Get Speaker ID 工具

借助此工具可识别音频中的说话人身份,为更高级的音频处理与个性化提供基础。
  1. 添加工具至工作流程:
  • 在左侧面板点击 “Orchestrate”
  • 在 “Tools” 中搜索 “Get Speaker ID”(归属 Dupdub 插件)
  • 将 “Get Speaker ID” 工具拖拽到工作流程图中
DupDub 插件登陆 Dify Marketplace,带来强大的音频 AI 能力
  1. 配置 Get Speaker ID 工具:
  • 将 START 节点与 Get Speaker ID 节点连起来
  1. 其他设置:
  • Retry on Failure(重试):在出现错误时自动重试
  • Error Handling(异常处理):定义遇到错误时的处理方式
  1. 运行 & 发布:
  • 点击 Run 执行流程并获取说话人 ID
  • 测试成功后,点击 Publish 完成部署
DupDub 插件登陆 Dify Marketplace,带来强大的音频 AI 能力

使用此流程后,就能在音频处理中区别不同说话者,使输出更精确、个性化。

Speech Synthesis 工具

将文本转语音功能快速集成到工作流程,为用户生成高品质的定制化音频。
  1. 添加工具至工作流程:
  • 在左侧面板点击 “Orchestrate”
  • 在 “Tools” 中搜索 “Speech Synthesis”(归属 Dupdub 插件)
  • 拖拽 “Speech Synthesis” 工具到工作流程中
DupDub 插件登陆 Dify Marketplace,带来强大的音频 AI 能力
  1. 配置 Speech Synthesis 工具:

  • 将 START 节点与 Speech Synthesis 节点连起来
  • 填写必需的输入变量:
    • Speaker Name(必填):指定合成语音的讲话者名称
    • Speaker(必填):提供要使用的讲话者标识
    • Speed(可选):调整语速,默认正常速度(1.0)
    • Pitch(可选):调整音调,默认标准音调(0)
    • Text(必填):输入需要转语音的文本内容
  1. 其他设置:
  • Retry on Failure(重试):在出现错误时是否自动重试
  • Error Handling(异常处理):指定错误管理方式
  1. 运行 & 发布:
  • 点击 Run 执行流程并将文本合成为语音
  • 测试成功后,点击 Publish 即可完成部署

DupDub 插件登陆 Dify Marketplace,带来强大的音频 AI 能力

应用场景示例

有了 DupDub 工具,Dify 用户能实现以下创意场景:
  • 多语言内容创作助手:先用 TranscribeSpeech 为视频生成字幕,然后通过 Voice Cloning 和 Speech Synthesis 在 Dify 的工作流程里同步生成多语言自然配音,大幅提升内容的传播力。
  • 增强的在线教育平台:使用 TranscribeSpeech 自动转写课程录音并生成可检索的笔记;借助 Speech Synthesis 生成可定制的音频课程;还可通过语音克隆技术为学生提供个性化的导师音频反馈。
  • 自动化企业培训与数据分析:将静态培训资料转化为生动音频内容,借助 Speech Synthesis 打造更加丰富的培训形式;使用 TranscribeSpeech 提升多语言可及性;利用 Get Speaker ID 分析团队讨论或客户通话,对语音进行深入挖掘和管理。

关于 DupDub

DupDub 是一个尖端的 AI 内容创作与本地化平台,专注于文本转语音(TTS)、语音克隆与视频配音。DupDub 帮助创作者、教育者、营销人员及企业轻松生成自然流畅的高质量语音内容,并支持快速多语种转化。

平台操作简单易上手,内置超过 700+ 个逼真的 AI 合成声音,覆盖 90+ 种语言和口音,不论是制作 YouTube 视频、在线课程、播客,还是宣传素材,都能在数分钟内完成专业级语音生成。DupDub 让你省时省力,降低内容制作成本,并用真实的、本地化的语音体验吸引全球观众。

关于 Dify.AI

Dify.AI 是一个帮助开发者更简单、快速地构建 AI 应用的开源平台。我们相信,通过灵活的插件机制、提示词编排、RAG、Workflow、应用日志监测等特性,可以大幅降低开发者的上手门槛,并在最短时间内完成从概念到大规模生产的飞跃。

RAG技术前沿技术新闻资讯

RAG评估深度解析:LLM时代的全方位指南(1.5万字综述)

2025-5-17 20:03:57

前沿技术大模型技术新闻资讯

OpenMemory MCP:跨AI工具的记忆服务

2025-5-17 20:53:29

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索