2025年2月18日,阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。目前,用户可登录火山引擎机器学习平台快速体验。

> 火山引擎机器学习平台简介
火山引擎机器学习平台 veMLP 是面向机器学习应用开发者,提供【开发机】、【自定义任务】、【在线服务】等丰富建模工具、多框架高性能模型推理服务的企业级开发平台,支持从数据托管、代码开发、模型训练、模型部署的全生命周期工作流。

> veMLP一键部署Step-Video-T2V模型
Step-Video-T2V 模型
Step-Video-T2V 模型的参数量达到300亿,可以直接生成204帧、540P 分辨率的高质量视频,这意味着能确保生成的视频内容具有极高的信息密度和强大的一致性。测评结果显示,它是目前全球范围内参数量最大、性能最好的开源视频生成大模型之一。
为了对开源视频生成模型的性能进行全面评测,阶跃发布并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含128条基于真实用户需求的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等11个内容类别上的质量。

评测结果显示,Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均超过市面上既有的效果最佳的开源视频模型。
使用 veMLP 快速入门
第一步:
登录火山引擎机器学习平台,在左侧导览页点击「快速入门」,选择 Step-Video-T2V 卡片

第二步:
点击右上角「在开发机中打开」,使用预制镜像并选择4卡或8卡80G 显存 GPU 计算规格

第三步:
根据「使用指南」进行基准测试

第四步:
使用「在线服务」进行推理部署

> veMLP一键部署 Step-Audio 模型
Step-Audio 模型
Step-Audio 是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成不同情绪、方言、语种、歌声及个性化风格的表达,能和用户自然地进行高质量对话。模型生成的语音具有自然流畅、情商高等特征,同时也能支持不同角色的音色克隆,满足影视娱乐、社交、游戏等行业场景的应用需求。

使用 veMLP 快速入门
第一步:
登录火山引擎机器学习平台,在左侧导览页点击「快速入门」,选择Step-Audio 卡片

第二步:
点击右上角「在开发机中打开」,使用预制镜像并选择4卡或8卡80G 显存 GPU 计算规格

第三步:
根据「使用指南」进行基准测试

第四步:
使用「在线服务」进行推理部署

火山引擎依托字节跳动的技术积累和经验沉淀,通过长期的技术驱动打造出高性价比部署方案,以模型为核心的 AI 云原生技术,将持续助力企业加速 AI 转型。