随着大模型技术的蓬勃发展，全球 AI 领域已经步入了多模交互的新纪元。2024 年 5 月 OpenAI 推出多模态模型 GPT4O 之后，语音文本多模态大模型的研究热度持续攀升。然而，现有的语音对话系统存在着一些亟待解决的问题。例如，很多模型无法有效地理解语音中的非文本信息，导致交互体验不够流畅和智能。同时，AI 回复迟缓的实时性问题也在很大程度上限制了语音交互系统在一些对实时性要求较高场景中的应用。在这样的背景下，Mini – Omni 模型应运而生，它旨在解决这些关键问题，为语音多模态交互领域开辟新的道路。

一、Mini – Omni 模型的主要特点

1. 实时语音到语音能力

Mini – Omni 具备强大的实时语音到语音的交互能力。用户可以直接通过语音与模型进行自然流畅的对话，模型会实时输出语音响应。这种实时性和语音交互的便捷性，使得用户与模型之间的交互变得更加高效和自然，无论是在日常生活还是在专业领域的应用中都具有极大的优势。

2. 文本和音频同时生成

该模型的一个独特之处在于它能够同时生成文本和音频。这种“边想边说”的能力确保了对话流程的连贯性和流畅性。在交互过程中，模型一边生成准确的文本信息，一边将其转化为自然的音频输出，让用户可以在听到语音的同时，也能查看对应的文本内容，极大地提高了信息传递的效率和用户体验。

3. 流式音频输出

Mini – Omni 支持流式音频输出，这对于那些对实时性要求较高的交互应用场景来说是至关重要的。例如在实时语音通话、在线客服等场景中，模型能够实时地将生成的音频片段输出，减少用户等待时间，提供更加流畅和自然的交互体验。

4. 批量推理

它还具备高效的批量推理能力。通过“音频到文本”和“音频到音频”的批量推理方法，Mini – Omni 能够在短时间内处理大量的音频数据，进一步提升了模型的性能和响应速度。这种批量推理能力在处理大规模语音数据时具有明显的优势，可以有效地提高系统的整体效率。

二、Mini – Omni 模型的架构解析

Mini – Omni 模型基于 Qwen 2 – 0.5b 架构构建，Qwen 2 – 0.5b 是一种具有 24 个模块、内部维度为 896 的 Transformer 架构。在此基础上，模型结合了 Whisper – small 编码器来有效地处理语音输入。在输出侧，音频采用离散编码的方式，通过音频解码头和文本解码头同时进行文本和语音的解码。然后，将两者的表征进行特征融合作为下一步的输入。这种独特的架构设计使得模型能够高效地处理语音和文本信息，实现了多模态信息的无缝融合和交互。

三、Mini – Omni 模型的训练方法

1. “Any Model Can Talk”训练框架

Mini – Omni 提出了“Any Model Can Talk”的训练框架，该框架分为三个关键阶段。

首先是模态对齐阶段，在这个阶段主要是增强文本模型理解和生成语音的能力。通过特定的算法和数据处理方式，让模型能够更好地理解语音信息，并将其与文本信息进行有效的对齐和融合。

其次是适应训练阶段，主要训练模型在给定音频输入时的文本推理能力。通过大量的音频数据和对应的文本数据进行训练，让模型能够快速准确地从音频中提取关键信息，并进行合理的文本推理。

最后是多模态微调阶段，在这个阶段使用全面的数据对整个模型进行微调。通过对模型的各个参数进行精细调整，使模型具备更加出色的语音交互能力，同时尽可能地保留原始模型的推理能力，确保模型在多模态交互场景下的性能和稳定性。

2. 训练过程中的数据处理

在训练过程中，模型使用了多个语音识别数据集来建立基础的语音能力。这些数据集涵盖了不同类型的语音样本和场景，为模型提供了丰富的训练素材。同时，还使用了其他相关数据集来保留文本准确性和进行多模态交互训练，确保模型在处理文本和多模态信息时的准确性和高效性。

四、Mini – Omni 模型的应用前景

作为首个开源的端到端实时语音多模态模型，Mini – Omni 为语音交互领域的研究和应用提供了新的可能性。

在智能语音助手领域，它可以提供更加自然流畅的语音交互体验，让用户可以更加方便快捷地获取信息和完成各种操作。无论是查询天气、设置提醒还是进行智能家居控制等操作，Mini – Omni 都能提供高效的语音交互服务。

在智能客服领域，它的实时语音到语音能力和批量推理能力可以有效地提高客服效率和服务质量。客服人员可以通过更加自然的语音交互与客户进行沟通，快速解决客户问题，提高客户满意度。

在语音交互游戏等场景中，Mini – Omni 也有着广阔的应用前景。它可以为游戏玩家提供更加沉浸式的语音交互体验，让玩家可以通过语音指令更加方便地控制游戏角色和完成游戏任务。

五、Mini – Omni 模型本地部署安装

1. 安装依赖

创建新的conda环境并安装所需的包：

conda create -n omni python=3.10conda activate omnigit clone https://github.com/gpt-omni/mini-omni.gitcd mini-omnipip install -r requirements.txt

2. 启动服务器

注意：在运行 streamlit 或 gradio 演示之前，您需要启动服务器，并将 API_URL 设置为服务器地址。

sudo apt-get install ffmpegconda activate omnicd mini-omnipython3 server.py --ip '0.0.0.0' --port 60808

3. 运行 streamlit 演示

注意：您需要在安装 PyAudio 的情况下在本地运行 streamlit 。如果出现错误：ModuleNotFoundError: No module named 'utils.vad'，请先运行export PYTHONPATH=./。

pip install PyAudio==0.2.14API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

4. 运行 gradio 演示

API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py

六、结语

综上所述，Mini – Omni 模型在语音多模态交互领域展现出了强大的实力和巨大的应用潜力。它的实时语音到语音能力、文本和音频同时生成能力、流式音频输出能力以及高效的批量推理能力等特点，使其在智能语音助手、智能客服、语音交互游戏等多个领域都有着广泛的应用前景。

同时，其独特的模型架构和训练方法也为语音多模态模型的研究和发展提供了新的思路和方法。随着技术的不断发展和完善，我们有理由相信 Mini – Omni 模型将在未来的语音多模态交互领域发挥更加重要的作用，为人们的生活和工作带来更多的便利和创新。

{{userData.name}}已认证

探索 Mini – Omni：开启语音多模态交互新征程