懂方言，通诗词，精通30国语言，阿里发布语音识别大模型Fun-ASR1.5

你是否遇到过这样的尴尬：对着智能音箱说方言，它一脸茫然；开跨国会议时，要在多个翻译工具间来回切换；录音转文字后，还得花半小时手动加标点、改日期……这些语音识别的“最后一公里”难题，正在被阿里Fun-ASR1.5逐一攻克。

作为端到端语音识别大模型的新一代版本，实现单模型高精度识别30种语言，覆盖中文七大方言体系及二十余种地方口音，并强化古诗词诵读的专项识别。它不仅“听得更全、听得更准”，更能“写得更规范”，让语音转写从能用走向好用。

听得更全

30种语言，一个模型无缝切换

作为单一模型，Fun-ASR1.5可精准识别欧洲、东亚、东南亚、南亚及中东主流语种，覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等 30 种语言。

韩语

ASR结果：저는 이 주제에 따라 한 말씀 드리자면, 사실 저희도 이전에 비슷한 상황을 겪은 적이 있습니다.

马来语

ASR结果：Kejayaan projek ini tidak dapat dipisahkan daripada usaha pasukan, terutamanya kerja keras siang malam oleh jabatan penyelidikan dan pembangunan.

西班牙语

ASR结果：La diversidad cultural es un tesoro invaluable para la sociedad humana, y debemos respetar y proteger todas las tradiciones culturales.

更重要的是，在一些“高难度”的跨语言切换（Code-Switching）场景下，它也能应对自如。

比如，同一段对话里夹杂多种语言，模型也能准确识别，无需提前告诉它接下来要说哪种语言。Fun-ASR1.5现在可以做到无需预设语种标签，就自动识别并切换，保证转写的准确性。

英日codeswitch

ASR结果：We’ve all had that experience of finally visiting a place we’ve dreamed about for years,only to find that it doesn’t quite live up to our expectations.There’s even a term for this in one of the most visited cities in the world,Paris Syndrome.何年も前から行きたかった場所をやっと訪れてみたら、思っていたほどではなかったという経験は誰しもあることだと思います。

这种灵活的多语言能力，源于模型的架构和训练创新。MoE（混合专家）架构让模型内部可以分工协作，听到特定语言时仅激活相关部分进行处理，因而更为灵活高效。同时，在训练阶段分级、分阶段地使用精准数据，也让模型能更好地应对真实世界中的复杂语音情况。

图说：Fun-ASR1.5在开源多语言测试集中获得多项SOTA。

听得更准

数十万小时数据，驱动“听得懂乡音”

在中文本土化方面，基于数十万小时真实方言语音数据的“喂养”，Fun-ASR1.5的平均字错误率（CER）相比上一版本下降 56.2%。

上海话

ASR结果：现在发展了蛮快个现在伊拉用户算大户唻

客家话

ASR结果：呃，那些吃的不就这样的土笋冻啊，我觉得不好吃。

粤语

ASR结果：诶，其实可能有时候觉得去超市都几远下噶。

闽南话

ASR识别结果：但是一个人若是两三两百箍一百外箍安无算贵吧，吼自助餐啊，啊你也有肉咯也有菜咯也有水果咯也有甜点咯，啥物计有咯。

不仅听得懂，还能“写得地道”，Fun-ASR1.5可原汁原味还原方言，如上海话的“侬”、苏州话“倷”（均指“你”），为下游模型处理方言文字提供了准确的基础语料。

图说：Fun-ASR1.5在工业方言测试集中获得多项SOTA。

新增“古诗词”技能点，让千年韵律被听懂

不同于现代口语，文言语法特殊、典故生僻字繁多，具有不少挑战：

文言语法简练，省略主谓宾；
押韵严格，节奏固定（如五言、七言律诗）；
多用典故、异体字、古今异义词；
诵读时存在拖腔、停顿、吟咏等非自然语流特征。

Fun-ASR1.5对中文古诗词识别进行专项优化。研究团队构建了先秦至近代的古诗词语音-文本对齐语料库，涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音。

在内部评测集中，Fun-ASR1.5对古诗词的字符级准确率达到 97%，可应用于国学在线课程和有声诗词，助力文化传承。

ASR结果：蓬山此去无多路，青鸟殷勤为探看。

ASR结果：子夏曰，博学而笃志，切问而近思，仁在其中矣。

写得更规范

从“能听清”到“看得懂”

语音识别的终极价值在于生成可直接使用的文本。Fun-ASR1.5在后处理环节重点优化了两项能力：

1. 标点预测更加智能

模型基于上下文语义自动插入逗号、句号、问号、感叹号等标点，使转写结果接近书面表达。例如：

输入语音：“今天天气怎么样啊我想出去走走但又怕下雨”

输出文本：“今天天气怎么样啊？我想出去走走，但又怕下雨。”

2. 文本归一化（ITN）表现进一步提升

将口语中的非标准表达自动转换为规范格式：

数字：“三千五百六十二” → “3562”
日期：“二零二六年三月二十九号” → “2026年3月29日”
金额：“五万八千块” → “58000元”
电话：“幺三八零零幺三八零零零” → “13800138000”

这些改进大幅降低了会议纪要、新闻采访整理、法律笔录等场景的后期人工校对和编辑成本。

欢迎大家在阿里云百炼平台调用API，或在魔搭社区（modelscope.cn）直接体验。

https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr

https://modelscope.cn/studios/iic/FunAudio-ASR

{{userData.name}}已认证

懂方言，通诗词，精通30国语言，阿里发布语音识别大模型Fun-ASR1.5

5个知识图谱KG和RAG系统的误解 — 构建和使用RAG原生图谱

使用小米小爱音箱与ChatGPT等LLM进行交流