阿里端出最強(qiáng)語音模型!英文rap精準(zhǔn)轉(zhuǎn)文字,準(zhǔn)確率干翻全球
▲頭圖由AI生成
智東西作者 程茜編輯 心緣
智東西9月9日?qǐng)?bào)道,昨天,阿里發(fā)布最新語音識(shí)別模型Qwen3-ASR-Flash,該模型基于Qwen3基座模型訓(xùn)練,支持11種語言和多種口音。用戶可以通過ModelScope、HuggingFace和阿里云百煉API Qwen3-ASR-Flash免費(fèi)體驗(yàn)。
在ASR(自動(dòng)語音識(shí)別)的多項(xiàng)基準(zhǔn)測(cè)試中,Qwen3-ASR-Flash在方言、多語種、關(guān)鍵信息識(shí)別、歌詞等方面的識(shí)別錯(cuò)誤率明顯低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴語音實(shí)驗(yàn)室Paraformer-v1、字節(jié)豆包Doubao-ASR。
具體來看,該模型支持中文、英語、法語、德語等11個(gè)語種,識(shí)別過程中能自動(dòng)分辨語音語種、自動(dòng)過濾靜音和背景噪聲等非語音片段,其是基于海量多模態(tài)數(shù)據(jù)以及千萬小時(shí)規(guī)模的ASR數(shù)據(jù)構(gòu)建的語音識(shí)別服務(wù)。
此外,用戶還可定制ASR結(jié)果,通過在上傳音頻時(shí)添加關(guān)鍵信息術(shù)語、音頻發(fā)生背景等上下文信息,就能使識(shí)別結(jié)果匹配這些已有信息。
下面是官方放出的電競(jìng)比賽解說音頻示例。研究人員為這一場(chǎng)景配置了背景信息,包括關(guān)鍵詞列表、這場(chǎng)游戲的背景等。因此識(shí)別結(jié)果中,即使電競(jìng)解說人員的語速非??煲矝]有影響識(shí)別游戲?qū)I(yè)術(shù)語的效果。
https://oss.zhidx.com/fec737df52316dd65dba06796cdb1eb9/68befd80/uploads/2025/09/68bf7afe744dc_68bf7afe6ff29_68bf7afe6fede_csgo.wav
ModelScope地址:
https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
Hugging Face地址:
https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
阿里云百煉API調(diào)用地址:
https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031
一、能識(shí)別游戲解說、英文說唱,連續(xù)多種噪音抗干擾拉滿
官方放出了5個(gè)演示示例,包含多種類型噪聲、多語種快速切換、方言、專業(yè)名詞的音頻識(shí)別難題。
第一個(gè)是夾雜手機(jī)鈴聲、車鈴聲、音樂聲、水聲、雷聲等多種類型的連續(xù)噪音,其中還會(huì)有不同人物之間切換對(duì)話,Qwen3-ASR-Flash在多人同時(shí)說話或者說話間隔非常短的情況下也對(duì)語音進(jìn)行了準(zhǔn)確識(shí)別,沒有受到噪聲干擾。
https://oss.zhidx.com/383cc163e20957eddc21e7e86a4b3f07/68befd80/uploads/2025/09/68bf7ae0b33d2_68bf7ae0ab8c0_68bf7ae0ab888_noise3.wav
第二個(gè)是英文說唱。英文說唱的特點(diǎn)是語速快、歌詞中單詞連讀情況多,識(shí)別結(jié)果中很多歌詞中的單詞連讀、長(zhǎng)難句識(shí)別準(zhǔn)確,且沒有受到背景音樂的干擾。
https://oss.zhidx.com/b2535c852c6391fdc4b1c8e71e963b26/68befd80/uploads/2025/09/68bf7b0a871b3_68bf7b0a80b74_68bf7b0a80b42_en_rap2.wav
第三個(gè)是方言的識(shí)別。這一場(chǎng)景中,音頻中主人公正在開車,有主人公的方言和智能語音客服的普通話穿插出現(xiàn),音頻中智能語音客服將“糾正”錯(cuò)誤識(shí)別成了“96”,Qwen3-ASR-Flash進(jìn)行了準(zhǔn)確識(shí)別。
https://oss.zhidx.com/16a9a5026b271ec29d2b519f5384b210/68befd80/uploads/2025/09/68bf7b174e73d_68bf7b1747a22_68bf7b17479f3_noise1.wav
第四個(gè)是多語種句子切換,7秒的音頻里有英語、日語等5種語言,識(shí)別結(jié)果都進(jìn)行了一一呈現(xiàn)。
https://oss.zhidx.com/05e13dcd6a7ff02eddf2fc36c488c698/68befd80/uploads/2025/09/68bf7b2154e14_68bf7b214eed6_68bf7b214eea3_mls3.wav
最后是化學(xué)課程的一段音頻。識(shí)別結(jié)果中酯基、酸、醛、氨等化學(xué)名詞,以及音頻中人物的語氣詞識(shí)別并未出錯(cuò)。
https://oss.zhidx.com/5f39d32577be13371754b8f8187ad8d2/68befd80/uploads/2025/09/68bf7b289da6c_68bf7b2897f24_68bf7b2897ef8_course.wav
二、歌詞識(shí)別錯(cuò)誤率低于8%,可定制語音識(shí)別結(jié)果
性能表現(xiàn),Qwen3-ASR-Flash的自動(dòng)語音識(shí)別錯(cuò)誤率,在中文、英文、多語言自動(dòng)語音識(shí)別、歌詞、關(guān)鍵信息識(shí)別的錯(cuò)誤率都要低于Gemini-2.5-Pro、GPT-4o-Transcribe、Paraformer-v1、Doubao-ASR。
在歌詞識(shí)別中,Qwen3-ASR-Flash支持清唱和帶畢竟音樂的整首歌識(shí)別,研究人員實(shí)測(cè)識(shí)別錯(cuò)誤率低于8%。
該模型支持普通話以及四川話、閩南語、吳語、粵語等方言,英式、美式及多地區(qū)口音的英語,其他語言如法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語和阿拉伯語。
如果想要獲得定制化的ASR結(jié)果,用戶可提供任意格式的背景文本來獲得傾向性ASR結(jié)果,且用戶無需對(duì)上下文信息進(jìn)行預(yù)處理。
其支持的格式包括但不限于以下一種,簡(jiǎn)單的關(guān)鍵詞或熱詞列表、任意長(zhǎng)度和來源的完整段落或整篇文檔、以任意格式混合的關(guān)鍵詞列表與全文段落、無關(guān)甚至無意義的文本。研究人員提到,模型對(duì)無關(guān)上下文的負(fù)面影響具有高度魯棒性。
基于此,Qwen3-ASR-Flash可以利用該上下文識(shí)別并匹配命名實(shí)體和其他關(guān)鍵術(shù)語,輸出定制化的識(shí)別結(jié)果。
結(jié)語:后續(xù)將迭代通用語音識(shí)別精度
一直以來,復(fù)雜聲學(xué)環(huán)境、多樣化語音特征、專業(yè)術(shù)語等都是語音識(shí)別的最大難點(diǎn)。此次為了保證用戶對(duì)輸出結(jié)果的可控,阿里研究人員上線了背景文本上傳功能,使得這一生成結(jié)果能更加符合用戶的預(yù)期。
下一步,研究人員將提升Qwen3-ASR-Flash的通用識(shí)別精度,進(jìn)一步降低普通用戶的使用門檻。