近期,上海AI领域的独角兽企业MiniMax稀宇极智推出了最新语音大模型Speech-02。该模型在业界最为权威的语音评测榜单Artificial Analysis和Hugging Face TTS Arena中,成功击败了OpenAI、ElevenLabs等国际知名企业,一举占据了两个榜单的榜首位置。这一重要进展昭示着我国在人工智能语音生成技术方面已成功步入全球领先者的行列。
今年伊始,DeepSeek-R1凭借其极低的成本,在性能上部分超越了OpenAI o1,这一成就打破了业界对硅谷大型模型的“技术迷信”。而MiniMax在语音AI领域的创新突破,更是进一步彰显了我国在大模型研发领域的雄厚实力。
国际知名的语音分析评价排行榜——Artificial Analysis
(Hugging Face TTS Arena 评测榜单)

据相关资料显示,Speech-02在语音模型的核心理念方面,诸如字错率WER和相似度SIM等关键性能指标上,实现了业界领先的水平。同时,用户在盲听的基础上所提供的个人主观评价,也显得更加自然和贴近实际。具体分析来看,Speech-02在中文和英文的零样本语音克隆任务上,相较于Seed-TTS、CosyVoice 2以及真实音频,均表现出了更低的错误率(WER),这充分说明了它的发音准确性更高,同时发音的清晰度和稳定性也更为出色。在SIM领域,Speech-02模型在涵盖的24种测试语言中均展现出显著优势,其生成的语音效果相较于ElevenLabs的multilingual_v2模型更为逼真,更接近于人类自然发音。
凭借卓越的技术实力和广泛适用的模型性能,Speech-02向用户提供了高度拟人化、定制化和多元化的语音服务体验。Speech-02具备“文生音”功能,能够根据自然语言文本生成相应的音色;利用“声音参考”功能,可对指定语音进行灵活调整,实现情感、语速、音高、语种等方面的无障碍转换;此外,它还支持包括粤语、葡萄牙语、法语在内的32种语言,甚至能够在同一段语音中自如地切换多种语言。
值得关注的是,Speech-02在性能上达到了顶尖水平,与此同时,其商业定价却仅为全球顶尖语音模型ElevenLabs的四分之一。凭借这一超凡的性能和极具竞争力的性价比,国产AI语音技术得以实现大规模的商业化应用和推广。
该模型的创新定价方案不仅显著降低了企业采纳尖端语音人工智能技术的成本,而且为智能客服、语音交互等众多领域带来了革命性的转变。目前,MiniMax已经在文旅导览、金融服务、语音助手、AI教育等多个应用服务领域崭露头角;同时,在AI玩具、教育学习机、汽车智能座舱等硬件场景中,也构建了完善的解决方案。此外,MiniMax还与国内外众多知名企业建立了深度合作关系,合作伙伴包括国内的声网、阅文集团旗下的起点读书、高途教育,以及香港电视台,还有海外的Hedra、Moescape AI、Dusmart等机构。
今年初,MiniMax推出了名为Speech-01的语音模型,该模型兼容17种语言及众多音色选择,迅速在北美、英国、澳大利亚、日韩、意大利、巴西等二十余个国家与地区展开了合作。
我们已经在海外助力众多内容创作者,他们借助门槛较低的语音工具,能够以个性化的声音灵活承接订单,为广告和短片提供配音服务,从而为零工经济注入活力。MiniMax海外生态负责人Linda在介绍时说,新推出的Speech-02产品能够自如应对32种语言的多种口音和情绪表达。我们深信,借助人工智能的力量,通过加大对小语种的支持力度,未来能够将多语言的声音以最纯正的当地口音传播至全球,确保每一种语言都能被听见,每一种文化都能得到理解。
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.