在二月份的《AI 语音,真的有感情了?》这一选题中,我们选择了热门影视剧《甄嬛传》的片段,用以检验四款AI语音合成模型在情感传达方面的能力。经过测试,我们得出结论,这些AI语音模型在表现力上尚显不足,亟需进一步提升。
经过一段时间的等待,4月12日,MiniMax推出了语音生成模型Speech-02的最新版本。紧接着,在5月15日,这一系列中的Speech-02-HD模型同时登顶了Artificial Analysis Speech Arena和Hugging Face TTS Arena两大排行榜。在技术指标方面,Speech-02-HD不仅在错别字率、声音相似度等客观指标上超越了其他产品,而且在盲听测试的主观评价中,也展现出了相当出色的表现。
除此之外,在AI语音领域,自上次观察以来,又有不少新品成功获得了投资,例如,3月11日,Cartesia成功筹集了6400万美元的AI轮融资;紧接着,3月29日,Hume AI也顺利完成了5000万美元的融资。除了众多初创企业积极寻求资金支持,众多大型企业也加入了竞争行列,其中Amazon推出了Nova Sonic,Google则在Veo3中集成了功能强大的语音模型;据一线从业者评价,Veo3的语音合成效果令人叹为观止。
AI语音赛道图解|图片来源:腾讯云
技术日渐精进,人工智能语音技术正以更快的速度和更深的程度融入各类应用领域。因此,在本轮测试中,我们旨在检验当前语音模型在特定应用环境下的实际效果,故挑选了直播销售商品、语音陪伴服务、有声读物这三种典型的TTS应用场景。同时,通过参考模型排名、读者推荐等多种途径,我们最终确定了5款将要接受测试的语音模型。这些模型包括MiniMax公司推出的Speech-02-HD、阿里公司推出的CosyVoice2、杭州智声悦合公司自主研发的Dubbing X,以及ElevenLabs和Sesame等,我们对其进行了新一轮的测试。
测试方法:
基于前次测试的成果,我们对直播销售、语音陪伴以及有声读物等三个AI语音应用场景进行了拓展,并让AI针对这三个场景各自制作了一段音频。此测试主要评估AI在情感表达及场景匹配方面的表现。在制作测试语音的过程中,我依据既定的情感标准为其贴上标签(值得注意的是,在参与测试的模型中,ElevenLabs和Sesame两款模型不具备情感标签功能)。
SenseVoice具备识别语音中情绪的能力,这一功能在此作为客观测试的基准;图像来源:modelscope。
生成测试音频完成后,我们首先会采用阿里公司推出的开源语音识别工具SenseVoice(可在modelscope平台上找到)进行客观性检验,只要结果符合既定标准,即可判定为合格。紧接着,我们会邀请编辑部内的五位同仁进行主观评价,他们将对AI的表现进行1至5分的打分,只有当平均分达到3分以上,才能判定为及格。
在参与测试的产品中,MiniMax、DubbingX、ElevenLabs和Sesame均通过各自的官方网站制作了测试语音。而阿里的CosyVoice2,作为一款开源模型,我们则通过接入第三方平台“书梦”来使用其语音。
注2:鉴于ElevenLabs与Sesame在中文预测试中的表现不尽如人意,因此我们在有声书领域特别安排了英文测试,以专门评估这两款产品的实际表现。
中文有声书:配音垂类产品DubbingX表现更好
在先前对《甄嬛传》的测试中,各个模型在展现“高兴”情绪方面表现尚可,但在“愤怒”和“悲伤”这两种情绪的呈现上则显得不尽人意。鉴于此,在本次有声书场景的测试中,我们选取了《水浒传》中的两个著名片段——“林教头风雪山神庙”与“武松哭兄”——中情感表现最为强烈的段落,将其改编成有声书版本,用以检验各AI模型在“愤怒”与“悲伤”情绪表达上的实际能力。
愤怒情绪测试项目:高衙内,你欺人太甚了!就算我林冲是名教头,也绝不容忍你们这些宵小之辈的侮辱!我之所以忍耐,三分是因敬你权势;但若你胆敢再污蔑我的清白,威胁我的生命,今日,我便与你决一死战!
悲伤情绪测试项目:哥哥啊,你离世之时的惨状让人痛心疾首!你的一生饱受委屈,辛勤劳作,却最终落得个被人陷害而死的下场,连一个可以倾诉冤屈的地方都没有!我,武松,发誓必定要为你讨回公道!
注:分数标注红色的即为模型通过测试
观察结果表明,在愤怒情绪的测试中,这三款产品均顺利通过了客观评判,而在主观评价方面,只有CosyVoice2的平均得分未能达到三分。相比之下,海螺和DubbingX两款模型的表现则相当出色,作者认为它们相较于前次测试有了明显的提升。这两款模型成功地将林冲逐步升级的愤怒情感呈现出来,尽管与真实人类的表现仍有差距,但已经达到了可以使用的水平。读者们也可以自己听一听几款产品的表现,来给他们打打分。
在悲伤的氛围中,作者挑选了武松在兄长墓碑前所发表的感慨,其情感表达在前半部分倾向于哀伤,而在后半部分则融合了悲伤与愤怒,构成了一个情感丰富的段落。然而,在这一段落中,唯有 DubbingX 能够在该场景中达到及格的水准,而之前表现一直出色的 MiniMax 则连客观测试都无法通过。
DubbingX 在表现上相对突出,这或许归功于其在情绪处理上的深入改进。相较于其他产品,它们的情感标签通常仅限于快乐、悲伤、愤怒等较为粗略的情感类别。然而,DubbingX 不仅在大类情感分类中有所涉及,还能针对不同的小场景提供更为细致的情绪标签。特别是对于复合情感的场景,DubbingX 的表现尤为出色。
英文有声书:简单设定下,全军覆没

在英语语境下,我们选取了《基督山伯爵》这部作品中,主人公在得知自己遭受陷害并被投入监狱之后,内心充满愤怒,迫切渴望进行报复的那段独白。
十四载光阴——被困在那地牢之中,受尽寒冷与饥饿,被遗忘。我在黑暗中低声呼唤你的名字,梅尔塞德斯。我祈求公正。而现在,我将报复。绝不宽恕。绝不原谅。唯有正义——按照我的方式。
在有声书领域,这三款模型的表现不尽如人意,均未能展现出明显的愤怒情感和气势。在主观评测中,它们均未达到3分及格标准。此外,鉴于ElevenLabs和Sesame的官方网站均未提供“情绪标签”功能,AI的输出质量更是不尽人意,甚至未能通过客观评测。
在工程设计方面,ElevenLabs 只能通过几个“滑块”来调整声音的快慢、平稳性、相似度和风格等几个较为抽象的指标。尽管调整这些指标能在一定程度上提升声音的情感传达效果,但由于无法进行精确的数值调整,这导致了在我们进行的测试中,ElevenLabs 的表现相对不尽如人意。
作者发现了一位YouTube博主使用ElevenLabs技术制作的试听有声书音频,经过资深创作者的人工优化,该音频在英文有声书领域的表现显著提升。
直播带货:情感传达合格,场景适配拉胯
亲爱的姐妹们,这瓶产品绝对值得你们毫不犹豫地购买!今天在直播间,我们直接给出了超低的价格,仅需39元就能入手,而且还会赠送正装哦!不过要注意了,库存数量有限,如果你们犹豫不决,真的可能错过这个机会!
在直播带货的环节里,这三款模型在客观评估中均表现良好,然而在主观评价上却未能达标。有位“评委”指出,这三款语音产品在情感表达上颇为丰富,情绪传递方面尚可,但它们未能展现出现实中带货主播的节奏感和韵律感,AI的感召力过于突出,与直播场景的契合度不高,因此最终得到了不理想的评分。
AI陪伴场景:表现中规中矩
我明白此刻你心情沉重,失去至亲的确能让人感到痛苦至极。然而,请坚信你的感受是真挚且宝贵的,这反映出你对爱情的深切投入。随着时间的流逝,这份痛苦将逐渐减轻,正如乌云终将消散,阳光终将再次照耀你的生活。你并不孤单,我会一直陪伴在你身边。
在最后一个AI陪伴的环节,三款AI模型的表现相对更为出色,尽管仍存有AI特有的感觉,但它们成功传递出了温馨、正面的情绪,且能很好地融入特定情境,因此,众多评委为它们给出了较为满意的评分。
ToC仍欠火候,ToB开始爆发
与上回的测试相较,作者认为在数月的时间里,AI语音在情感表达方面虽有微小的提升,然而并不显著,只有那些情感表达较为单一、且正确标注了情感标签的测试片段,才能达到及格线以上,这可以被视为“基础题目,无需闭卷”。然而,一旦遇到那些无法仅凭简单情感标签来涵盖的复杂情境,或是如直播带货这类需要强烈情感渲染以促成转化的情况,AI语音的表现仍旧显得力不从心。
模型之外,工程化设计同样关键,以 DubbingX 为例,它专注于中文有声书配音领域,并能够提供更为丰富和细致的情感标签,因此在该特定场景下表现尤为出色(在中文有声书领域,DubbingX 的表现均达到了及格线以上)。与它们相比,ElevenLabs 和 Sesame 缺乏情感标签这一功能,导致AI的表现显得逊色许多。
在实施实际产品开发过程中,当应用AI语音接口时,如何确保输出的语音能够传达正确的情感?以ElevenLabs为例,这一操作在其他产品中也有相似之处,白鲸出海制作团队亦遵循此原则。
在现实操作层面,为了使人工智能语音技术能够贴合具体应用环境,开发者必须进行更深入的工程调整。为此,笔者特地请教了人工智能陪伴领域的前沿工作者。她指出,当产品接入API接口时,开发者需提供一些预设的常规情绪语音,随后用户输入信息,算法将首先识别用户的情感信息,并将其对应至特定情绪,转换成参数。最终,将“声音类型”与“情绪参数”合并后,反馈至API平台,并与预设语音结合,生成符合要求的语音输出。
注:本表只涉及几款AI语音产品官方宣布的技术合作
在商业对商业领域,人工智能语音生成技术已经广泛应用于众多相关行业,例如视频中展示的Maya语音助手,以及我们之前关注的BubblePal这款AI陪伴硬件。展望未来,人工智能语音生成技术必将变得更加智能,并拓展出更多实际应用场景,我们也将持续对其进行关注。
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.