本文内容涉及一项研究工作,该研究由中国人民大学高瓴人工智能学院的宋睿华团队、李崇轩、许洪腾以及值得买科技AI团队联合完成。该研究的首位作者为王希华,他目前是人大高瓴学院的博士生,导师为宋睿华教授。王希华的研究领域聚焦于多模态生成技术,他此前曾提出一种名为TiVA的模型,该模型能够根据音频布局生成与视频同步的声音,相关研究成果已发表在MM 2024会议上。宋睿华的团队主要研究方向为多模态理解、生成与交互。
设想一下:仅需一张静态图像,系统便能够自主制作出一段包含动态画面与声音的短视频。在这段视频中,画面中的人物或物体将呈现出流畅的动作变化,并且同步发出相应的声音——例如,小鸡昂首啼鸣、手指轻触快门按键时伴随的“咔嚓”声。这正是“图像转有声视频”(Image-to-Sounding-Video, I2SV)技术所追求的效果。
近期,中国人民大学高瓴人工智能学院的研究团队以及值得买科技AI团队在CVPR 2025会议上公布了一项研究成果,他们首次提出了一种全新的技术框架,该框架能够直接从静态图像中生成与之同步的音视频内容。该框架的核心,即JointDiT(联合扩散变换器)设计,成功实现了从图像到动态视频以及声音的高品质融合生成。
为什么图像转有声视频是「AI 多模态生成」的新蓝海?
人类的感知世界的方式是多方面的。视觉和听觉作为我们感知的主要途径,往往以相互补充的形式共同塑造了完整的认知体验——树叶随风轻轻摇曳,伴随着呼啸的风声,海浪翻滚激起水花,伴随着潮水的巨大轰鸣声,这些视听结合的景象不仅丰富了我们的感官体验,同时也加深了我们对于物理世界内在规律的认识。
尽管生成模型在近期内已实现了在单一模态内容合成方面的显著进步,例如创造出高清晰度的视频图像或逼真的音频片段,然而,视觉与听觉这两种天生相互关联的模态,却长期被分割成两条各自独立的研究方向,缺少一个统一的建模框架。
近期,谷歌在其视频生成模型Veo 3中新增了同步音频的这项功能,此举使得视频制作技术真正进入了「有声化」的新纪元,因而成为了业界瞩目的焦点。这一趋势与之相呼应,本研究首次提出并全面阐释了图像转化为有声视频(Image-to-Sounding-Video,简称I2SV)这一全新任务:旨在使静态图像变得生动,并同步生成与之意义相符、时间一致的音频资料。
尽管现有技术能够单独生成图像视频或音频,但在将两者结合时,往往难以达到自然流畅的融合效果。常见的问题有语义上的不匹配和节奏上的不协调:例如,视频中的小狗并未开口,却响起了汪汪的叫声;亦或是狗狗的吠叫动作刚刚开始,声音却滞后了半拍,甚至显得不和谐。
图像生成有声视频的示例展示如下:上方为图生视频技术(SVD)与图生音频技术(Im2Wav)的结合应用,下方则是本研究的创新成果JointDiT。
因此,在多模态生成领域,亟待解决的核心难题是:如何以一张图片为基础,创造出既具有视觉动态感又保持听觉同步性的完整视听视频。
JointDiT:实现图像 → 同步音视频的联合生成
这项研究将图像转有声视频任务(I2SV)界定为:以静态图像作为输入依据,同时将其视为输出视频的首帧,进而创造出既符合语义又保持时序一致的「视频 + 音频」(有声视频)内容片段。
该方案引入了JointDiT这一创新架构,深入研究了如何通过结合两个功能卓越的单模态预训练扩散模型——包括一个视频生成器和另一个音频生成器——来构建一个统一的联合生成平台,进而实现多模态内容的协同生成。
其主要设计包括:
分解与重组预训练模型,实现联合生成框架
为了打造一个高效的图像到声音的视频转换模型,JointDiT采纳了“重组与协作”的全新理念:起初,研究者对预先训练的音频及视频扩散模型进行了层次性的拆分,将每一个模型细分为三个主要部分:输入模块(负责模态信息的嵌入)、专家模块(进行模态内部的理解与数据压缩)、输出模块(执行解码并生成内容)。之后,在两种模式的专业层级中融入了联合注意力机制以及前向模块,构建了核心的“联合模块”,以此达成音视频之间的深度互动。最终,JointDiT借助Joint Block的共享以及独立输入输出层的设计,不仅保持了处理不同模态差异的能力,而且实现了真正的多模态协同生成。这一创新技术使得从单一图片直接生成同步的音视频内容成为可能。
引入感知式联合注意力,精准建模跨模态互动
在传统方法中,将自注意力机制(Full Attention)应用于全序列(包括音视频序列)时,往往难以有效应对视频与音频在时间、空间、频率等维度上存在的异构性差异。JointDiT特别研发了一套感知式联合注意力机制,该机制采用针对不同模态的Query-Key-Value映射方法,能够对视频帧和音频序列进行细致的互动建模,从而显著增强了同步性和语义上的连贯性。
联合引导机制,兼顾条件控制与模态协同

传统的无分类器引导技术,其主要应用在于增强生成内容对特定条件的适应性,并有效遏制低质量输出的产生。然而,在多模态内容生成领域,仅仅依靠条件对齐这一手段,尚不能充分确保音视频内容之间实现深层次的协同配合。为此,JointDiT提出了联合无分类器引导(JointCFG)及其升级版JointCFG*。这一策略在维持图像条件引导对齐的基础上,进一步增强了模型对跨模态交互的重视。由此,不仅提高了音视频之间的语义一致性,也增强了时间同步性。此外,该策略不仅优化了生成效果,还显著提升了视频的动态表现力。
实验结果如何?高质量、高一致性!
研究团队在AVSync15、Landscape以及GreatestHits这三个标准数据集上进行了广泛的测试,他们从视频画质、音频音质、画面与声音的同步度以及语义内容的连贯性四个方面进行了全面而细致的评估。
实验结果表明,JointDiT在视频画质和音频自然度上均有显著进步,FVD、FAD等关键指标全面超越采用pipeline组合的多阶段方法。其音视频同步效果出色,在自动评估标准上与目前最顶尖的音频驱动视频生成模型相当。同时,语义匹配的准确性也有所提高,视频画面与声音的“内涵”更加相得益彰。
相较之下,像CogVideoX、HunyuanVideo这样的文本驱动型大型模型,尽管它们在内容生成方面表现出色,但它们必须借助图片生成文本描述作为桥梁,这一过程中不可避免地会有大量视觉信息丢失。因此,这些模型在最终画面与输入图片的匹配度上,比如FVD、IB-IV等指标,往往不及直接利用图像生成音视频的JointDiT模型。事实已经证明,通过直接将图像映射至音视频的统一处理流程,可以更高效地保留原始的视觉数据,从而生成的结果在真实性和一致性方面表现更佳。
在用户主观评分的测试环节,JointDiT 在「视频画质」、「音频音质」、「语义的一致性」、「画面与声音的同步度」以及「综合表现」这五个评价项目中均取得了第一名的成绩,其领先优势高达近20个百分点。
一张图生成动态有声视频,背后竟有这么多玄机?
我们以四个生成案例为例(输入图像均作为视频首帧):
在案例一中,画面展示的是一只手指轻轻触碰到正在吹奏的小号,而在生成的视频里,这根手指微微颤动,与此同时,悦耳的拨弦声同步播放,让人宛如置身于一场真实的演奏现场。
在案例2中,当图像中展示出用棍子击打物体的场景时,我们可以看到一只手紧握着棍子,正对准目标物体。JointDiT所生成的视频中,棍子准确无误地击中了目标,同时画面中同步传来了清脆的敲击声。更令人印象深刻的是,这个敲击声的质感会随着被敲击物体材质的不同而有所变化,听起来既真实又自然,让人感受到了强烈的打击感。
案例3中,静态图展示的是一颗保龄球正朝着瓶子滚动。而在生成视频中,保龄球沿着轨道前进,撞击瓶子时产生了「砰」的响声。当瓶子倒下时,还伴随着一系列的碰撞和落地声。整个过程中,视听效果同步,节奏流畅,细节描绘得十分丰富,给人一种强烈的现场感。
案例4:输入图像展示的是一片乌云遮天的天空。在JointDiT生成的视频里,一道闪电划破了长空,紧随其后的是一阵低沉而有力的雷鸣声。电光与雷声之间,保持着自然的时间差,仿佛在模拟现实世界的视听顺序,为观众带来了身临其境的沉浸式体验。
结语与展望
JointDiT的问世,标志着生成技术领域的一大进步,同时也揭示了人工智能向多模态统一建模方向发展的趋势。这项技术不仅能够在娱乐内容创作、影视制作等具体应用场景中大展身手,还为多模态通用模型乃至“世界模型”的研究开辟了新的路径和灵感。研究团队接下来打算对JointDiT进行拓展,涵盖图像、文本、音频以及视频这四种模态的联合建模,以此为基础,旨在打造一个更为通用和智能的多模态生成系统。
在将来,可能仅仅凭借一张图像或几行文字,我们便能全然领略它所蕴含的叙述。
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.