多模态大型模型,它是实现具身智能与通用人工智能(AGI)两项关键技术的基石之一,正站在一个崭新的发展阶段。
AI和大模型技术的突破带来了文生图、图生视频等软件的层出不穷,像Sora这样的视频生成应用也应运而生,同时模型推理能力也在持续提升,为行业的发展提供了强大的动力。然而,在技术不断进步的过程中,行业也面临着发展的瓶颈,以及如何实现商业化的挑战,这些问题始终悬而未决。
智源研究院在“2025智源大会”上揭晓了“悟界”系列大型模型。据悉,“悟界”在提升模型推理性能的同时,还致力于将人工智能的认知范围从虚拟世界拓展至现实物理世界的感知与互动。智源研究院院长王仲远指出,“人工智能正迅速从数字领域迈向物理领域。”
王仲远表示:“我们坚信,人工智能的终极目标是造福全人类,助力人们从繁杂、单调、简单的工作中解脱出来,从而拥有更多时间来享受生活,感受这个世界的美好。同时,大模型技术不应局限于文本生成、语言对话等面向消费者的应用,而应持续拓展至现实世界,为各种实际场景提供服务。”
在此次的会议中,智源研究院的院长王仲远、Sand.ai公司的首席执行官曹越、智象未来的CEO梅涛、智谱AI的CEO张鹏以及钛媒体创始人万宁,就多模态大型模型的发展这一核心话题展开了深入的交流与探讨。
在技术难题方面,张鹏提出,数据版权的归属及获取成本问题可能会限制技术的进步;曹越指出,目前主流的Diffusion和Transformer训练方法存在不少问题,尤其是其可扩展性方面的不足;而梅涛则认为,生成内容的叙述能力、稳定性以及可控性是当前研究亟待解决的三大问题。
我们明确,大模型领域的“GPT时刻”尚未降临。AI实现商业化的关键节点究竟何在?未来大模型应着力攻克哪些技术突破?对此,张鹏等研究者们意见统一:需让模型在视觉“理解”与“生成”上实现统一,并达到“视频预测”的目标。唯有克服空间、时间和物理世界的交互难题,技术才有希望从虚拟领域拓展至现实世界。
正如同硬币的两面,技术的双刃剑特性同样显著。对于人工智能可能给人类带来的毁灭性影响与潜在机遇,王仲远持有积极看法。他观察到,在人类历史的长河中,技术变革从未间断。从电力革命到人工智能革命,诚然有些行业遭受了毁灭,有些职位被历史淘汰,“然而,人类社会始终在前进,人类创造的总物质财富持续增长。”王仲远强调,对于大众来说,紧随技术潮流的脚步尤为关键;一旦我们敞开心扉接受这种变革,便会有新的机遇涌现。
以下为万宁与王仲远、曹越、梅涛、张鹏之间的现场交流记录,内容经过适当删减,但核心意思保持不变:
大模型从“数字世界”迈入“物理世界”
万宁:在过去的一年中,你们觉得哪些技术性成就最令你们感到激动人心?
王仲远指出,过去一年,在大模型,尤其是大语言模型领域,取得了显著的进展,尤其是与强化学习相结合后。然而,目前大语言模型所依赖的文字语料已被广泛运用,这导致基础模型的提升遭遇了瓶颈。然而,经过后续的培训优化,以及推理过程中思维链条的逐步延长,模型在解答问题时能够模仿人类的慢速思考方式,其回答问题的精确度也实现了显著提高。这一成果,在过去一年中对于推动大模型智能化水平的提升,起到了至关重要的作用。
曹越指出,首先,显而易见,在以语言模型为核的发展路径中,近几年来取得的技术突破主要包含两个方面。一方面是预训练的规模扩展技术,另一方面则是O2和R2这类技术,其核心是测试时间扩展。此外,过去一年中,Sora技术的出现也给人留下了深刻的印象。它使众人认识到,视频的生成技术已经能够达到如此地步,能够制作出如此高质量的影像内容。
张鹏表示,最令他感到振奋的技术进展有两点。首先,模型在复杂推理和深度思考方面的能力有了显著增强。这让我感到十分惊奇,原因在于它颠覆了我们最初对大型模型的理解。我们以前认为它们更类似于人类大脑中的“系统1”,即直觉系统。它的现有能力已超越了“系统2”所能实现的推理范畴,这一成就具有里程碑式的意义。
第二件事,得益于推理能力的显著提升,模型在智能体方面的能力实现了显著的飞跃。大模型现在能够自主地制定和执行任务,同时根据环境变化对自身的任务流程进行相应的调整。这一能力的增强,为模型从虚拟的数字领域向真实的物理领域迈进提供了可能。
等待大模型的“GPT时刻”
万宁:目前所面临的技术瓶颈有哪些?
王仲远表示,若要探讨存在的难题,他认为瓶颈主要出现在原生多模态领域。在今日下午的活动中,众多CEO展示了他们在多模态技术方面的成果,特别是文生视频和文生图产品,然而,这些产品背后的技术大多依赖于DeepSeek Transformer等DiT架构。这些架构与大型语言模型的技术框架存在一定差异。
智源研究院正致力于原生多模态领域的研究工作,同时亦致力于探索多样化的多模态技术途径与架构。在此过程中,已取得一定成果,然而,尚未达到多模态领域的“GPT时刻”。对于未来,我们依旧充满期待。
曹越指出,尽管Sora已证明其具备生成高质量视频的能力,然而在技术领域,现行的Diffusion和Transformer训练方法仍面临诸多挑战,其中最关键的问题便是其扩展性严重不足。
当前所遭遇的挑战与2018年的BERT情形颇为相似。那时,众多研究者训练BERT时,遇到的主要障碍在于,当模型参数达到10B规模后,进一步增加参数量并不会带来性能的提升。因此,BERT最初展现出出色的生成能力,受到了广泛的关注,然而GPT这一后来者却超越了它——它能够训练至1000B的规模。在Diffusion和Transformer技术路径上,目前已有成果表明,制作时长为5秒的视频能够达到令人满意的效果。然而,随着模型规模的不断扩大,其性能提升将迅速遇到限制。
在视频处理领域,是否存在着能够进一步发展的解决方案呢?我们坚信,或许我们可以从自回归的思维方式中找到新的突破口。人们观看视频时是按照时间顺序进行的,那么为何在模型处理视频时不能采取同样的顺序呢?若我们将自回归的理念应用于视频生成领域,或许能够带来全新的感受和体验。目前视频的时长限制在5至8秒,若将自回归机制融入生成流程,便能够制作出任意长度的视频,并且能够实时调整生成效果。尽管视频生成技术已取得一项重要突破,但在技术方案和效果层面,仍有广阔的探索与改进余地。
张鹏提到,就视频领域而言,数据管理确实是一大难题。这主要是因为市场中的数据被广泛用于训练,由此引发了一系列问题,如版权纠纷和成本增加等,这些问题在一定程度上制约了技术发展的步伐。然而,我们应当以积极的态度去应对,严格遵守相关的法律法规。
梅涛表示,就视频生成技术而言,目前正处于GPT2至GPT3的发展阶段。然而,视频创作领域仍需解决三个关键问题。首先,视频的叙述性需得到保障,无论是5分钟还是1小时的时长,都应确保内容构成一个连贯的故事。其次,稳定性方面已有一定成果,但仍有提升空间。最后,还需解决视频生成的可控性问题。在读博期间,我特意前往北京电影学院修习了一门名为“镜头的语言”的课程。该课程对导演的要求极为严格,具体到每一秒应呈现何种镜头,人物应展现出何种表情,都有详尽的规定。然而,目前的大模型尚无法实现这些要求,这三个问题也是技术发展中的难题。我们正翘首以盼“GPT时刻”的降临。

未来发展的关键是实现“视频预测”
万宁:在AI领域,真正能突破商业化的关键点是什么?
万鹏表示,目前计算机视觉模型的实际应用已经较为成熟。随着大模型在视觉识别和泛化能力上的增强,它们有望迅速填补传统视觉模型在应用领域的空白。一旦市场需求存在,研发团队便能够降低成本,并在实现规模化应用后,步入商业化应用的门槛。然而,视频生成领域却是一个全新的挑战。视觉理解与视觉生成这两方面,目前尚无法实现彻底的融合。
梅涛表示,针对商业化“最后一公里”的解决之道,他提出了两种策略,这些策略适用于不同类型的企业。首先,若企业的底层模型构建得相当出色,那么它有可能突破至应用层面,例如OpenAI和Gemini这样的公司,它们利用流量和资源上的优势,在较短的时间内迅速积累了众多用户,并能够提供基础服务,进而实现商业化的目标。
这另一种策略是打造一个纵向的商业闭环。这需要我们透彻把握特定行业的详细业务流程,并基于实际需求,搭建一个切实可行的应用闭环。以我们从事的互动营销业务为例,起初我们以为可以简单销售工具,然而很快意识到工具的门槛较高、用户体验不佳,难以达到用户的期望。
于是,我们开始关注“内容销售”,认为只要提供内容,问题便能得以解决。然而,随之而来的是新的疑问:用户为何愿意为内容支付费用?这种内容究竟带来了何种价值?如何确定合理的价格?最终,我们意识到必须将焦点放在“结果导向”上。用户更看重的是内容是否真的带来了流量增长、转化率提升等可衡量的成效。这驱使我们进一步思考,从单纯提供内容转变为提供实际效果。
因此,我们意识到,即使大型模型的基础再坚固,若不能克服“商业化过程中的最后一环”,那么构建稳固的业务体系也将变得困难。因此,我们接下来的策略是:不仅要提供成果,更要打造一个生态系统。这包括与众多流量up主和MCN机构建立合作关系,建立完善的账号体系,从而形成一个完整的生态闭环。未来,我们甚至可能转变成为电商平台的角色。
无论是视频内容的创作还是大型模型的开发,只有实现完整的产业链闭环,才能构建起稳定且具备现金流的商业模式;否则,我们仅仅是一个单纯的技术供应商。
万宁:该如何在下一步的技术实践中,提升真实场景的仿真性?
王仲远指出,当前的多模态模型在理解方面主要针对的是静态图像。以询问机器人“你看到了什么?”为例,它可能会回答:“我观察到的是一个集会场所,那里聚集了众多人群,其中一些人正用手机进行拍照。”这样的描述反映的是一种客观存在的情形。
人类对多模态的认知,源自于对连续画面间关系的预测。例如,当我的手伸向水杯,旁人会预想我意在取水;若我不慎将杯子碰落至地面,人们则会预判水将洒落,若杯盖未盖,地面将因此被水浸湿。这便是人类对世界的认知方式,并非仅限于对单一图像的静态描述。
处理这一问题极具挑战,需实现技术路径的革新以及观念的更新。我们坚信,人工智能的未来发展必须攻克与空间、时间及物理世界交互的难题,并需具备对宏观与微观世界的深刻洞察。
曹越提出疑问:我们如何确认模型是否真正掌握了物理规律?以一个实例来说明,比如我轻轻触碰了水杯,接下来一秒的视频是否显示杯子落地,其下落过程是否遵循牛顿定律。即便模型未用语言表述,我们也能推断出它已领悟了物理规律。
这引发了我之前所提到的视频制作领域的一个核心议题——我们应如何寻找到一种具有广泛适用性的解决方案?实际上,这个方案便是所谓的“视频预测”,即通过分析先前的视频内容,来预测未来可能出现的场景。在这一过程中,我必须对之前的视频内容进行深入的理解,以便能够准确预测接下来视频可能出现的情况。
梅涛表示,张鹏之前提到过,“理解”与“生成”如何实现统一,这确实是个难题,他自己也尚未找到答案,仍在不断探索。近期,我们团队在思考的一个问题是,是否有可能将三维世界与二维视频技术融合,将理解与重建这两个过程整合在一起,这或许能成为一种更具实用性的解决方案。
拥抱变化,新的机会将随之诞生
万宁提到,众多行业里流传着一种观点,认为人工智能将彻底改变某个行业。在你看来,哪些行业可能会迎来类似于GPT那样的重大变革时刻呢?
张鹏指出,从根本上讲,大模型主要处理的是数据学习、知识浓缩以及表达的问题。无论是处理文本还是视频内容,它首先对的是人们面对面进行知识传递的情境产生显著影响。因此,诸如客服、教育和销售等职业,很可能会成为最早受到影响的领域。
技术不断进步,例如当前模型已能编写代码、撰写文章,并逐步取代部分白领岗位,诸如程序员、初级研究员等,这些变化均源于其根本能力的增强。目前,也有人预测,在未来的5至10年内,人类所知的所有疾病都将被人工智能所攻克,届时医生这一职业或许将不复存在。然而,这仅是一种较为激进的预测。我相信随着技术的演进,医疗服务行业仍然会有大量的机会。
我们同样会忧虑,若这些人被取代,将如何是好?在我看来,人工智能在破坏某些岗位的同时,亦能孕育出新的就业岗位和职业机遇。因此,无需过分担忧,以积极的心态去面对这一现象即可。
万宁提问:关于大模型与人工智能在未来的发展过程中可能引发的灾难性后果以及潜在的发展机会,您有何见解?智源研究院对此有何预测?
王仲远指出,历史上每当技术革命发生,总会伴随着类似的忧虑。从早期的电力变革到计算机技术的兴起,这些革命往往导致某些行业走向消亡,同时,也有新的职业岗位被载入史册。尽管如此,人类社会依旧不断进步,人类所创造的总物质财富持续增长。
大模型这一技术浪潮对社会变革的影响极为深远。尽管许多人可能觉得,如今大模型技术已发展两年,但商业化进程尚不明显,仍面临诸多挑战,基础模型的技术也在持续进步。然而,如果我们仔细观察,会发现如今讨论Agent的公司以及Agent领域的创业公司数量,相较于前两年已有显著增加。随着越来越多的人投身创业,将创意转化为实际产品,并融入人们的日常生活,这个时代便悄然而至。
我们常常对一年内技术发展的速度估计过高,而对五年内可能引发的巨大社会变革则估计不足。回顾历史,人类经历了不止一次的技术革命,我对此持乐观态度。更重要的是,每个人都应积极迎接技术潮流,学会运用大型模型。普通人可以主动去学习,在学习中思考,哪些事物有可能在将来,为自己的职业生涯和生活带来转变。只要我们愿意接受这些变化,新的机遇便会随之而来。
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.