记者 花子健
2024年12月举办的AI Talk活动中,理想汽车的创始人李想重点阐述了他对于理想汽车在人工智能时代下的未来发展愿景以及长远战略规划。
他提到,理想汽车的目标是转型为一家人工智能企业,其核心任务并非仅仅是将汽车智能化,而是实现人工智能在汽车领域的广泛应用。理想汽车的远大愿景是,借助人工智能技术,将现实世界与虚拟世界无缝连接,从而在有限的空间中创造出无限的可能,进而让人工智能的益处惠及千家万户。
他将实现理想汽车的这一宏伟目标划分为三个阶段,并且理想汽车依据这三个阶段的逐步发展,实施了分三步的策略,这一策略被视为理想汽车迈向人工智能时代的转型蓝图。
在AI Talk第二季中,李想深入探讨了关于人工智能的新见解,并阐述了这些见解如何与理想汽车在产品和技术方面的最新进展相结合。此外,他还就“人工智能”这一主题,对DeepSeek等新兴企业以及特斯拉、苹果等科技巨头进行了讨论。
他希望通过这次AI Talk活动,让外界更深入地认识理想汽车的内在精髓,以及企业价值观在社会层面的广泛影响。
辅助驾驶的十字路口
在接连发生多起令人震惊的事故之后,相关部门果断叫停了汽车制造商在辅助驾驶领域的激进宣传,而且部分人士更是强烈呼吁暂停辅助驾驶技术的推广。
李想将这段时光喻为“黎明前的暗夜”:他坚信曙光即将降临。然而,在此之前,必须先度过一段晦暗的时光。这暗夜之所以存在,正是因为它预示着黎明的到来。在他看来,这正是当前所处的这个特殊时期。
在此之前,理想汽车通过采用增程技术来应对电池续航能力有限以及电池原材料成本偏高的挑战;同时,随着纯电动车型所采用的5C技术,理想汽车也在积极应对纯电动汽车充电速度慢、等待时间较长的问题。
业界普遍认同,自动驾驶技术发展至不同阶段,L3级别代表的是受监督的智能驾驶,它并非L2级别辅助驾驶的简单延伸,而是向L4级别高度自动驾驶过渡的关键步骤。
辅助驾驶目前仅实现了部分特定功能,而自动驾驶则涉及到全面的能力提升。传统的L2级辅助驾驶系统基于上一代的自动驾驶技术,通过预先设定的条件来应对各种驾驶场景中的智能驾驶需求,但这样的设计并不能覆盖所有可能的极端情况。
理想汽车的应对策略在于参考人类驾驶技艺进阶的路径,通过人工智能技术途径,达成汽车驾驶的智能化目标。
AI工具的三个层级
李将人工智能技术划分为三个不同层次,即信息级、辅助级以及生产级工具。目前,绝大多数人仅将AI视为信息级工具,然而这类工具往往伴随着大量无用的信息、无效的成果以及错误的结论,其价值仅限于参考。当AI升级为辅助级工具时,它能够提高工作效率,例如目前市场上流行的L2至L2+级别的辅助驾驶系统,尽管如此,人类仍需介入其中。在不久的将来,一旦人工智能成为生产工具,它将具备独立执行专业任务的能力,并在此过程中显著提高工作效率和质量。
相应地,理想汽车的辅助驾驶功能将分为三个不同阶段进行发展,首先,自2021年开始,理想汽车便着手自主研发基于规则算法与高精度地图的辅助驾驶技术,这一技术特点与“昆虫动物智能”相仿。自2023年开始,理想汽车致力于研发,并在2024年正式推出端到端加视觉语言模型(VLM)的辅助驾驶技术,该技术已接近哺乳动物的智能水平。
端到端模型在解决复杂问题时有所不足,首先,它本质上是一个难以完全看透的“黑箱”,这在汽车和驾驶员体验中表现为“端味”。这实际上表明,端到端模型在理解复杂路况方面反应较慢,例如面对复杂的道路施工,传统的规则算法可能会遭遇碰撞,而端到端模型虽然能够应对,但其处理效率尚待提升,有时甚至可能引发车辆停驶。另一个难题在于它无法与人类进行交流,这便是为何目前端到端模型在运行时仍需人类驾驶员进行全程监控。
VLM视觉语言模型虽为开源,但在交通领域的应用能力较为有限。鉴于此,理想汽车辅助驾驶的第三阶段着重于VLA(视觉语言行动模型)的运用——此模型旨在使人工智能成为真正的驾驶员,成为交通行业的专业生产工具,并实现与人类司机相似的工作模式。

从端到端+VLM到VLA的进化
基于端到端的技术,VLA将步入“人类智能”的新阶段,它能够通过结合3D与2D视觉,全面洞察物理世界,这与VLM仅能解读2D图像的能力形成鲜明对比。此外,VLA装备了完备的脑系统,拥有语言处理、思维链推理等能力,不仅能够观察,还能理解并切实执行动作,其运作模式与人类的视觉系统和大脑高度契合。
VLA的训练过程被划分为预训练、后训练以及强化训练三个阶段,这一过程与人类学习驾驶技巧的步骤相仿。预训练过程类似于人类在物理世界和交通领域获取常识,这一过程涉及对海量高清的二维和三维视觉数据、与交通相关的语言语料,以及与物理世界相关的视觉与语言联合数据的训练。通过这种方式,我们能够在云端构建出视觉与语言的基础模型,并将其通过技术手段进行蒸馏处理,最终转化为能够在车载设备上运行的端侧模型。
训练后期,类比于人类在驾校学习驾驶,动作数据的融入——即对周边环境和自身驾驶行为的编码,使得VL基座演变为VLA司机大模型。得益于短链思维链推理能力,以及Diffusion扩散模型对其他车辆轨迹和环境的预测,VLA具备了实时响应的特性,并在复杂交通环境中展现出博弈的能力。
强化训练模拟了人类在实际社会中的驾驶实践,旨在提升VLA司机的模型在安全性、舒适性方面的表现,使其与人类的价值观保持一致,并最终实现驾驶技能超越人类水平的目标。强化训练分为两个阶段:首先,利用RLHF(即基于人类反馈的强化学习)技术,确保模型在安全对齐方面表现优异,使其能够遵循交通法规,并适应中国用户的驾驶偏好;其次,将纯强化学习模型置于全球模型中进行训练,以此增强驾驶的舒适性,减少碰撞风险,并继续遵守交通规则。经过一系列的预训练、后续训练以及强化训练,VLA司机的大规模模型便可以成功部署并在车载系统中运行。
VLA司机大模型以“司机智能体”这一产品形式出现,用户能够通过自然语言与司机智能体进行交流,无论对人类司机如何表达,都可以同样对司机智能体进行沟通。简单的指令由VLA端侧直接执行,而复杂的指令则先由云端VL基座模型进行解析,之后交由VLA进行处理。
至2024年年末,理想汽车成功搭建了一支逾百人的精英团队,该团队的核心任务是提升司机Agent的职业素养,他们如同专业培训师,致力于将一名普通的网约车驾驶员塑造为技艺高超、能力全面的资深司机。
为了克服VLA司机大模型底层端到端模型的黑盒难题,理想汽车采取了重建与生成两种策略,构筑了一个既真实又遵循物理法则的模型世界,涵盖了所有交通参与者和相关要素。依托这一世界模型所具备的仿真功能,VLA能够在模型世界中低成本、高精度地检验现实问题,从而提高问题解决的效率,并有效应对模型黑盒所带来的挑战。
最终,用户能够从三个不同角度对司机Agent进行评估:其专业技能、职业素养以及建立信任的能力。这些方面正是为了解决由端到端大模型主导的辅助驾驶系统所带来的诸多问题,从而在车辆与用户之间构建起坚实的信任关系。
巨额自研投入+对外合作学习
目前,理想汽车在年研发投入超过百亿的情况下,将近一半的资源被投入到人工智能领域。为此,公司已组建了四支专门的AI团队,这些团队分别专注于辅助驾驶、理想同学、智能商业以及智能工业等多个方向,致力于解决各自领域内的各类挑战。
在VLA项目中,理想汽车原先设定了目标,即在今年9月打造出一个出色的语言模型,并在此基础上继续深化训练。然而,回顾当下,我并不看好我们研发出的语言模型在性能上能超越DeepSeek。值得一提的是,DeepSeek的开源程度相当高。
谢炎,理想汽车的首席技术官,以及该品牌基座模型的主要负责人陈伟,均坚定地表示:“理想汽车理应站在巨人的肩膀之上,加快VLA中L(语言)模块的发展步伐。”这一观点甚至出乎李想本人的意料。
在人工智能战略小组中,我们持续进行着深入的探讨,我与谢炎之间也频繁交流,电话沟通不断。然而,我后来意识到,我们并未陷入纠结,毕竟无论遇到何种挑战,我们的共同追求始终是为用户带来最优质的产品与服务。李想补充道,得益于DeepSeek的开源,理想汽车在VLA研发上节省了9个月的时间,这一成果背后蕴含着丰厚的收益。
在DeepSeek开源项目的启发下,李想与谢炎均认同理想汽车有能力为社会作出贡献,因此他们决定将自研的整车操作系统——理想星环OS——进行开源。值得一提的是,理想汽车在这套操作系统的研发上投入了长达4年的时间。
5月8日,理想汽车以苹果式的独特风格推出了理想L系列智能焕新版本。苹果公司,这家李想时常提及的科技巨头,并非以领导人工智能领域而著称。李想强调,在人工智能时代,理想汽车亟需向苹果、特斯拉等企业学习,尤其是他们深厚的基本功和有效管理大规模企业的能力。
“在人工智能时代,基本功是不可跳跃的。”李想说。
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.