作者 / 轩辕商业评论编辑部
编辑 / 黄大路
设计 / 柴文静
编者按:
2025年6月13日,广州,在主题为“决断”的第十七届轩辕汽车蓝皮书论坛上,魔视智能创始人、CEO虞正华带来《AI模型驱动的智能驾驶》主题演讲。
成立于2015年的魔视智能始终坚持以人工智能模型为核心,驱动智能驾驶的行业普及。截至2024年,魔视智能完成了超过100万台的量产交付,提供的辅助驾驶系统在国内及全球获得了市场的认可。
虞正华在演讲中分享了魔视智能智驾技术发展路径——金字塔战略。
所谓金字塔战略,以基于结构化感知+规则规空算法为安全底座,在其上构建端到端及VLM模型,提升泛化能力、体验及长尾场景的安全性,金字塔顶端是以认知驱动的VLA视觉语言动作大模型,是解决长尾泛化问题及解决无尽数据依赖的终极范式。
展开剩余87%魔视智能已经在VLA智能体上做了充分的布局和投入。在700-2000TOPS的平台上,VLA大模型结合魔视新一代智驾中间件MROS一起做量产部署,并将在明年一季度投入实车路测中去。
魔视智能将坚持AI驱动智驾普及的使命,进入模型驱动的下一个10年。
以下是演讲内容实录。
感谢今天所有来参加这个论坛的嘉宾,我觉得对魔视来说也是一个很好的时间点。今年是魔视的10周年,行业应该对魔视也有一定的认知,因为我们一直在做AI,特别是从感知开始到规控,一直有自己的原创算法,也一直在持续迭代。
借用今天这个场合跟大家分享一下我们过去的一些积累,包括VLA模型上的工作以及未来的规划。
01
金字塔战略
10年来,魔视一直以AI模型为驱动来引领一代代产品技术迭代。去年我们已经有超过40多个车型的量产定点,并且完成超过百万台套的量产交付。未来我们也会持续以AI模型继续驱动智驾发展。
在过去10年时间里,我们从第一代到目前的第五代,已经有了持续的智驾技术迭代。
我们从2015年开始做深度学习,做感知,一直在这方面演化。到2020年,我们发布了一个4比特轻量化网络,效率提升了40%以上,这个我们都已经量产。2022—2024年,第四代,BEV+OCC网络部署到板端。
今年我们更多的工作是在VLM/VLA这个模型方面。我们认为这是未来的范式,我们在模型开发、数据强化学习,以及板端部署方面进行了比较多的工作。
我们的算法模型迭代是一个金字塔战略,金字塔的意思是说我有很好的基础,不断堆高塔尖。我们的基础还是基于结构化感知+可解释规划控制做安全底座,这是作为一个下限,作为一个保证。之上,构建端到端以及VLM模型,提升泛化能力,提升体验和场景的安全性。金字塔的顶端就是认知驱动的VLA视觉语言大模型,是解决长尾泛化问题及解决无尽数据依赖的“终极”范式。
这里有几个视频,是我们在不同金字塔层级所做的工作。左上就是单模态感知网络模型+后融合的方案,这是很多量产项目的基础。右上是BEV+OCC网络,这是模型输出的一个结果。右下是端到端+VLM模型输出。最后,左下就是VLA大模型,是基于认知模型的基础。这就是四个阶段模型的演化。
在这四个阶段模型迭代过程中,可以比较一下不同阶段算法的优缺点,特别是从规控的角度进一步阐述。
首先,最基础的经典的基于规则的规划器。下限守得比较好,上限也比较有限,它难以模仿复杂人类司机的行为,它的场景功能支持都比较有限,强依赖于结构化感知结果,但是在数据上,它只需要仿真环境里试验并调试回放数据即可,所以,数据获取的难度相对较低。
然后是两段式端到端规划模型,这里尤其指的是结构化感知作为输入的规划模型。两段式虽然也很依赖于感知性能,但因为它包含基于规则的优点,且它能够学到一部分类人的行为,它的核心点也是比较容易制作仿真数据进行强化学习。
最后就是一段式端到端模型,这是行业里面最关注的一种方法。这个方法的性能上限比较高,模仿人类行为,但是场景支持能力比较强,不强依赖于感知,但是对数据的要求就非常高,可解释性也比较低。所以,开发这样子的技术,需要从技术上有很多综合措施,包括仿真数据的合成、实车数据的模仿学习,以及包括强化学习的引入。
汇总一下,讲AI模型驱动,底层是两个驱动:一个是数据驱动,一个是认知驱动。
02
数据工厂
在数据方面,这是一个非常重要的环节,无论是哪一种AI模型,都对数据有强依赖。所以,对魔视而言,我们花了很大的力气建立自己的数据工厂。这是我们的核心能力。数据工厂有四大主要的组成部分,包括数据采集、数据治理、模型仿真、平台部署。
数据采集需要有多元的数据,包括自有车对量产的积累,以及生成合成的数据。
数据治理的工作包括大模型预标注、地图生成、4D标注、数据挖掘等。
训练完了以后,我们会进入到模型仿真。这里开发了整套仿真以及回放工具链,结合真实场景数据和虚拟的数据资产,以及生成式数据,搭建完整的仿真环境,以及基于世界模型仿真和强化学习环境。
最后就是在板端的部署,前面训练出的模型部署到不同算力的芯片,形成不同的量产的产品,从不同算力等级到不同功能等级的产品。这样一条数据流水线也是我们AI模型驱动的一个核心动力。
在数据方面,数据标注是一个很重要的环节,这里面讲一下4D数据标注的系统,包括自动标注算法,以及标注预览工具。
自动标注算法基于大模型进行预标,完成4D标注,地面上很多的交通要素我们都可以进行预标,包括车位、障碍物、地面元素等。
预览的工具,就是把4D标注工具直接导入预览,并且开放所有的标注结果,包括反投影到原图的标注结果,可以查看、检查、调整等,这样可以极大提高整个4D数据生产效率。在数据驱动时代,我们认为这套优质的数据生产工具是非常重要的。
除了标注之外,很重要的点就是数据挖掘,数据超级工厂在数据挖掘方面做了很多的工作,比如使用VLM大模型对场景数据进行挖掘。所以,场景中常见的,像车辆、行人、两轮车、三轮车、车道线等,都可以通过VLM模型进行挖掘。
另外还用了图像比对的方式来挖掘,通过以图搜图在海量的数据库挖掘失效的场景,进一步补充训练的数据,同时通过主动学习范式进行在线数据挖掘,通过综合手段提升算法的性能。
除了实车数据以外,合成仿真数据也是很重要的补充,能解决很多实车难以覆盖的泛化问题。3D资产库要素与真实数据进行合成,产生大量的边缘场景数据集,从而有针对性地提升模型的性能。
比如,我们对行泊这些场景进行3DGS场景重建及虚拟视角生成全新的视角数据,用来增强数据多样性。另外,我们可以通过4D数据和提示词,让扩散大模型产生指定的数据集。所以,不同的数据产生方式都对以AI模型迭代提供了高质量有针对性的数据。
这里是另外一方面,这是端到端合成仿真数据一些展示,在仿真数据重建基于3DGS场景重建,这是一个典型场景,同时可以用Carla这样子的工具进行端到端的仿真。在模型训练方面可以根据世界模型进行强化学习,这是非常重要的学习方法。
前面说了那么多的数据,大家也在关心,对数据这么依赖,无论是感知系统,还是端到端系统,我们都投入了大量的资源,以数据驱动的方式来提升模型的泛化能力。
这带来了两个疑问。一个是:我们对数据的需求到底有多少,是不是无底洞?数据持续迭代,边际成本是不是越来越昂贵?一个是:如果纯靠数据驱动端到端模型,是不是一个终极方案?如果说这个系统没有思考没有认知的能力,是不是它还是赶不上人类的司机?
03
认知驱动的智能体——VLA模型
在行业里面,VLA模型是大家非常期待的,因为VLA是更好的智驾模型范式,因为它是一个智能体,具备常识,有一定的决策思考能力,我们期待VLA可能接近甚至超越人类司机。
作为人类司机,我们开车并不是数据驱动,我们是认知驱动,所以,我们期望VLA模型有认知的能力。
这是我们公司的VLA架构图,包括视觉、语言、行为模块,同时借助世界模型和重建场景进行强化学习。泛化是通过一个好的VLA云端模型再加上一个小的板端VLA模型。在训练方法,无论云端和板端,都是基于各个模型预训练的结果,再通过有监督的微调,通过强化学习挖掘最终的能力。
讲了那么多,大家可以理解,魔视在AI模型驱动智驾方面做了非常多扎实的工作。大家能看到魔视在那么多车型上量产,我们今天揭秘的就是背后的算法。从量产角度,无论今天已经量产大量的泊车域控、行车域控,包括行泊一体的域控,都是基于我们算法的迭代的结果。
VLA这个模型新一代产品,我们也期望在更高的700—2000Tops算力平台上进一步迭代,并且在明年,我们也会在实车上做相应的部署。
谢谢大家!
发布于:北京市顶益所配资-国家允许配资的公司-股票配资资金-2024股票配资提示:文章来自网络,不代表本站观点。