VLA对于智驾到底有啥用

  • 邱锴俊
  • 2025-06-12 11:43:59
VLA对于智驾到底有啥用?对于我们这种文科生来说,直接学习确实太难,只能依靠别人的转述和投喂了。
前几天,元戎启行CEO周光受在2025年火山引擎Force原动力大会上,介绍了VLA模型的四大功能——空间语义理解、异形障碍物识别、文字类引导牌理解、语音控车。
这四个功能,他还打了个比方:分别是:透视眼、百事通、翻译官、应答灵。
下面我把元戎启行的官方通稿截取一下,括号是我本人的疑惑或者解读。
1 空间语义理解:驾驶“透视眼”
VLA模型能够全维度解构驾驶环境,精准破解桥洞通行、公交车遮挡视野(图1)等动静态驾驶盲区场景驾驶风险。
例如,在通过无红绿灯的路口时,VLA模型能提前识别到“注意横穿,减速慢行”的指示牌,即使公交车通行造成动态盲区,VLA也会结合公交车的动作去做出准确的决策。当公交车进行减速时,它会通过推理前方可能有行人穿行,并做出“立即减速、注意风险、谨慎通行”的决策。
(这个例子我不太理解。举的例子,还是文字识别,和后文的文字类引导牌理解是重复的呀。我自己瞎理解,VLA对空间语义的识别,应当体现在:由于训练数据包含了丰富的驾驶空间种类,以及在这些复杂、少见、甚至罕见,乃至几乎不可能(近乎不可能的可以模拟出来训练)空间中,司机、车辆的action数据也足够多,因此帮助了VLA破解复杂空间通行问题)
2异形障碍物识别:驾驶“百事通”
VLA模型是一个超级学霸,它通过互联网迅速获取知识并转换成自己的经验,有自己的驾驶“知识库”,对驾驶过程中出现的各类障碍物了如指掌,准确判断潜在危险因素,行驶更安全。例如,VLA模型能够识别“变形”的超载小货车(图2),结合实际路况,执行减速绕行或靠边驾驶。
(这个好像并没有什么突出的。此前的任何一个模型,都说自己能迅速学习各种异形,如第一个功能,我认为关键是,识别+行动,甚至不识别,但是行动足够准确,也挺好啊。
岔开去说,原来行业内讲的OCC:占用网络的逻辑,我觉得非常好啊——我不需要识别你是啥,我只要知道我能不能过就行)
3 文字引导牌理解:驾驶“翻译官”
搭载VLA模型的AI 汽车不仅能 “看见” 道路标识,更能 “读懂” 文字背后的通行规则,解析复杂路况里蕴含的路况信息,让复杂路况决策如 “开卷考试” 般从容。面对左转待行区(图3)、可变车道、潮汐车道等 “动态规则路段”,VLA模型能够读懂字符与图标的含义,高效匹配实时路况。在多车道复杂路口选道直行的场景中,能够准确识别车辆前方的文字及图案标识牌,从左转右转混杂的路口准确找到左转车道,并执行操作。
(这个说法,和理想汽车讲的VLM的“故事”一样。但我感觉,理想VLM的问题是,并不能读懂全部。以及经常容易误读。)
4 语音交互控车:驾驶“应答灵”(图4)
通过VLA模型,AI汽车可以与用户高效交流,根据语音指令做出对应的驾驶决策,随叫随应,交互更拟人,体验更舒适。并且当用户意愿与导航信息相冲突时,VLA模型会优先采纳用户意愿。
(这个和目前理想汽车已经给部分人测试的一样。不过,它的理解成功率、执行反馈速度等等,甚至会不会“听错”的现象——我们都遇到过,没有说激活词,语音助手被激活的情况——一旦听错了,执行了一个危险驾驶指令,那怎么办?)
(当然,以上是我这个文科生的理解,肯定还需要继续学习,才能跟得上周光等同学思路)
元戎启行还表示,元戎启行已完成VLA模型的真实道路测试,预计今年将有超5款搭载元戎启行VLA模型的AI汽车陆续推入市场。其中,VLA模型支持激光雷达方案与纯视觉方案,将率先搭载在NVIDIA Drive Thor芯片上,后续元戎启行还将通过技术优化,让VLA模型可以适配更多芯片平台。
元戎启行这个公司其他不说,在技术架构上,确实是冲在前沿的。
VLA对于智驾到底有啥用VLA对于智驾到底有啥用VLA对于智驾到底有啥用VLA对于智驾到底有啥用