VLA对于智驾到底有啥用

邱锴俊
2025-06-12 11:43:59

VLA对于智驾到底有啥用？对于我们这种文科生来说，直接学习确实太难，只能依靠别人的转述和投喂了。
前几天，元戎启行CEO周光受在2025年火山引擎Force原动力大会上，介绍了VLA模型的四大功能——空间语义理解、异形障碍物识别、文字类引导牌理解、语音控车。
这四个功能，他还打了个比方：分别是：透视眼、百事通、翻译官、应答灵。
下面我把元戎启行的官方通稿截取一下，括号是我本人的疑惑或者解读。
1 空间语义理解：驾驶“透视眼”
VLA模型能够全维度解构驾驶环境，精准破解桥洞通行、公交车遮挡视野（图1）等动静态驾驶盲区场景驾驶风险。
例如，在通过无红绿灯的路口时，VLA模型能提前识别到“注意横穿，减速慢行”的指示牌，即使公交车通行造成动态盲区，VLA也会结合公交车的动作去做出准确的决策。当公交车进行减速时，它会通过推理前方可能有行人穿行，并做出“立即减速、注意风险、谨慎通行”的决策。
（这个例子我不太理解。举的例子，还是文字识别，和后文的文字类引导牌理解是重复的呀。我自己瞎理解，VLA对空间语义的识别，应当体现在：由于训练数据包含了丰富的驾驶空间种类，以及在这些复杂、少见、甚至罕见，乃至几乎不可能（近乎不可能的可以模拟出来训练）空间中，司机、车辆的action数据也足够多，因此帮助了VLA破解复杂空间通行问题）
2异形障碍物识别：驾驶“百事通”
VLA模型是一个超级学霸，它通过互联网迅速获取知识并转换成自己的经验，有自己的驾驶“知识库”，对驾驶过程中出现的各类障碍物了如指掌，准确判断潜在危险因素，行驶更安全。例如，VLA模型能够识别“变形”的超载小货车（图2），结合实际路况，执行减速绕行或靠边驾驶。
（这个好像并没有什么突出的。此前的任何一个模型，都说自己能迅速学习各种异形，如第一个功能，我认为关键是，识别+行动，甚至不识别，但是行动足够准确，也挺好啊。
岔开去说，原来行业内讲的OCC：占用网络的逻辑，我觉得非常好啊——我不需要识别你是啥，我只要知道我能不能过就行）
3 文字引导牌理解：驾驶“翻译官”
搭载VLA模型的AI 汽车不仅能 “看见” 道路标识，更能 “读懂” 文字背后的通行规则，解析复杂路况里蕴含的路况信息，让复杂路况决策如 “开卷考试” 般从容。面对左转待行区（图3）、可变车道、潮汐车道等 “动态规则路段”，VLA模型能够读懂字符与图标的含义，高效匹配实时路况。在多车道复杂路口选道直行的场景中，能够准确识别车辆前方的文字及图案标识牌，从左转右转混杂的路口准确找到左转车道，并执行操作。
（这个说法，和理想汽车讲的VLM的“故事”一样。但我感觉，理想VLM的问题是，并不能读懂全部。以及经常容易误读。）
4 语音交互控车：驾驶“应答灵”（图4）
通过VLA模型，AI汽车可以与用户高效交流，根据语音指令做出对应的驾驶决策，随叫随应，交互更拟人，体验更舒适。并且当用户意愿与导航信息相冲突时，VLA模型会优先采纳用户意愿。
（这个和目前理想汽车已经给部分人测试的一样。不过，它的理解成功率、执行反馈速度等等，甚至会不会“听错”的现象——我们都遇到过，没有说激活词，语音助手被激活的情况——一旦听错了，执行了一个危险驾驶指令，那怎么办？）
（当然，以上是我这个文科生的理解，肯定还需要继续学习，才能跟得上周光等同学思路）
元戎启行还表示，元戎启行已完成VLA模型的真实道路测试，预计今年将有超5款搭载元戎启行VLA模型的AI汽车陆续推入市场。其中，VLA模型支持激光雷达方案与纯视觉方案，将率先搭载在NVIDIA Drive Thor芯片上，后续元戎启行还将通过技术优化，让VLA模型可以适配更多芯片平台。
元戎启行这个公司其他不说，在技术架构上，确实是冲在前沿的。