红足1世手 红足1世手 红足1世手

谷歌中国工程师提出颠覆性算法模型,Waymo实测可提升预测精度

“接下来的几秒钟,周围的车辆和行人会做什么?” 要实现安全的自动驾驶,这是必须回答的关键问题,也是自动驾驶领域的行为预测问题。

自动驾驶公司 Chris Urmson 去年接受采访时表示,感知和预测能力是关键。如果有一个模型可以预测接下来5秒内会发生什么,将大大加速自动驾驶的发展。

行为预测的难点在于周围行人、车辆和各种规则之外的行为的不确定性。这些情况很难有把握地预测,只有通过训练数据分析各种行为的可能性,才能达到更合理的预测效果。另一个难点是盲点和遮挡的问题。

面对这种情况,人类驾驶员通常会根据自己的驾驶经验对周围信息产生预期。这个实证练习表明,行为预测是基于对环境的认识和理解。

对此,来自Waymo和谷歌的中国工程师团队提出了新模型VectorNet。

在这个模型中,团队首次提出了一种抽象周围环境信息的方法:使用向量(Vector)来简化地图信息和移动物体的表达。有减少数据量和计算量的效果。

飞利浦公司领导力模型建立_建立有限元计算模型_预测模型建立

预测模型建立_飞利浦公司领导力模型建立_建立有限元计算模型

该模型在向量化的基础上,增加了所有向量之间的语义关系,使机器(自动驾驶车辆)不仅可以看到环境信息,还可以进一步理解环境中不同元素之间的关系。在自动驾驶的背景下,了解元素之间的关系有助于行为预测。

在实际测试中,该模型的行为预测准确率较现有方法提升近20%,同时内存占用和计算量降低约80%。

目前,该论文已被计算机视觉领域三大国际顶级会议之一的CVPR录用,而Waymo也在其博文中明确表示,这项技术提高了其行为预测的准确性。

抽象地“认识”世界

正如 Waymo 在博客中指出的那样,这项研究的突破性意义在于,它是首次使用向量来抽象地表达世界。

以无人车为例,周围的环境信息大致可以分为两类。一是地图特征,包括车道线、斑马线、红绿灯、限速标志、停车标志等道路固有元素;第二类是无人驾驶车辆周围物体的轨迹。

VectorNet论文中提到,在用向量表示的方法中,向量本身可以输入各种信息。其中包括: 1. 向量的起始位置;2.向量的结束位置;3、矢量对应的道路元素,如车道线、红色路灯等;4.向量对应的元素的属性,比如限速标志要求的速度大小,红绿灯会表示车辆的前进和停止。

预测模型建立_飞利浦公司领导力模型建立_建立有限元计算模型

飞利浦公司领导力模型建立_建立有限元计算模型_预测模型建立

这四种信息对应不同的信息和功能。当收集到这些信息后,工程师可以通过这种向量的方法将整个周围环境抽象成许多向量的组合,实现在机器中对周围环境的捕捉和重构。

据了解,为了表达周围环境的信息和物体,业界以往普遍的做法是将车道线等地图信息和车辆等移动物体渲染(render)在光栅图形(Raster graphics)上,然后通过卷积神经网络(CNN)进行建模,进而实现行为预测等后续操作。

但缺点是将对象渲染成图片是一个计算量非常大的过程。另外,原机只需要表达少量的周围物体,本身数据量很小,但渲染成图片后,数据量大幅增加。

因此,可以说传统的将物体渲染到图片上的方法在时间和空间上是一种低效的方式。

此外,卷积神经网络在预测自动驾驶行为方面存在根本局限性。由于行为预测通常需要捕捉长距离道路的几何特征,因此卷积神经网络不适用于长距离道路信息。

卷积神经网络依赖于3×3、5×5等卷积核(kernels)进行计算,这意味着这种方法可以很好地捕获局部环境信息,但车道线等长条状环境信息往往贯穿整个图片,所以一个小的卷积核没有足够的感受野来捕捉整条车道线的几何特征。

预测模型建立_建立有限元计算模型_飞利浦公司领导力模型建立

论文中提到卷积感受野对预测质量至关重要。测试表明,更大的卷积核可以提高无人车行为预测的结果,但代价也很大:计算成本会进一步增加。

在VectorNet模型的方法下,不需要将环境信息渲染成图片,而是用抽象和简化的矢量形式来表达。这样一来,模型和数据量都大大减少,模型的计算速度可以比卷积神经网络更快。震级。

因此,VectorNet在实际应用中具有很强的实用性,可以提高Waymo自动驾驶测试的行为预测精度。

一位业内人士表示,“我认为过去学术界更多的工作都放在了预测模型上预测模型建立,但是这些工作忽略了一个基本问题——目前的输入表示还没有做好。现在大家都是通过渲染+的使用卷积神经网络来表示输入,并在此基础上使用不同的预测模型来预测轨迹,这就导致了当输入表示本身还是有很大问题的时候,预测模型的设计也是很难说。有效。”

该声明还强调,该模型最大的贡献是提出了“如何表示地图以及如何使用神经网络学习地图内容”的新模型。

让机器“读懂”这个世界

对世界的抽象表达只是VectorNet模型的第一步。有了矢量图之后,更容易理解不同元素之间的关系,学习元素之间的语义信息。最终实现机器学习从“看世界”到“懂世界”。

建立有限元计算模型_飞利浦公司领导力模型建立_预测模型建立

以前,卷积神经网络擅长编码位置关系,但难以学习多个特征之间的联系。

相比之下,图神经网络(Graph Neural Network)关注的是连接关系,而不是空间位置关系。在网络结构中,普通的图神经网络非常擅长学习线和节点之间的语义关系,但是无法学习节点之间的位置关系,这也是图神经网络最大的问题。

对于自动驾驶所依赖的地图信息,位置信息和周围元素之间的语义信息都很重要。一方面,需要准确表达车辆、车道线、红绿灯等要素的位置信息;同时,在复杂的交通场景中,车辆和其他物体的运动状态受到红绿灯、道路交通法规等多种因素的影响。周围物体的运动也会影响车辆的行驶决策,这就是元素之间的语义关系。

为了更好地预测周围车辆的行为,理解语义信息至关重要。

飞利浦公司领导力模型建立_建立有限元计算模型_预测模型建立

在用向量表达周围信息的基础上,团队提出了层次图神经网络(Herarchical Graph Neural Network),在所有向量之间建立语义联系,从而同时将地图上所有元素的位置信息放入模型中,元素之间的语义信息。

这样做相当于在前期人为地告诉模型,周围所有的元素都可能影响车辆的运动行为决策。在后续的学习中,模型可以自动学习到众多元素中哪些元素会影响车辆的行驶,以及不同元素之间的影响程度。

预测模型建立_建立有限元计算模型_飞利浦公司领导力模型建立

据Waymo在博客中介绍,与目前广泛使用的ResNet相比,VectorNet在预测准确率上提升了18%。更重要的是,它在进行行为预测时只占用ResNet 29%的内存,计算量仅为后者的20%。

建立有限元计算模型_预测模型建立_飞利浦公司领导力模型建立

图 | 测试结果对比

此外,对周围环境理解的加深也可以让机器在学习中获得类似于人类驾驶员的体验,学习不同元素之间的语义关系可以对周围环境可能发生的事情进行推断。例如,当路边的停车标志不小心被挡住时,人类司机可以根据以往的经验猜测标志的内容。在VectorNet的训练中,随机遮挡一些地图特征可以进一步提高VectorNet的预测能力。根据以往的学习经验,可以更好地推测缺失的地图信息,最终在必要时及时做出反应。

事实上,在后续的训练中,VectorNet已经通过学习形成了一套“注意力机制”。论文中给出的例子表明,当自动驾驶车辆在移动和变道时,机器已经识别出当前车道和目标车道。以上信息更需要注意。这说明模型对周围的环境信息有了更进一步的“理解”,进而表明了模型的可解释性。

预测模型建立_飞利浦公司领导力模型建立_建立有限元计算模型

图 | 论文作者团队,从左到右分别是赵星、孙辰、高继洋

该论文的作者团队来自谷歌和 Waymo。其中,高继洋现任Waymo高级软件工程师,本科毕业于清华大学,2018年获得南加州大学电气工程博士学位;赵星毕业于浙江大学,获学士学位,后获得麻省理工学院硕士和博士学位,目前在Waymo担任研究员;孙晨也曾就读于清华大学本科预测模型建立,后毕业于南加州大学,获博士学位。2015年,目前在谷歌担任研究员。