将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,检测远距离目标( 二 )


将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,检测远距离目标
文章图片

将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,检测远距离目标
文章图片

3D 场景的结果 。 上图:与检测到的车辆相对应的 3D 框以不同颜色显示;虚线框代表丢失的目标 。 底部:出于可视化目的 , 这些框显示在相应的摄像机图像中 。
检测远处的目标
4D-Net 的另一个优点是 , 它既利用了 RGB 提供的高分辨率 , 可以准确地检测到图像上的目标 , 又利用了点云数据提供的精确深度 。 因此 , 点云方法无法探测到的远距离目标可以被 4D-Net 探测到 。 这是由于相机数据的融合 , 能够探测到遥远的目标 , 并有效地将这一信息传播到网络的 3D 部分 , 以产生准确的探测 。
为了了解 4D-Net 带来的优势 , 谷歌进行了一系列消融研究 。 实验发现 , 如果至少有一个传感器输入是及时流的 , 则可以显着提高检测准确率 。 及时考虑两个传感器输入可以最大程度地提高性能 。
将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,检测远距离目标
文章图片

使用点云 (PC)、时间点云 (PC + T)、RGB 图像输入 (RGB) 和时间 RGB 图像 (RGB + T) 时 , 以平均精度 (AP) 测量 3D 目标检测的 4D-Net 性能 。
多流 4D-Net
由于 4D-Net 动态连接学习机制是通用的 , 因此谷歌并没有局限于仅将点云流与 RGB 视频流结合起来 。 实际上 , 谷歌发现提供一个高分辨率单图像流以及一个与 3D 点云流输入结合的低分辨率视频流非常划算 。 因此 , 谷歌在下图中展示了四流(four-stream)架构的示例 , 该架构比具有实时点云和图像的两流架构性能更好 。
动态连接学习选择特定的特征输入以连接在一起 。 依托多个输入流 , 4D-Net 必须学习多个目标特征表示之间的连接 , 这一点很好理解 , 因为算法没有改变并且只需要从输入中选择特定的特征 。 这是一个使用可微架构搜索的轻量级过程 , 可以发现模型架构内部新的连接 , 并进而高效地找到新的 4D-Net 模型
将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,检测远距离目标
文章图片

多流 4D-Net 架构包含一个实时 3D 点云流以及多个图像流(高分辨率单图像流、中分辨率单图像流和更低分辨率视频流图像) 。
谷歌展示了 4D-Net 是一种高效的目标检测方法 , 尤其适合检测远距离目标 。 研究者希望这项工作为未来的 4D 数据研究提供珍贵的资源 。
原文链接:
https://ai.googleblog.com/

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。