机器之心专栏
机器之心编辑部
近日 , 计算机视觉顶会 CVPR 2022 公布了会议录取结果 , 美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)联合发表的论文被接收 。 该论文突破性地提出分布感知式单阶段模型 , 用于解决极具挑战性的多人 3D 人体姿态估计问题 。 该方法通过一次网络前向推理同时获取 3D 空间中人体位置信息以及相对应的关键点信息 , 从而简化了预测流程 , 提高了效率 。 此外 , 该方法有效地学习了人体关键点的真实分布 , 进而提升了基于回归框架的精度 。多人 3D 人体姿态估计是当前的一个热点研究课题 , 也具有广泛的应用潜力 。 在计算机视觉中 , 基于单张 RGB 图片的多人 3D 人体姿态估计问题通常通过自顶向下或是自底向上的两阶段方法来解决 , 然而两阶段的方法需忍受大量的冗余计算以及复杂的后处理 , 其低效率深受诟病 。 此外 , 已有方法缺少对人体姿态数据分布的认知 , 从而无法准确地求解从 2D 图片到 3D 位置这一病态问题 , 以上两点限制了已有方法在实际场景中的应用 。
美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)在 CVPR 2022 发表的论文 , 提出一种分布感知式单阶段模型 , 并利用这一模型从单张 RGB 图片中估计多个人在 3D 相机空间中的人体姿态 。
该方法将 3D 人体姿态表示为 2.5D 人体中心点和 3D 关键点偏移量 , 以适配图片空间的深度估计 , 同时这一表示将人体位置信息和对应的关键点信息进行了统一 , 从而使得单阶段多人 3D 姿态估计成为可能 。
文章图片
论文地址:https://arxiv.org/abs/2203.07697
此外 , 该方法在模型优化过程中对人体关键点的分布进行了学习 , 这为关键点位置的回归预测提供了重要的指导信息 , 进而提升了基于回归框架的精度 。 这一分布学习模块可以与姿态估计模块在训练过程中通过最大似然估计一起学习 , 在测试过程中该模块被移除 , 不会带来模型推理计算量的增加 。 为了降低人体关键点分布学习的难度 , 该方法创新性地提出了一种迭代更新的策略以逐渐逼近目标分布 。
该模型以全卷积的方式来实现 , 可以进行端到端的训练和测试 。 通过这样一种方式 , 该算法可以有效且精准地解决多人 3D 人体姿态估计问题 , 在取得和两阶段方法接近的精度的同时 , 也大大提升了速度 。
背景
多人 3D 人体姿态估计是计算机视觉中的经典问题 , 它被广泛应用于 AR/VR、游戏、运动分析、虚拟试衣等 。 近年来随着元宇宙概念的兴起 , 更是让这一技术备受关注 。 目前 , 通常采用两阶段方法来解决该问题:自顶向下方法 , 即先检测图片多个人体的位置 , 之后对检测到的每个人使用单人 3D 姿态估计模型来分别预测其姿态;自底向上方法 , 即先检测图片中所有人的 3D 关键点 , 之后通过相关性将这些关键点分配给对应的人体 。
尽管两阶段方法取得了良好的精度 , 但是需要通过冗余的计算和复杂的后处理来顺序性地获取人体位置信息和关键点位置信息 , 这使得速率通常难以满足实际场景的部署需求 , 因此多人 3D 姿态估计算法流程亟需简化 。
另一方面 , 在缺少数据分布先验知识的情况下 , 从单张 RGB 图片中估计 3D 关键点位置 , 特别是深度信息 , 是一个病态问题 。 这使得传统的应用于 2D 场景的单阶段模型无法直接向 3D 场景进行扩展 , 因此学习并获取 3D 关键点的数据分布是进行高精度多人 3D 人体姿态估计的关键所在 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
