为了克服以上问题 , 该论文提出了一种分布感知式单阶段模型(Distribution-Aware Single-stage model, DAS)用于解决基于单张图片的多人 3D 人体姿态估计这一病态问题 。 DAS 模型将 3D 人体姿态表示为 2.5D 人体中心点和 3D 人体关键点偏移 , 这一表示有效地适配了基于 RGB 图片域的深度信息预测 。 同时 , 它也将人体位置信息和关键点位置信息进行了统一 , 从而使得基于单目图片的单阶段多人 3D 姿态估计方法成为可能 。
另外 , DAS 模型在优化过程中对 3D 关键点的分布进行学习 , 这为 3D 关键点的回归提供了极具价值的指导性信息 , 从而有效地提升了预测精度 。 此外 , 为了缓解关键点分布估计的难度 , DAS 模型采用了一种迭代更新策略以逐步逼近真实分布目标 , 通过这样一种方式 , DAS 模型可以高效且精准地从单目 RGB 图片中一次性获取多个人的 3D 人体姿态估计结果 。
单阶段多人 3D 姿态估计模型
【精准高效估计多人3D姿态,美图&北航分布感知式单阶段模型入选CVPR 2022】在实现上 , DAS 模型基于回归预测框架来构建 , 对于给定图片 , DAS 模型通过一次前向预测输出图片中所包含人物的 3D 人体姿态 。 DAS 模型将人体中心点表示为中心点置信度图和中心点坐标图两部分 , 如图 1 (a) 和 (b) 所示 ,
其中 , DAS 模型使用中心点置信度图来定位 2D 图片坐标系中人体投影中心点的位置 , 而使用中心点坐标图来预测 3D 相机坐标系内人体中心点的绝对位置 。 DAS 模型将人体关键点建模为关键点偏移图 , 如图 1 (c) 所示 。
文章图片
图 1:用于多人 3D 人体姿态估计的分布感知式单阶段模型流程图 。
DAS 模型将中心点置信度图建模为二值图 , 图中每个像素点表示人体中心点是否在该位置出现 , 如果出现则为 1 , 否则为 0 。 DAS 模型将中心点坐标图以稠密图的方式进行建模 , 图中每个像素点编码了出现在该位置的人物中心在 x、y 和 z 方向的坐标 。 关键点偏移图和中心点坐标图建模方式类似 , 图中每个像素点编码了出现在该位置的人体关键点相对于人体中心点在 x、y、z 方向的偏移量 。 DAS 模型可以在网络前向过程中以并行的方式输出以上三种信息图 , 从而避免了冗余计算 。
此外 , DAS 模型可以使用这三种信息图简单地重建出多个人的 3D 姿态 , 也避免了复杂的后处理过程 , 与两阶段方法相比 , 这样一种紧凑、简单的单阶段模型可以取得更优的效率 。
分布感知学习模型
对于回归预测框架的优化 , 已有工作多采用传统的 L1 或者 L2 损失函数 , 但研究发现这类监督训练实际上是在假设人体关键点的数据分布满足拉普拉斯分布或者高斯分布的前提下进行的模型优化 [12] 。 然而在实际场景中 , 人体关键点的真实分布极为复杂 , 以上简单的假设与真实分布相距甚远 。
与现有方法不同 , DAS 模型在优化过程中学习 3D 人体关键点分布的真实分布 , 指导关键点回归预测的过程 。 考虑到真实分布不可追踪的问题 , DAS 模型利用标准化流(Normalizing Flow)来达到对于模型预测结果概率估计的目标 , 以生成适合模型输出的分布 , 如图 2 所示 。
文章图片
图 2:标准化流 。
该分布感知模块可以同关键点预测模块一起在训练过程中通过最大似然估计的方法进行学习 , 完成学习之后 , 该分布感知模块会在预测过程中进行移除 , 这样一种分布感知式算法可以在不增加额外计算量的同时提升回归预测模型的精度 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
