realy：ECCV 2022 | 清华&腾讯AI Lab提出REALY：重新思考3D人脸重建的评估方法

2024-05-07 01:51:55 0 0

论文标题：

REALY: Rethinking the Evaluation of 3D Face Reconstruction

论文作者：

Zenghao Chai*, Haoxian Zhang*, Jing Ren, Di Kang, Zhengzhuo Xu, Xuefei Zhe, Chun Yuan, Linchao Bao

论文链接：

https://arxiv.org/abs/2203.09729

代码链接：

https://github.com/czh-98/REALY

项目网站：

https://www.realy3dface.com/

简介

3D 人脸重建历经多年发展，不同的重建方案层出不穷，然而对于不同方法重建结果的定量评价却存在明显的问题和缺陷，即客观指标与人的主观感受难以相符。

回顾先前的 3D 人脸重建评价方案，基于 3D 顶点的评价流程通常借助关键点进行 scale 和 pose 的预对齐，并通过 Iterative Closest Point (ICP) 算法进行微调使得 predicted mesh 和 ground-truth scan 对齐，再通过两者的最近邻点建立顶点的对应关系，并计算这组对应关系的 NMSE/RMSE 作为指标。

本文首先分析这样的评价流程存在的问题，揭示了先前的评价方案无法与主观评价相吻合的重要原因：即全局的刚性对齐会受到脸部局部区域重建质量的影响，并且根据单方向距离（最近邻点）建立的对应关系无法保证顶点之间语义信息的一致性。所以我们构建了 REALY benchmark，设计了新的 3D 人脸重建评价方案，并对先前的模型和 3DMM 进行了重新的评价，验证了我们的评价流程的合理性。

此外，在构建新的 benchmark 的过程中，我们通过整合约 2000 个高质量的人脸 scan 数据，进行拓扑结构的统一，从而构建了一个新的具有高表达能力的 3DMM，其拓扑结构、基的维度都要优于先前的 3DMM，并在 RGB-(D) Fitting 的比较中证明其表达能力和重建效果。

论文动机

先前的评价方案存在以下两个主要问题。

1. ICP 对齐过程对局部区域的变化比较敏感。直观而言，对于两个完全重合的 3D mesh，如果我们只对 predicted mesh 的鼻子区域进行修改，理想状况下，两个 mesh 对齐结果应该如中间所示，因为其他区域在改变前后与 ground-truth 是完全重合的，两者的误差应该主要集中在鼻子区域；而根据以往的评价流程，全局对齐操作则会由于鼻子区域的变化，导致对齐后 mesh 整体的位置发生偏移而带来误差的放大。对此，本文将人脸的评估分为四个区域，分别对每一个区域进行对齐、评估，而不考虑其他区域的影响。

2. 单向的最近邻点建立的对应关系容易导致语义信息的不一致。如图所示，对于 predicted mesh 上的某一点 x，在计算误差时需要找到 ground-truth scan 上的对应点，若通过点到平面的最近距离建立对应关系，则可能为 y1。这时，虽然 y1 是 x 距离最近的点，然而他们在语义信息上没有关联性，与嘴角的点 x 相关联的应该是 y2，然而 y2 不会是 x 所对应的最近点。

在这样的情况下，虽然计算得到的误差较小，但由于对应点之间的语义信息并不一致，因此计算得到的误差并不靠谱，较小的误差并不能表明较大的相似度。对此我们提出使用一步额外反方向非刚性对齐，并且其中增加了包含有语义信息的关键点损失，从而得到语义上更加一致的对应关系。

REALY

为了解决上述两个问题，我们首先构建了一个新的 benchmark，包含 100 个 2D 图片-3D scan 对，其中每个 scan 渲染了 5 个不同视角下（包含 1 个正脸和 4 个侧脸）的 RGB 图片及深度图片；对于每个 3D scan，我们都得到了语义信息一致的 68 个关键点以及不同脸部区域的 mask，并在此基础上首次实现了 3D 人脸在不同区域上的细粒度评价。我们的 benchmark 的部分数据如下图所示。

数据集的构建过程借助 256 个关键点进行对齐和转拓扑，确保了统一拓扑的 mesh 的质量，进而保证了不同 id 的人脸区域的 mask 以及关键点的一致性。

新的评价流程

在 REALY 的基础上，我们提出一个新的评价流程避免先前评价流程的问题，具体而言，我们的评价流程包含如下两个步骤：

1. 局部区域的对齐：考虑到不同区域的重建质量会影响全局的对齐结果，由于我们的 benchmark 得到了不同脸部区域的 mask，因此我们可以借助这个信息将 predicted mesh 对齐到 ground-truth scan 的特定区域，在 error 计算时只计算 ground-truth scan 上的特定区域与 predicted mesh 之间的误差，而不考虑脸部其他区域对于对齐结果以及误差计算的影响。

2. 对应关系的建立：在局部对齐的基础上，我们需要建立 ground-truth scan 某一区域上的每一个点与 predicted mesh 之间的对应点并计算两者的误差。考虑到先前基于最近点的方式存在的问题，我们提出一个新的对应关系的建立方法，提高了关键点语义信息的一致性。

具体而言，我们首先通过最近点建立初步的对应关系；随后借助 non-rigid ICP 将 ground-truth scan 某一区域变形到 predicted mesh 上，由于变形后的区域与 predicted mesh 已经贴合，因为在变形过程中考虑了具备语义信息的关键点损失，所以这时的对应关系相比于原始的最近点的对应关系具有更好的语义关系的一致性（如，图 3 中脸部关键点的一致性），从而我们对初始的对应关系进行更新；最后，由于变形前后的拓扑形状的一致性，我们能够借助更新后的对应关系计算原始的 ground-truth scan 区域与局部对齐的 mesh 之间的最终误差。

通过本文提出的评价流程，我们能够建立语义信息更一致的对应关系，从而提升最终评价结果的可靠性。直观而言，如图所示，对于 ground-truth scan 嘴部区域的关键点，我们分别比较了 predicted mesh 使用先前的对齐方法 (gICP)，以及本文提出的基于区域的对齐方法 (rICP) 以及基于形变的关键点更新策略 (bICP) 在 ground-truth scan 上找到的对应点与真实的嘴部关键点的差异，可以发现，我们的方法建立的关键点与真实的关键点更加接近，因此这时的误差最能体现真实的相似性。

新的人脸3DMM：HIFI3D++

在构建 benchmark 的过程中，我们对于一些高质量的人脸数据 (Headspace, FaceScape, HIFI3D) 进行了拓扑结构的统一，得到了约 2000 个不同性别、年龄、种族的人脸 mesh，在此基础上，我们构建了一个全头人脸 3DMM 并命名为 HIFI3D++，不仅包含脸部区域，还包含脖子、眼球、口腔，不同拓扑结构的比较如图 1 所示。

表 1 统计了开源的 3DMM 与 HIFI3D++ 的基本信息，图 9 则显示了不同 3DMM 的 variation，我们的 RGB(-D) Fitting 实验也证明了 HIFI3D++ 在表达能力上优于先前的 3DMM。

实验

6.1 评价方案有效性的证明

我们首先在 toy 数据上证明我们的评价流程相较于先前的方法的优越性。通过替换一组统一拓扑人脸的不同区域，采用不同的评价流程进行对齐和对应关系的建立，比较了不同评价流程 i) 由于对齐导致的误差以及 ii) 建立的对应点与 ground-truth 真实对应点之间的误差，结果如图 4 和表 2、3 所示。

从图 4 来看，全局的对齐策略（右图）由于局部区域的改变容易导致全局误差的变化，而我们的对齐策略则只聚焦于特定区域（右图），其中对角线的 error map 表明误差较大的区域，而非对角线的 error map 的误差较小，对应没有发生变化的区域。

从表 2 来看，我们的对齐结果通过 ground-truth 的对应点计算得到的误差与真实的误差更为接近，而全局的对齐策略则导致误差与真实误差不匹配。从表 3 来看，我们的对应点计算策略带来的误差要显著小于全局对齐后最近点获得的对应点。实验结果表明，我们的评价流程不仅能够聚焦到脸部区域有差异的部分（图 4 和表 2 的对角线），并且我们的对应关系建立更加准确（表 3）。

6.2 不同方法在REALY benchmark上的表现

我们对比了先前的评价流程与我们提出的评价流程在 REALY benchmark 上的表现。对于先前的评价方法，我们从两个方向（即 ground-truth scan 的每个点与 predicted mesh 建立对应关系，以及 predicted mesh 每个点与 ground-truth scan 建立对应关系）作为对比，定量与定性的比较如表 4 和图 5 所示。

我们通过 user study 投票选出各组最好 (*)/次好 (†) 的人脸，通过比较不同评价流程选出的最好的人脸（橙、蓝、紫框）可以发现，我们的评价流程（橙框）选出的最好的人脸与 user study 的投票结果匹配程度更高。并且，我们的评价流程给出了细粒度的评测结果，即：对不同的人脸区域都能进行定量的评价和比较。

6.3 不同3DMM在REALY上的表现

借助 REALY benchmark，本文采用 RGB(-D) Fitting 的方式对不同 3DMM 的表达能力进行了评价，定量与定性的比较如表 5 和图 8 所示。