机器之心专栏
清华大学黄高团队、快手Y-tech团队
这是一篇来自清华大学黄高团队和快手 Y-tech 团队合作的论文 , 该工作探究了如何在基于参考图像的生成任务中实现对于单张生成图像质量的评价 。 文中设计的 RISA 模型无需人工标注的训练数据 , 其评价结果能够与人的主观感受具有高度一致性 。 本工作已入选 AAAI 2022 Oral 。引言
现有的生成图像评价工作主要基于生成图像的分布对模型「整体」的生成效果进行评价 。 然而 , 一个性能优异的生成模型并不代表其合成的「任何一张」图像都具有高质量的效果 。 在基于参考图像(reference image)的生成任务中 , 譬如将用户上传的风景照渲染成某种指定的风格的业务场景中 , 能够对于「单张」生成图像的质量进行评价 , 对于提高用户的使用体验是至关重要的 。
该研究提出了基于参考图像的单张生成图像质量评价方法 Reference-guided Image Synthesis Assessment(RISA) 。
RISA 的贡献和创新点可以总结为以下几个方面:
- RISA 的训练图像来自于 GAN 训练过程的中间模型生成的图像 , 图像的质量标签来自于模型的迭代轮数 , 无需人工标注 , 理论上可用于训练的数据无上限 。
- 由于以模型的迭代轮数作为标注不够精细 , 采用了 pixel-wise interpolation 和 mutiple binary classifiers 的方法来增强训练的稳定性 。
- 引入了无监督的对比学习损失 , 学习参考图像和生成图像之间的风格相似度 。
文章图片
论文链接:https://arxiv.org/pdf/2112.04163.pdf
实现策略
RISA 的整体框架十分简洁 , 参考图像和生成图像经过参数共享的风格提取器得到相应的特征向量 , 接着计算两特征向量的 L1 距离并输入到 mutiple binary classifiers 中得到预测向量 , 最后预测向量元素取平均得到最终的质量分数 。
文章图片
RISA 的训练数据来自一系列 GAN 训练过程中的中间模型的生成图像 , 以下图中给出的一性别转换任务为例 , 可以看到 , 在 GAN 的训练早期 , 模型随着训练迭代轮数的增加 , 生成图像的质量会有显著的提升;而在训练后期 , 模型的生成图像的质量会趋于稳定 。
文章图片
本文采用一系列中间模型的生成图像作为 RISA 的训练数据 , 这些图像的样本标签由其对应模型的训练迭代轮数得到 。 但显然这样的标注形式不太适合训练后期的模型 , 因为训练后期生成图像质量不会有显著的变化 。 为了使训练数据更适合 RISA 的训练 , 文中采用了 pixel-wise interpolation 的技巧 , 即图像空间的线性插值 , 用于估计训练后期图像质量变化 。
如下图所示 , 理想情况下 , 生成图像随着 GAN 的训练轮数的增加单调变好 , 但实际上对于简单的任务 , 训练后期生成图像的质量几乎没有变化;对于困难的任务 , 训练后期生成图像的质量随着训练轮数的增加呈现震荡变好的趋势 。 因此文中选取了 FID 曲线变化的肘点作为 GAN 的训练前期和后期的分界 , 对于训练前期直接采样中间模型生成图像 , 并用迭代轮数作为图像质量标签;对于训练后期 , 选取开始和最终的两个模型生成具有明显质量差异的图像 , 再对图像进行线性插值得到一系列中间质量的图像 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
