论文: https://arxiv.org/abs/1609.04802(CVPR 2017)
这篇文章第一次将将生成对抗网络用在了解决超分辨率问题上。将GAN引入SR领域
之前超分的研究虽然主要聚焦于“恢复细粒度的纹理细节”这个问题上,但将问题一直固定在最大化峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)上,等价于 最小化与GT图像的均方重建误差(mean squared reconstruction error, MSE)。
而这也就导致:
- 高频细节(high-frequency details) 的丢失,整体图像过于平滑/模糊;
- 与人的视觉感知不一致,超分图像的精确性与人的期望不匹配(人可能更关注前景,而对背景清晰度要求不高)。
从而提出3个改进:
- 新的backbone:SRResNet;
- GAN-based network 及 新的损失函数:
- adversarial loss:提升真实感(photo-realistic natural images);
- content loss:获取HR image和生成图像的感知相似性(perceptual similarity),而不只是像素级相似性(pixel similarity);或者说特征空间的相似性而不是像素空间的相似性。
- 使用主观评估手段:MOS,更加强调人的感知。
SRGAN算法改进细节:
- SRResNet和GAN-based Network
上图就是新的网络结构,G网络是SRResNet,论文使用了16个residual blocks;D网络为8次卷积操作(4次步长为2)+2次全连接层的VGG网络。
损失函数:
生成网络的损失函数为:
包含:
论文对VGG高层特征和低层特征分别做了实验,最终选择可能关注更多图像内容的高层特征作为论文实验的损失特征图。
判别网络的损失函数为二分类交叉熵损失函数:
SRGAN实验设置
使用数据集Set5,Set14,BSD100,BSD300测试集对训练模型进行实验评估: 4×分辨率超分,然后对图像的每个边界移除4个像素点,最后center-cropped计算PSNR和SSIM,进行有效性统计分析。
随机采样ImageNet数据集中350张图像进行训练(参考源码):
SRGAN实验结果及分析
消融实验说明:
- skip-connection结构的有效性;
- PSNR体现不出人的感知(MOS);
- GAN-based Network能更好捕捉一些人的感知细节(高频信息?),MOS更高;
- VGG特征重建也有助于捕捉图像的部分感知细节。