最新综述丨视频超分辨率研究方法

摘自:极市平台,作者@ Wangsy

https://zhuanlan.zhihu.com/p/342225916

本文是第一个也是唯一一个视频超分方向的综述,回顾了基于深度学习的视频超分技术的研究进展,提出了一种基于深度学习的视频超分分类方法,并总结了SOTA方法在一些公共基准数据集上的性能。

论文地址:https://arxiv.org/abs/2007.12928

看点

近年来,深度学习在很多领域取得了进展,其中包括视频超分辨率任务。本文是第一个也是唯一一个视频超分方向的综述,主要看点如下:

1)回顾了基于深度学习的视频超分技术的研究进展;
2)提出了一种基于深度学习的视频超分分类方法,利用不同处理帧间信息的方式进行分类;
3)总结了SOTA方法在一些公共基准数据集上的性能;
4)分析了视频超分任务的一些前景和挑战;

分类

多篇研究表明,帧间信息的利用对视频超分的性能有很大影响。正确、充分地利用这些信息可以提高超分的最终结果。因此,根据帧间信息的利用方式——是否对齐,将现有方法分为两大类:对齐方法和非对齐方法,如下图所示:

总结

到目前为止,已经有了许多的视频超分算法。下图总结了近年来基于深度学习的视频超分方法的特点。其中MEMC表示运动估计和补偿方法,DC表示可变形卷积方法,3D Conv表示3D卷积方法,RCNN表示循环卷积神经网络方法。

趋势和挑战

尽管基于深度学习的视频超分方法已经取得了很大的进展,但是仍然存在一些挑战。

轻量级超分模型

基于深度学习的视频超分辨率方法虽然具有很高的性能,但由于模型参数庞大,需要大量的计算和存储资源,训练时间长,在实际问题中难以有效部署。随着移动设备在现代生活中的流行,人们期望将模型应用到这些设备上。如何设计和实现一种高性能、轻量级的超分算法,以满足实际应用的需要是一个挑战。

模型的可解释性

深度神经网络通常被认为是黑箱。也就是说,不管模型表现如何,我们也无法知道模型学到了什么真正的信息。在现有的视频超分模型中,卷积神经网络如何恢复低分辨率视频序列还没有一个理论解释。随着对其解释的深入研究,包括视频和图像超分方法在内的超分算法的性能可能会有很大的提高。

大尺度超分辨率

对于视频超分任务,现有的工作主要集中在放大倍数为4的情况下。更具挑战性的尺度(如×8、×16)很少被探索。随着高分辨率(如4K、8K)显示设备的普及,大尺度的超分有待进一步研究。显然,随着尺度的增大,视频序列中未知信息的预测和恢复会变得越来越困难。这可能导致算法的性能下降,削弱模型的鲁棒性。因此,如何开发稳定的深度学习算法来实现更大规模的视频超分辨率仍然是一个重要的问题。

更合理、更恰当的视频降质过程

在现有的研究中,LR视频的退化通常由两种方法得到。一种是使用插值(如双三次插值)直接对HR视频进行下采样。另一种是对HR视频进行高斯模糊,然后对视频序列进行降采样。虽然这两种方法在理论上都有很好的表现,但在实践中却总是表现不佳。真实世界的退化过程是非常复杂的,并且在真实世界的问题中包含了大量的不确定性,模糊和插值对问题的建模是不够的。因此,在构建LR视频时,应该从理论上建立与实际情况相一致的退化模型,以缩小研究与实践之间的差距。 大多数最先进的视频超分辨率方法都是有监督学习。由于降质过程是复杂的和HR/LR对获取是比较难获取的。或许无监督的超分方法可能会称为解决这个问题的一个方法。

更有效的场景变换算法

现有的视频超分方法很少涉及场景变化的视频。实际上,一个视频序列通常有许多不同的场景。在研究这类视频的超分问题时,必须在不改变场景的情况下将其分割成多个片段,并分别进行处理。这可能会导致大量的计算和计算时长。因此,能够处理场景变化的深度学习方法对于实际应用是必要的。

更合理的视频质量评价标准

评价超分辨率结果质量的标准主要有PSNR和SSIM。然而,它们的值并不能反映视频质量对人的感知。也就是说,即使视频的PSNR值很高,视频对人类来说也不一定是舒服的。因此,需要开发出符合人类感知的新的视频评价标准。虽然提出了一些评价标准,但仍需要更多能被广泛接受的标准。

利用帧间信息的更有效方法

视频超分的一个重要特征是利用帧间信息。它的有效利用直接影响着模型的性能。尽管本文提出了许多方法,但仍存在一些不足。例如,三维卷积和非局部模运算量大,光流估计的精度无法保证等。因此,有效利用帧间信息的方法值得进一步研究。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注