个人学习记录

SRNTT论文阅读

论文:Image Super-Resolution by Neural Texture Transfer . Zhifei Zhang,Zhaowen Wang,Zhe Lin,Hairong Qi

摘要:由于低分辨率(LR)图像存在大量的信息丢失,继续提高单图像超分辨率(SISR)的性能已越来越困难。另一方面,当参考(Ref)图像与LR输入的内容相似时,基于参考图像的超分辨率(RefSR)在恢复高分辨率(HR)细节方面是promising。但是当Ref图像ground truth不太相似时,RefSR的结果的精度会严重下降。本文旨在利用参考图像中更多的纹理细节,从而在输入不相似的参考图像时,RefSR具有更强的鲁棒性。受最近图像风格化工作的启发,将RefSR看作为神经纹理转移(neural texture transfer)问题。本文设计了一个端到端深度学习模型,根据参考图像的纹理相似性自适应地迁移纹理,从而丰富了HR图像的细节。与以前的方法不同,本文的主要贡献是在神经空间(neural space)进行多层次匹配,而不是在原始像素空间进行匹配。这种匹配方案有利于多尺度神经迁移,使模型根据语义相关的Ref像素块中提高精度,并在相似性最低的Ref输入图像中平稳地降低性能到SISR性能。此外,本文为RefSR构建了一个基准数据集,该数据集包含了与不同相似度的LR输入匹配的Ref图像。本文最后的定量和定性评价都证明了我们的方法优于最先进的。

 

 

引言:单图像超分辨率(SISR)问题定义为从低分辨率(LR)观测中恢复高分辨率(HR)图像。与计算机视觉研究的其他领域一样,卷积神经网络(CNNs)的引入大大提高了SISR的技术水平。然而由于SISR的ill-posed性质,现存的大多数方法当遇到大的上采样系数时,会出现模糊的问题,尤其需要复原LR图像中丢失的精细纹理时。近年来,感知相关约束(如感知损失、对抗损失)被引入到SISR中,使得在大上采样系数下的视觉复原质量研究取得了重大突破。然而,他们往往会产生假纹理幻象,甚至会生成人工纹理。

本文从传统的SISR方法出发,探讨了基于参考的超分辨率RefSR)方法。RefSR利用来自HR参考(Ref)的丰富纹理来补偿LR图像中丢失的细节,减轻了ill-posed问题,并在参考图像的帮助下生成细节和真实的纹理。参考图像可以从各种来源获得,如相册、视频帧、网页图像搜索等。现有的RefSR方法采用self-example或外部高频信息来增强纹理。然而这些方法假设参考图像具有与LR图像相似的内容和/或具有良好的对齐。否则它们的性能会显著下降,甚至比SISR方法更差。相反,参考图像在本文的方法中扮演了不同的角色:不需要很好的对齐或与LR图像相似的内容。本方法将语义相关的纹理从Ref图像迁移到输出的SR图像。理想情况下,当提供了良好的Ref图像时,一个鲁棒的RefSR算法应该优于SISRRef图像没有提供或没有相关纹理时,RefSR的性能应该与SISR相当。请注意,内容相似性会推断纹理相似性,但反之则不然。

受近期图像风格化工作的启发,我们提出了一种新的RefSR算法 Super-Resolution by Neural Texture Transfer(SRNTT),它可以自适应地将Ref图像的纹理迁移SR图像。具体来说,SRNTT在特征空间中进行局部纹理匹配,通过深度模型将匹配的纹理迁移到最终输出。纹理迁移模型学习LR和Ref纹理之间复杂的依赖关系,利用相似的纹理,同时抑制不相似的纹理。

下图是SRNTT与SRGAN和CrossNet的比较:

图片1.jpg 

与其他方法相比,使用具有相似内容的Ref图像SRNTT在合成更精细的纹理方面显示了显著的提升即使在Ref图像没有相似内容的前提下,SRNTT也能达到SISR的精度,表明SRNTT对不同内容相似程度的不同Ref图像的适应性/鲁棒性。相反,CrossNet会从不相似的Ref引入不想要的纹理,从而引起严重的性能退化。

为了更好地进行公平的比较,促进RefSR问题的整体研究,我们提出了CUFED5数据集,该数据集在内容、纹理、颜色、光照、视角等方面提供不同相似度的参考图像

本文的Contribution:

1) 探索了一个更普遍的RefSR问题,突破了SISR中的精度障碍(即缺乏纹理细节),并放宽了现有RefSR方法中的约束(即对齐假设)。

2) 针对RefSR问题,提出了一端到端的深度模型SRNTT,通过多尺度神经纹理迁移复原任意给定参考图像下的LR图像。展示了提出的SRNTT的有效性和通用性。

3) 为了进一步研究和评价RefSR方法在处理与LR输入图像相似度不同的参考图像时的性能,构建了一个基准数据集CUFED5。

 

 

相关工作

2.1基于深度学习的SISR

近年来,基于深度学习的SISR方法在PSNR信噪比和视觉质量方面都表现出了优于非深度学习方法的性能Dong等人提出了一项里程碑式的工作,将CNN引入SR,训练三层全卷积网络,使SR图像与原始HR图像之间的均方误差(MSE)最小。它证明了深度学习在SR中的有效性,并取得了最先进的性能。Wang等人结合了稀疏编码和深度网络的优点,对之前的模型有了较大的改进。为了加快SR的速度Dong等人的和Shi等人的直接从LR图像中提取特征,与通过双三次插值上采样后的LR图像相比,也取得了更好的性能。近年来,基于深度学习的模型都取得了最先进的性能(PSNR)。

上述方法一般都是为了最小化SR和HR图像之间的MSE,这可能与人类的观感并不总是一致的。因此,为了获得更好的视觉质量,我们加入了与感知相关的约束。Johnson等人证明了使用VGG增加感知损失的有效性。Ledig等人引入了生成对抗网络(GANs)中的对抗损失,以最小化SR和HR图像之间的感知相关距离。Sajjadi等在风格迁移的思想基础上进一步加入了纹理匹配损失来增强SR图像中的纹理。本文提出的SRNTT与[24,30]的关系更为密切,其中感知相关的约束被纳入,以恢复视觉上更可信的SR图像。

2.2 基于参考图像的SR

与只使用单个LR图像作为输入的SISR不同,RefSR方法引入了额外的图像来辅助SR过程。一般来说,参考图像需要具有与LR图像相似的纹理和/或内容结构。参考图像可以从视频中的相邻帧、web检索的图像、外部数据库(字典)或不同视角的图像中选择有些方法也使用 self patches/neighborhood作为参考,它们不使用外部引用,因此更接近于SISR问题。这些工作大多是建立LR到HR patches的映射,并在像素级或用较浅的模型对HR patches进行融合,不足以模拟LR图像与从HR patches中提取的细节之间复杂的依赖关系。Yue等人提出了一种更通用的利用参考图像进行SR的方案,即从web中检索相似的图像,并进行全局配准和局部匹配。然而,他们做了一个强有力的假设——引用必须与LR的图像保持良好的对齐。此外,基于浅模型的patch混合算法的性能很大程度上依赖于参考图像的对齐。Zheng等人[41]提出了一种基于深度模型的RefSR方法,并采用光流对输入端和参考端进行对齐。然而,光流在匹配长距离对应关系时受到限制,因此无法处理明显不对齐的参考图像。本文提出的SRNTT算法采用了局部纹理(patch)匹配的思想,能够处理长距离依赖。与现有的RefSR方法一样,我们也将Ref纹理“融合”到最终输出,但我们是通过深度模型在多尺度特征空间中进行的,可以从具有缩放、旋转甚至非刚性变形的参考图像中学习复杂的迁移过程。

 

 


3.方法

本文提出的SRNTT,在给定参考图像IRef的情况下,根据LR图像ILR估计对应的SR图像ISR,在保留ILR内容一致性的同时合成可信的纹理。SRNTT的框图如下:

图片2.jpg 

SRNTT的主要思想是在特征空间中从IRef搜索匹配的纹理,然后将这些纹理以多尺度的方式迁移到ISR中,因此特征对颜色和光照变化更加鲁棒。这个多尺度纹理迁移同时考虑ILRIRef之间的语义的(高层级)和纹理的(低层级)的相似性,可以迁移相关的纹理,抑制不相关的纹理。除了最小化输出的ISR与原始HR图像IHR之间的像素/感知距离,这里还额外对ISR和从IRef中匹配的纹理之间的纹理一致性进行正则化,使得纹理迁移更加高效。最终以端到端的方式合成ISR

网络由特征匹配和纹理迁移两部分组成,特征匹配部分负责计算输入图片块与参考图片块之间的相似度并进行替换,最终将生成的新特征图输入到纹理迁移部分,而纹理迁移部分负责把新特征图迁移整合到最终生成的超分辨图像中。因为匹配部分和迁移部分都有多个层级,所以作者将这种结构称为多级神经纹理迁移。

3.1 特征替换

首先进行特征替换,在整个IRef图像上搜索局部相似纹理,这些纹理用于替换ILR的纹理特征以增强复原的SR。在HR空间坐标下进行特征搜索,使纹理直接迁移到最终输出ISR

首先是self-example匹配策略,先对ILR进行双三次上采样得到图像ILR,此时ILRHR有相同的分辨率。对IRef进行双三次的先下采样再上采样,得到模糊的参考图像IRef↓↑,该图像与ILR有相同的频带。这里没有估计全局形变或光流,而是在ILRIRef↓↑上匹配局部块,因此参考图像的全局结构就没有限制了,这是本方法相对于CrossNet的关键优势。

因为LR和Ref块可能在颜色和光照上不同,这里在神经特征空间(neural feature space)  φ(I) 上匹配它们的相似度,以突出结构和纹理信息。这里使用内积来测量两个神经特征之间的相似性:

图片3.jpg 

Pi(.)表示从神经特征图中采样的第i个块,si,j 是第i个LR块和第j个Ref块之间的相似性。相似性计算可以高效的实现为对所有LR块进行卷积(或相关),每个卷积核对应一个Ref块:

图片4.jpg 

*表示卷积运算。Sj是第j个Ref块对整个LR图像所有块的相似性,其中Sj(x,y)表示以位置(x, y)为中心的LR 块与第j个Ref 块的相似性。LR块和Ref块都从各自图像中稠密的采样,基于这些相似性分数,可以构造一个交换特征图(swapped feature map) M来表示纹理增强后的LR图像。在M中以(x,y)为中心的块定义为:

图片5.jpg 

其中w(.,.)将块中心映射为块索引。可以看到,IRef↓↑用于匹配(等式2),原始的IRef用于交换(等式3),因此从原始参考图像中的HR信息得到保存。由于LR块的稠密采样,当它们重叠时取交换后特征Pj*(φ(IRef))的均值。得到的交换后的特征图M用于下一纹理迁移阶段。

可以发现,整个特征替换过程不涉及任何训练参数也无需训练,完全可以将其视为数据预处理过程。虽然替换过程步骤繁琐,但是其实整个过程只是使用参考图片中高相关的、高质量的纹理特征替换掉了低分辨空间中粗糙的纹理特征,用外部信息填补了低分辨图像的信息空缺。

 

 

3.2 神经纹理迁移

经过特征替换预处理后,我们得到了每一级纹理特征的交换特征图M。纹理迁移网络利用原始的低分辨图像和交换特征图M从高级别到低级别逐步恢复超分辨图像,每个纹理级别的迁移过程都是相同的,但是输出的图像尺寸会越来越大,单个级别的纹理迁移网络结构如图3所示

首先将每个尺度的输入图像与交换特征图按通道拼接,接着使用残差卷积块学习交换特征块中与输入图像相关的纹理(残差),然后将学到的相关纹理合并到输入图像,最后使用子像素卷积(sub-pixel conv)将合并后的图像放大两倍并将其输出至下一层。当所有纹理级别都迁移完毕,在最后一层获取超分辨图像时将直接输出合并图像,不再使用子像素卷积进行2倍放大。

使用残差模块和跳跃连接来构建基本的生成网络,第l层的输出ψl递归的定义为:

图片6.jpg 

Res(.)表示残差模块,||表示逐通道拼接,2x表示2x上采样。经过L层后生成最终的SR结果图像:

图片7.jpg 

下图展示了在一个尺度上的纹理迁移的网络结构:

图片8.jpg 

残差模块从ψlMl中抽取相关的纹理,然后融合到输出的ψl中。传统的SISR方法仅仅减小ISRgroud truth IHR之间的差异,而本文的方法还考虑了ISRIRef之间的纹理差异。即想要ISR的纹理与交换特征图Ml在φl的特征空间相似,定义纹理损失如下:

图片9.jpg 

其中Gr(.)计算Gram矩阵,λl是对应层l的特征大小的归一化系数。Sl*是等式3中计算的所有LR块的权重图。直观上看,与ILR纹理不同会有更低的权重,从而在纹理迁移中有更低的惩罚。通过这种方式,从IRefISR的纹理迁移可以根据Ref图像的质量自适应执行,导致对纹理幻影更加鲁棒。

 

3.3 训练目标

为了:(1)保留LR的空间结构,(2)提高SR图像的视觉质量,(3)利用Ref图像的丰富的纹理。这里的目标函数包括重构损失Lrec感知损失Lper对抗损失Ladv纹理损失Ltex。其中重构损失被大多数SR方法采用,感知损失和对抗损失用于提高视觉质量,纹理损失如等式6所讨论的那样。

重构损失旨在达到更高的PSNR,通常使用MSE。本文采用l1范数,如下:

图片10.jpg 

L1范数相比于MSE使得I_SR更加清晰。此外,这与WGAN-GP的损失函数一致。

感知损失,这里使用VGG19的relu5_1层进行:

图片11.jpg 

V和C是特征图的体积和通道数,φi表示从VGG19的隐层抽取的特征图的第i个通道。|.|F表示Frobenius范数。

对抗损失可以显著提高合成图像的清晰度/视觉质量。这里采用WGAN-GP的损失。因为WGAN中的Wasserstein距离基于l1范数,这里也使用l1范数作为重构损失。直观地说,一致的目标将促进优化过程。对抗损失表示为:

图片12.jpg 

其中D是一组1-Lipschitz函数,Pr和Pg是模型分布和真实分布。

 

3.4 实现细节

我们采用预训练的VGG19模型进行特征交换,该模型以其强大的纹理表示能力而闻名特征层relu1_1,relu2_1,relu3_1用于多尺度纹理编码器φl。为了加速匹配过程,这里仅在relu3_1层进行匹配,同时将对应关系投影到relu2_1和relu1_1,而且在所有层都使用相同的对应关系。各个损失函数的权值分别是1,1e-4,1e-6,1e-4。使用Adam优化器,学习率为1e-4。网络训练的前2轮只使用Lrec损失函数,后20轮使用所有的损失函数。

本文提出的方法很容易拓展到处理多个Ref图像。

 

4.数据集

对于RefSR问题,LR和Ref图像之间的相似度影响极大的影响SR结果。一般来说,数据集应该提供与LR图像拥有不同级别相似度的Ref图像,用于训练和评估。至今还没有类似的公共数据集,因此这里构建了一个这样的数据集,称为CUFED,包含1883个albums捕捉了日常生活中的各种事件。每张albums的大小在30到100张不等。在每个albums中,我们基于SIFT特征匹配的方法收集不同相似度的图像对,表征了符合局部纹理匹配目标的局部纹理模式。

这里根据匹配的SIFT特征的数量,从高到低定义了4个相似度层次:L1、L2、L3、L4。对于每个图像对,从一张图像中裁剪160x160块作为初始的HR图像,另一张图像的对应部分作为参考图像。通过这种方式,这里收集了13761个块对作为训练集。对于测试集,每个HR图像与四个层次的参考图像对应,用于RefSR方法的适应性。我们使用与构建训练数据集相似的方法来收集图像对。测试集共有126组样本。每组分别包含L1、L2、L3、L4水平的1个HR图像和4个参考图像。测试集的两个样本如下图所示:

图片13.jpg 

为了评估训练后的模型在CUFED5上的泛化能力,我们在Sun80和Urban100上进行了测试。Sun80数据集包含80幅自然图片,每幅图片都有一系列的网络搜索参考,而Urban100数据集包含没有参考的建筑图片。

 

5 实验结果

本节定性和定量的比较了SRNTT与其它方法。我们从HR图像中通过双三次下采样(4×)获得所有LR图像。

5.1 定量评估

下表比较了SRNTT与SOTA的SISR和RefSR算法的比较:

图片14.jpg 

其中MDSR可以在PSNR指标上达到SOTA,ENet和SRGAN在视觉质量上达到SOTA。为了公平的比较,所有的方法都在CUFED5数据集上进行训练,然后在CUFED5, Sun80, Urban100上进行测试。为了公平地比较PSNR/SSIM和那些主要最小化MSE的方法,例如SCN和MDSR,我们训练了一个简化版本的SRNTT,只最小化MSE,即SRNTT - l2。

 

图片15.jpg 

图片16.jpg 

 

5.2 定性评估

为了评估SR图像的视觉质量,这里将SRNTT与其他SR方法进行比较。我们向用户呈现成对的比较,并让用户选择分辨率更高的那个。对于每个参考相似度级别,在CUFED5数据集的测试结果上收集了2400张。图6显示了投票结果,其中SRNTT的百分比代表了选择SRNTT的用户的百分比,横轴表示的是选择SRNTT算法的用户的百分比。

图片17.jpg 

总的来说,SRNTT显著优于其他算法,超过90%的用户投票给SRNTT。

 

5.3 消融实验

5.3.1 参考图像相似性的影响

LR和Ref图像之间的相似性是RefSR方法成功的关键因素。本节研究了CrossNet和SRNTT在不同参考相似度水平上的性能。下表比较了SRNTT和CrossNet在不同reference levels上精度。

图片18.jpg 

其中“HR(warp)”表示对原始的HR图像进行随机平移(1/4到一半)、随机旋转(10-30度)、随机缩放(1.2-2上采样)。“LR”表示使用LR输入图像作为引用(没有外部引用)。与CrossNet相比,SRNTT- l2在每个参考相似度级别上都表现出优越的结果。在HR级别上,SRNTT-l2有明显的提高,展示了patch-wise匹配相对于光流匹配的优势。SRNTT在“HR”级别上比SRNTT-l2精度更高,而在其他级别上更低。当给出高度相似的参考图像时,这种现象展示了了纹理损失函数在恢复精细纹理时的有效性。

为了进一步研究CrossNet和SRNTT的差距,这里将SRNTT中的特征交换模块替换为光流,结果如上表的SRNTT-flow所示。如表2所示,与SRNTT相比,“SRNTT-flow”即使在“HR”水平上也表现出较大的退化,这反映了光流在处理大视差或大的不对准方面的局限性。随着参考图像相似度的降低,SRNTT的PSNR/SSIM也有优雅的降低。在“LR”级别,SRNTT仍然可以获得与最先进的SISR算法相当的性能。我们观察到SRNTT-flow的PSNR在“LR”级别高于SRNTT,因为Ref与LR输入相同。在这种情况下,光流可以很容易地将Ref对准LR,而patch匹配可能会错过一些匹配。

5.3.2 特征交换层

下表示与使用单尺度相比,使用多尺度的有效性。

图片19.jpg 

 

5.3.3 纹理损失函数的效果

SRNTT中使用的加权纹理损失函数是与大多数SR方法的关键区别。与那些风格迁移工作不同,从风格图像(即参考图像)中提取纹理显著地修改内容图像,本文提出的SRNTT通过局部匹配、自适应神经迁移和空间/感知正则化来避免这种“风格化”。局部匹配保证了纹理的空间一致性,神经转移提高了对纹理转移的适应性,而空间/感知正则化则保证了全局的空间一致性。纹理损失的效果如下:

图片20.jpg 

CUFED5的PSNR分别为25.25和25.61的SRNTT w/o和纹理损失。如果没有纹理损失,引用中的更细的纹理就不能有效地迁移到输出图像中。

 

 

6. 总结

本文了探索了更普遍的RefSR问题,其中引用图像可以是任意的图像。我们提出了SRNTT,一种端到端网络结构,从参考图像中进行多层次自适应纹理迁移,以恢复更真实SR图像纹理。通过定量和定性实验验证了SRNTT的有效性和适应性。此外,构建了一个新的数据集CUFED5,以方便评价RefSR方法。这也为今后的RefSR研究提供了一个基准。

 

 


上一篇:
下一篇:

首页 所有文章 机器人 计算机视觉 自然语言处理 机器学习 编程随笔 关于