光电工程  2018, Vol. 45 Issue (4): 170537      DOI: 10.12086/oee.2018.170537     
基于聚类和协同表示的超分辨率重建
汪荣贵 , 刘雷雷 , 杨娟 , 薛丽霞 , 胡敏     
合肥工业大学计算机与信息学院,安徽 合肥 230009
摘要:图像超分辨率重建是利用单幅或多幅降质的低分辨率图像重建得到高分辨率图像,以提高图像的视觉效果并获得更多可用的信息。本文提出结合图像特征聚类和协同表示的超分辨率重建方法。在训练阶段根据图像的特征信息对图像样本进行聚类并利用图像特征的差异性训练不同的字典,克服了传统训练单个字典方法对图像特征表示不足的缺点。而且利用协同表示方法求得不同聚类的高、低分辨率图像样本之间的映射矩阵,提高了图像重建速度。实验表明,本文方法与其他方法相比,不仅提高了重建图像的PSNR和SSIM指标,而且改善了视觉效果。
关键词超分辨率重建    聚类    协同表示    映射矩阵    
Image super-resolution based on clustering and collaborative representation
Wang Ronggui, Liu Leilei, Yang Juan, Xue Lixia, Hu Min     
School of Computer and Information, Hefei University of Technology, Hefei, Anhui 230009, China
Abstract: Image super-resolution (SR) refers to the reconstruction of a high-resolution (HR) image from single or multiple observed degraded low-resolution (LR) images for the purpose of improving image's visual effects and getting more available information. We propose an image super-resolution algorithm based on collaborative representation and clustering in this paper. In the training stage, the image samples are clustered according to the image features and multiple dictionaries are trained by using the differences of image features, which overcomes the shortcoming of lack of expressiveness of traditional single-dictionary training methods. Moreover, projection matrices between different HR and LR image clustering are computed via collaborative representation, which accelerate the speed of image reconstruction. Experiments demonstrate that compared with other methods, the proposed method not only enhanced PSNR and SSIM metrics for reconstructed images but also improved image's visual effects.
Keywords: image super-resolution    clustering    collaborative representation    projection matrices    

1 引言

超分辨率重建[1-3]是图像处理和计算机视觉领域的经典问题之一,它最初是由Tsai和Huang[4]提出的,根据重建方法的不同主要可分为基于插值的方法、基于重建的方法和基于学习的方法。

近年来基于学习[5-6]的超分辨率重建逐渐成为主流的图像重建方法。Freeman[7]等人提出一种基于实例的学习策略,通过利用Markov网络对图像块的空间关系进行建模,使得重建得到的图像具有更多的高频细节信息;Chang[8]根据流形学习中的局部线性嵌入(locally linear embedding, LLE)[9]技术提出邻域嵌入方法;Yang[10]将稀疏编码理论引入超分辨率重建,提出ScSR算法;Zeyde[11]在Yang的基础上加入K-SVD[12]和正交匹配追踪用于字典训练和稀疏系数的求解,加快了高、低分辨率图像字典的训练过程;Yang[13]提出SF(simple function)方法,利用聚类算法将图像特征空间分为多个子空间,然后利用稀疏表示方法对不同聚类图像进行重建;Zhang[14]证明了协同表示相对于稀疏表示在人脸识别中的主要作用,协同表示相比较于稀疏表示其求解速度更快,而且不易产生过拟合现象;Timofte[15]提出ANR(anchored neighborhood regression)方法,利用协同表示的方法获得高、低分辨率图像块之间的映射矩阵,在重建阶段只需通过低分辨率图像块和对应字典原子的映射矩阵相乘即可重建高分辨率图像块,提高了图像重建的速度。

本文提出结合聚类算法和协同表示的图像超分辨率重建方法,主要流程如图 1所示,该方法首先对训练样本特征进行聚类,将具有相同特征的图像块聚为一类,然后对每个子类学习得到一个完备字典,再对每个子类字典原子依据协同表示的方法得到一个映射矩阵。重建时根据输入的低分辨率图像块,找出其所属类的图像字典,在该类字典中找出与待重建图像块特征向量最近的字典原子,根据该字典原子的映射矩阵和待重建图像块特征向量重建出高分辨率图像块。利用特征聚类方法增强了图像字典的特征表达能力,提高了映射矩阵的准确性,并且利用协同表示离线式计算出图像特征映射矩阵,提高了重建速度。

图 1 本文超分辨率重建算法框架图 Fig. 1 Overview of the proposed algorithm
2 相关工作 2.1 图像退化模型

图像退化模型表明了高分辨率图像块x与观测得到的低分辨率图像块y之间的关系,其数学模型如式(1)所示:

$ \mathit{\boldsymbol{y}} = \mathit{\boldsymbol{DHx}} + \mathit{\boldsymbol{n}}\;\;。$ (1)

其中:H表示模糊处理,D表示降采样处理,n表示低分辨率图像观测过程中产生的噪声。

2.2 协同表示

稀疏表示方法利用L-0范数或者L-1范数正则项来约束目标函数,但是L-0范数是NP难问题,而带L-1范数正则项的最优化问题求解过程十分耗时。协同表示[14]则是带L-2范数正则项的最小二乘回归问题,虽然L-2范数的稀疏性约束弱于L-1范数,但是通过岭回归的方法可以很方便地对其进行求解。利用协同表示的方法,低分辨率图像块y与低分辨率图像完备字典D1之间的约束关系如(2)所示:

$ \mathit{\boldsymbol{\alpha }} {\rm{ = }}{\rm{arg}}\;\mathop {{\rm{min}}}\limits_\mathit{\boldsymbol{\alpha }} \left\| {\mathit{\boldsymbol{y }}-{\mathit{\boldsymbol{D }}_{\rm{1}}}\mathit{\boldsymbol{\alpha }} } \right\|_2^2 + \lambda \left\| \mathit{\boldsymbol{\alpha }} \right\|_2^2\;\;, $ (2)

其中:α是稀疏系数,λ是正则化参数,用于确保求解过程的稳定性。通过岭回归的方法,可以得到式(3)的解为

$ \mathit{\boldsymbol{\alpha }}{\rm{ = (}}{\mathit{\boldsymbol{D}}_{\rm{1}}}^T{\mathit{\boldsymbol{D}}_{\rm{1}}}{\rm{ + }}\lambda \mathit{\boldsymbol{I}}{)^{{\rm{-1}}}}{\mathit{\boldsymbol{D}}_{\rm{1}}}^T\mathit{\boldsymbol{y}}\;\;, $ (3)

其中I表示单位矩阵。由于认为高分辨率图像块与其下采样得到的低分辨率图像块之间具有相同的稀疏系数,故与y相对应的高分辨率图像块x可以通过式(4)得到:

$ \mathit{\boldsymbol{x}} = {\mathit{\boldsymbol{D}}_{\rm{h}}}\mathit{\boldsymbol{\alpha }}\;\;。$ (4)

其中Dh表示高分辨率图像字典。

结合式(3)和式(4),可以得到:

$ \mathit{\boldsymbol{x}} = {\mathit{\boldsymbol{D}}_{\rm{h}}}{({\mathit{\boldsymbol{D}}_1}^{\rm{T}}{\mathit{\boldsymbol{D}}_1} + \lambda \mathit{\boldsymbol{I}})^{-1}}{\mathit{\boldsymbol{D}}_1}^{\rm{T}}\mathit{\boldsymbol{y}}\;\;。$ (5)

由式(5)可知,低分辨率图像块y和与相应的高分辨率图像块x之间的关系可以通过一个映射矩阵来表示,即P=Dh(D1TD1+λI)-1D1T

3 基于聚类和协同表示的超分辨率重建 3.1 特征提取

X表示高分辨率图像,对高分辨率图像X先下采样s倍,再采用双三次插值的方法上采样s倍得到低分辨率图像Y1。对Y1进行分块可以得到Y1={y11, y12, …, y1n},n表示图像块的总个数。对每一个低分辨率图像块使用梯度算子和拉普拉斯算子提取图像块水平和垂直方向上的边缘特征,特征提取算子为:

f1=[-1,0,1],f2=f1T

f3=[1,0,-2,0,1],f4=f3T

其中“T”表示转置操作。将每一个低分辨率图像块提取得到的四个特征向量组合为一个高维列向量,作为该图像块特征表示,将所有的低分辨率图像块特征表示组合成一个高维特征矩阵。为了提高算法的效率和鲁棒性,使用PCA对特征矩阵进行降维,降维后的图像特征用于训练图像字典。

对高分辨率图像首先通过式(6)获得其高频成分Xh,然后对其进行分块得到Xh={xh1, xh2, …, xhn}。利用图像高频成分求得高分辨率图像字典,使得图像的重建过程转化为重建图像高频成分的过程,最后将重建得到的高频成分与原低分辨率图像相加得到最终的图像重建结果。

$ {\mathit{\boldsymbol{X}}_{\rm{h}}}{\rm{ = }}\mathit{\boldsymbol{X}}-{\mathit{\boldsymbol{Y}}_{\rm{1}}}\;\;。$ (6)
3.2 聚类字典学习

对低分辨率图像训练集中的所有图像分块后,根据图像块特征使用k-means聚类方法将其分为K个类别,使得具有相似特征的图像块聚为一类,根据每个低分辨率图像块所在的类别将相应的高分辨率图像块也分为K个类别。之后对每一类低分辨率图像块分别训练图像字典,由于同一类别的图像块均有相似的特征,因此训练得到的图像字典对于该类别的图像特征的表达更为精确,从而提高了具有该类别特征的图像的重建效果,图 2所示为对图像块进行聚类后的结果,可以看出每一类的图像块均有较为相似的图像特征。

图 2 k-means聚类后的两类图像块。(a)类别一;(b)类别二 Fig. 2 Two categories obtained by k-means clustering. (a) Category one; (b) Category two

低分辨率图像字典的训练使用K-SVD算法,每个字典训练时的字典原子个数和迭代次数相同。记第i个低分辨率图像类别为Yi={y1i, y2i, …, ypi}, (1≤iK),其中p表示该类别包含的图像块个数,D1i表示该类别的低分辨率图像字典。聚类字典的训练过程主要分为稀疏表示阶段和字典更新阶段,在稀疏表示阶段假定稀疏字典D1i是固定的,通过正交匹配追踪算法(OMP)来估计稀疏表示;在字典更新阶段通过奇异值分解(singular value decomposition,SVD)的方法对稀疏字典D1i的每个列向量进行逐个修正,目标公式如(7)所示,其中Ai={α1i, α2i, …, αpi}为稀疏系数矩阵,T0为样本稀疏性最大值。

$ \mathop {{\rm{min}}}\limits_{\left\{ {{\mathit{\boldsymbol{D}}^i}, {\mathit{\boldsymbol{A}}^i}} \right\}} \left\| {{\mathit{\boldsymbol{Y}}^i}-\mathit{\boldsymbol{D}}_{\rm{1}}^i{\mathit{\boldsymbol{A}}^i}} \right\|_{\rm{F}}^2\;\;{\rm{s}}{\rm{.t}}.\;\;\forall q\;\left\| {\mathit{\boldsymbol{\alpha }}_q^i} \right\| \le {T_0}\;\;。$ (7)

具体字典学习过程如下:

1) 随机选择D1, (0)i初始化低分辨率字典。

2) 稀疏表示阶段:固定字典D1, (0)i,采用正交匹配追踪算法(OMP)对训练集Yi={y1i, y2i, …, ypi}中的每个图像块ypi计算其稀疏系数αqi,最后将所有的稀疏系数组合得到稀疏系数矩阵Ai,求解稀疏系数目标公式如(8)所示:

$ \mathit{\boldsymbol{\alpha }}_q^i{\rm{ = }}\arg \;\mathop {\min }\limits_{\mathit{\boldsymbol{\alpha }} _q^i} \left\| {\mathit{\boldsymbol{y}}_q^i-\mathit{\boldsymbol{D}}_{\rm{1}}^i\mathit{\boldsymbol{\alpha }}_q^i} \right\|_F^2\;{\rm{s}}{\rm{.t}}{\rm{.}}\;\;{\left\| {\mathit{\boldsymbol{\alpha }}_q^i} \right\|_0} \le {T_0}\;\;。$ (8)

其中q=1, 2, …, p

3) 字典更新阶段:利用上一步得到的稀疏系数矩阵Ai,逐列当前字典进行更新优化,设需要更新当前字典的第kdkαTk为系数矩阵Ai中第k行。定义稀疏表示误差矩阵Ek,如式(9)所示,Ek表示去掉原子dk的成分对p个图像样本表示所造成的误差。

$ {\mathit{\boldsymbol{E}}_k}{\rm{ = }}{\mathit{\boldsymbol{Y}}^i}-\sum\nolimits_{j \ne k} {{\mathit{\boldsymbol{d}}_j}\mathit{\boldsymbol{\alpha }}_T^j}, j = 1, 2, \cdots, p\;\;。$ (9)

由于误差矩阵Ek的稀疏性,在对Ek进行奇异值分解之前可以去除其中的非零元素以加快字典更新过程。设集合${\omega _k}{\rm{ = }}\{ i\left| {1 \le i \le p, \mathit{\boldsymbol{\alpha }}_T^k(i) \ne 0} \right.\} $由训练集中使用到原子dk的所有样本的上标构成,则可得到$\mathit{\boldsymbol{\alpha }}_T^k$中非零点的索引值。根据ωk定义ΩK$n \times \left| {{\mathit{\boldsymbol{\omega }} _k}} \right|$维的0-1矩阵,求出$\mathit{\boldsymbol{\alpha }}_R^k = \mathit{\boldsymbol{\alpha }}_T^k{\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_k}$$\mathit{\boldsymbol{E }}_R^k{\rm{ = }}{\mathit{\boldsymbol{E }}_k}{\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_k}$,使得$\mathit{\boldsymbol{\alpha }} _T^k$Ek只保留非零项,对$\mathit{\boldsymbol{E }}_R^k$使用SVD得$\mathit{\boldsymbol{E}}_R^k{\rm{ = }}\mathit{\boldsymbol{U \boldsymbol{\varDelta} }}{\mathit{\boldsymbol{V}}^{\rm{T}}}$Δ为奇异值构成的对角阵,根据奇异值最大的项来更新字典原子dk$\mathit{\boldsymbol{\alpha }} _R^k$

对于K个低分辨率图像类别,通过不断迭代2)和3)两步直至达到终止条件即可得到所有的低分辨率图像字典${\rm{\{ }}\mathit{\boldsymbol{D }}_{\rm{1}}^i{\rm{\} }}_{i = 1}^K$。为了加快训练过程,我们不使用K-SVD方法训练高分辨率图像字典${\rm{\{ }}\mathit{\boldsymbol{D }}_{\rm{h}}^i{\rm{\} }}_{i = 1}^K$。高分辨率图像块的恢复可以表示为$\mathit{\boldsymbol{x }}_q^i \approx \mathit{\boldsymbol{D }}_{\rm{h}}^i\mathit{\boldsymbol{\alpha }} _q^i$,因此可以通过最小化式(10)来计算$\mathit{\boldsymbol{D }}_{\rm{h}}^i$

$ \begin{array}{l} \mathit{\boldsymbol{D}}_{\rm{h}}^i\;\;{\rm{ = }}\;\;\arg \mathop {\min }\limits_{\mathit{\boldsymbol{D }}_{\rm{h}}^i} \sum\nolimits_q {\left\| {\mathit{\boldsymbol{x}}_q^i-\mathit{\boldsymbol{D}}_{\rm{h}}^i\mathit{\boldsymbol{\alpha }}_q^i} \right\|} _2^2\;\\ \;\;\;\;\;\; = \;\;\arg \mathop {\min }\limits_{\mathit{\boldsymbol{D }}_{\rm{h}}^i} \left\| {{\mathit{\boldsymbol{X}}^i}-\mathit{\boldsymbol{D}}_{\rm{h}}^i{\mathit{\boldsymbol{A}}^i}} \right\|_{\rm{F}}^2\;\;。\end{array} $ (10)

其中${\mathit{\boldsymbol{X }}^i}{\rm{ = \{ }}\mathit{\boldsymbol{x }}_1^i, \mathit{\boldsymbol{x }}_2^i, \cdots, \mathit{\boldsymbol{x }}_p^i{\rm{\} }}$,通过式(11)可以得到高分辨率图像字典

$ \mathit{\boldsymbol{D}}_{\rm{h}}^i\;{\rm{ = }}\;{\mathit{\boldsymbol{X}}^i}{\mathit{\boldsymbol{A}}^{{i^{\; + }}}} = {\mathit{\boldsymbol{X}}^i}{\mathit{\boldsymbol{A}}^{{i^{\;{\rm{T}}}}}}{({\mathit{\boldsymbol{A}}^i}{\mathit{\boldsymbol{A}}^{{i^{\;{\rm{T}}}}}})^{-1}}\;\;。$ (11)

其中${\mathit{\boldsymbol{A }}^{{i^{\; + }}}}$表示稀疏稀疏矩阵${\mathit{\boldsymbol{A }}^i}$的伪逆矩阵,对K个高分辨率图像类别利用上述公式可以得到相应的高分辨率图像字典$\{ \mathit{\boldsymbol{D }}_{\rm{h}}^i\} _{i = 1}^K$

3.3 计算字典原子映射矩阵

由协同表示可知,低分辨率图像块y和其对应的高分辨率图像块x之间的关系可通过一个近似映射矩阵P=Dh(D1TD1+λI)-1D1T来表示,即x=Py,其中DhD1分别表示高、低分辨率图像字典。如果对于不同特征的图像块都使用整个字典来求映射矩阵,则会使得映射矩阵不具有针对性,而且无法充分利用待重建图像块的特征。本文对低分辨率图像字典的每个原子使用它的n近邻字典原子来求映射矩阵,并根据该字典原子的映射矩阵对图像块进行重建,故对于字典原子d的映射矩阵表达式改写成:

$ \mathit{\boldsymbol{P}} = {\mathit{\boldsymbol{N}}_{\rm{h}}}{({\mathit{\boldsymbol{N}}_1}^{\rm{T}}{\mathit{\boldsymbol{N}}_1} + \lambda \mathit{\boldsymbol{I}})^{-1}}{\mathit{\boldsymbol{N}}_1}^{\rm{T}}\;\;。$ (12)

其中:N1表示d在低分辨率图像字典中的n个最近邻原子,Nh表示与N1相对应的高分辨率图像字典中的n个字典原子。

根据以上分析,在训练学习阶段需要计算出所有聚类字典中每个字典原子的映射矩阵,对于一个字典原子d,使用欧拉距离在该字典中找出它的n个最近邻字典原子N1,同时可以在高分辨率字典得到相应的Nh,根据式(12)即可得到字典原子d的映射矩阵P

在求n最近邻字典原子过程中,由于已经是聚类过后学习得到的字典,每一类字典都是由特征最为相似的图像块学习得到,因此通过聚类字典原子计算的映射矩阵更准确,同时使用映射矩阵也加快了图像的重建过程。

3.4 迭代反投影

为进一步减小重建误差,使用迭代反投影方法(iterative back projection, IBP)[16]对高分辨率图像X0进行优化,其目标公式如式(13)所示:

$ {\mathit{\boldsymbol{X}}^\mathit{\boldsymbol{*}}} = {\rm{arg}}\;{\rm{min}}\left\| {{\mathit{\boldsymbol{X}}_1}-{\mathit{\boldsymbol{X}}_0}} \right\|\;\;{\rm{s}}{\rm{.t}}{\rm{.}}\;\mathit{\boldsymbol{Y}}{\rm{ = }}\mathit{\boldsymbol{DH}}{\mathit{\boldsymbol{X}}_1}\;\;, $ (13)

其中:X1表示对低分辨图像Y进行插值放大的结果,X*表示迭代终止后得到的高分辨率图像。通过求解式(13)可以得到:

$ {\mathit{\boldsymbol{X}}_{t + 1}} = {\mathit{\boldsymbol{X}}_t} + ((\mathit{\boldsymbol{Y}}{\rm{-}}\mathit{\boldsymbol{DH}}{\mathit{\boldsymbol{X}}_t}) \uparrow \mathit{s})^*p $ (14)

其中Xt表示t次迭代后得到的高分辨率图像,↑s表示对图像进行s倍放大,p表示高斯滤波器,*表示卷积操作。

4 实验

本文实验在Windows 10操作系统(CPU四核3.30 GHz,内存8 GB),MATLAB R2013a上实现。对测试图像进行2倍放大重建,根据重建效果来验证本文方法的有效性,并与双三次插值方法、Yang[10]方法、Zeyde[11]方法、NE+LLE[8]方法、NE+NNLS[17]方法、SF[13]方法和ANR[15]方法进行比较。实验训练集中包括91幅彩色图像,每幅图像首先转换为YCBCR颜色空间,以Y通道作为训练的图像数据,低分辨率图像数据则通过对训练集图像进行下采样得到。对高、低分辨率图像分块时提取6×6的图像块,相邻图像块之间有2个像素的重叠。为了提高重建效果,对低分辨率图像提取3×3的图像块,相邻图像块之间有2个像素的重叠。对不同方法的重建效果采用峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性度量(structural similarity index measurement,SSIM)两个指标来评价。

4.1 图像重建质量

图像重建之前,先对训练集图像进行裁剪,使图像大小为图像块大小的倍数,然后提取高、低分辨率图像块,在实验中将提取的315210对图像块分为K=9类做实验。对每一类低分辨率图像块使用K-SVD学习得到低分辨率图像字典,并求出高分辨率图像字典,正则化参数λ=0.01,测试集图片如图 3所示。

图 3 测试集。(a)狒狒;(b)芭芭拉;(c)桥;(d)海警;(e)漫画;(f)脸;(g)花;(h)工长;(i)莱娜图;(j)男人;(k)蝴蝶;(l)胡椒;(m)幻灯片;(n)斑马 Fig. 3 Test image. (a) Baboon; (b) Barbara; (c) Bridge; (d) Coastguard; (e) Comic; (f) Face; (g) Flowers; (h) Foreman; (i) Lenna; (j) Man; (k) Monarch; (l) Pepper; (m) PPT; (n) Zebra

表 1是图像放大2倍时的实验结果,由表 1可知,利用本文方法重建得到的图像的平均PSNR和平均SSIM指标相比其他方法更高,其中Proposed-1表示本文方法不使用迭代反投影优化的重建效果,Proposed表示使用迭代反投影优化的重建效果。相比于ANR方法本文方法利用了多聚类字典,重建结果的平均PSNR高出0.22 dB,平均SSIM高出0.0013。SF方法对图像特征聚类后直接将每个类别的图像块作为图像字典,相比于SF方法,本文方法重建结果的平均PSNR高出2.04 dB,平均SSIM高出0.0217,表明本文方法聚类后训练得到图像字典优于SF方法。

表 1 图片×2倍放大实验结果 Table 1 PSNR(dB) and SSIM values of super resolution images with upscaling factor 2
Bicubic Zeyde NE+LLE NE+NNLS SF ANR Proposed-1 Proposed
Baboon PSNR 24.86 25.46 25.52 25.41 25.36 25.54 25.53 25.58
SSIM 0.6976 0.7513 0.7575 0.7497 0.7465 0.7586 0.7584 0.7639
Barbara PSNR 28.00 28.67 28.63 28.53 28.25 28.58 28.68 28.69
SSIM 0.8413 0.8724 0.8733 0.8691 0.8489 0.8729 0.8743 0.8753
Bridge PSNR 26.58 27.53 27.50 27.33 27.18 27.53 27.60 27.68
SSIM 0.7929 0.8178 0.8413 0.8343 0.8324 0.8422 0.8426 0.8468
Coastguard PSNR 29.12 30.42 30.38 30.08 29.59 30.42 30.51 30.59
SSIM 0.7893 0.8404 0.8435 0.8383 0.8150 0.8446 0.8444 0.8492
Comic PSNR 26.02 27.61 27.69 27.46 25.67 27.74 27.92 28.02
SSIM 0.8494 0.8979 0.9006 0.8951 0.8792 0.9011 0.9038 0.9062
Face PSNR 34.83 35.57 35.60 35.47 34.91 35.65 35.63 35.65
SSIM 0.8623 0.8818 0.8830 0.8801 0.8591 0.8841 0.8837 0.8851
Flowers PSNR 30.37 32.22 32.14 31.92 30.11 32.24 32.48 32.57
SSIM 0.8985 0.9271 0.9274 0.9238 0.9106 0.9287 0.9294 0.9301
Foreman PSNR 34.14 36.01 36.32 35.92 32.68 36.28 36.63 36.75
SSIM 0.9518 0.9664 0.9660 0.9656 0.9523 0.9665 0.9681 0.9675
Lenna PSNR 34.70 36.20 36.28 35.96 35.54 36.29 36.38 36.42
SSIM 0.9112 0.9262 0.9267 0.9242 0.9108 0.9275 0.9279 0.9280
Man PSNR 29.25 30.42 30.41 30.23 29.92 30.44 30.59 30.64
SSIM 0.8458 0.8775 0.8789 0.8740 0.8638 0.8797 0.8807 0.8823
Monarch PSNR 32.94 35.65 35.45 35.17 33.30 35.61 36.28 36.38
SSIM 0.9601 0.9726 0.9716 0.9709 0.9583 0.9726 0.9741 0.9730
Pepper PSNR 34.97 36.55 36.38 36.24 35.76 36.36 36.64 36.72
SSIM 0.9073 0.9190 0.9184 0.9172 0.9039 0.9190 0.9200 0.9196
PPT PSNR 26.87 29.29 28.92 29.07 25.27 28.93 29.55 29.66
SSIM 0.9450 0.9697 0.9648 0.9662 0.9421 0.9651 0.9711 0.9706
Zebra PSNR 30.63 33.20 33.02 32.60 26.77 33.05 33.33 33.44
SSIM 0.9086 0.9381 0.9387 0.9342 0.9131 0.9393 0.9400 0.9414
Average PSNR 30.23 31.77 31.73 31.53 30.02 31.76 31.98 32.06
SSIM 0.8687 0.8970 0.8994 0.8959 0.8811 0.9001 0.9013 0.9028

表 2分别展示了图像放大2、3和4倍时测试集的平均结果。由此可知,当增大放大倍数时本文方法相比其他方法依然能够取得更好的重建结果,验证了本文方法在较大放大倍数情况下的有效性。

表 2 不同放大倍数的实验结果 Table 2 Average PSNR(dB) and SSIM values of different upscaling factor
Scale Bicubic Yang Zeyde NE+LLE NE+NNLS SF ANR Proposed
×2 PSNR 30.23 - 31.77 31.73 31.53 30.02 31.76 32.06
SSIM 0.8687 - 0.8970 0.8994 0.8959 0.8811 0.9001 0.9028
×3 PSNR 27.54 28.31 28.66 28.57 28.47 27.25 28.62 28.79
SSIM 0.7736 0.7954 0.8078 0.8075 0.8032 0.7856 0.8089 0.8123
×4 PSNR 26.00 25.93 26.81 26.78 26.80 25.22 26.82 26.92
SSIM 0.7019 0.6958 0.7342 0.7332 0.7323 0.6845 0.7346 0.7359

为了进一步验证本文算法的有效性,我们对比本文方法和其他方法重建所得图像的视觉效果,图 4图 5表示放大2倍时重建图像“Baboon”和“PPT”的局部细节放大图。由图 4图 5的效果图可知,Bicubic方法会导致图像边缘过于平滑,细节丢失,Zeyde和NE+LLE的方法重建图像边缘部分模糊,SF方法会产生振铃效应和多余的纹理细节,本文提出的方法相比于ANR方法能够重建出更丰富的图像细节,重建图像视觉效果更好。表明本文算法与其他算法相比有更好的超分辨率重建表现,对不同的图像特征能够生成更准确的超分辨率估计。

图 4 图片Baboon超分辨率重建效果图。(a)原图;(b) Bicubic方法;(c) Zeyde方法;(d) NE+LLE方法;(e) NE+NNLS方法;(f) SF方法;(g) ANR方法;(h)本文方法 Fig. 4 SR reconstruction results of image "Baboon". (a) Original; (b) Bicubic; (c) Zeyde; (d) NE+LLE; (e) NE+NNLS; (f) SF; (g) ANR; (h) Proposed

图 5 图片PPT超分辨率重建效果图。(a)原图;(b) Bicubic方法;(c) Zeyde方法;(d) NE+LLE方法;(e) NE+NNLS方法;(f) SF方法;(g) ANR方法;(h)本文方法 Fig. 5 SR reconstruction results of image "PPT". (a) Original; (b) Bicubic; (c) Zeyde; (d) NE+LLE; (e) NE+NNLS; (f) SF; (g) ANR; (h) Proposed
4.2 聚类个数的影响

本节验证在实验中加入聚类方法对实验效果的影响,对于2倍超分辨率重建实验,从训练集图片中提取的图像块使用k-means聚类,聚类类别分别设置为K=2, 3, 4, 5, 6, 7, 8, 9, 10。实验结果使用测试集中图片重建结果的平均PSNR作为评价指标,不同聚类个数对重建结果的影响如图 6所示。

图 6 聚类个数对重建效果的影响 Fig. 6 Influence of clustering number on SR

图 6的实验结果可以看出,随着聚类个数的增加,重建图像的效果也不断增加,表明本文方法加入聚类方法以及训练不同类别字典的有效性,聚类后不仅使得每个子字典相比单个字典的表达能力更强,而且在重建时使用同一类别中的n近邻字典原子求映射矩阵,也提高了映射矩阵的准确性,故增强了实验效果。由于图像块个数有限,聚类个数的增加会导致有些类别图像块个数较少,训练得到的字典表达性减弱,因此随着聚类个数的增加PSNR指标的增加逐渐趋于平缓。而且聚类个数的增加使得判断待重建图像块所属类别的时间增加,从而增加了图像重建时间。

4.3 字典大小的影响

从理论上来说,稀疏字典原子越多,图像字典对图像的特征表达能力更好,图像的重建效果越好,但是重建时间也越多,本节探究字典原子个数对图像重建结果的影响。分别选用大小为16、32、64、128、256、512和1024的字典对图像进行重建,并且与上述提到的方法作对比,图 7所示为2倍放大图像时使用不同字典大小重建图像的效果。从实验结果可以看出在字典原子相同的情况下,本文提出的方法的重建效果更好。

图 7 字典原子大小对图像重建效果的影响 Fig. 7 Influence of dictionary size on SR
4.4 时间复杂度分析

由于本文方法对图像特征聚类后训练得到K个类别的图像字典,因此在图像重建时需要首先依据K个聚类中心计算出待重建图像块所属的图像类别,之后再从该类别的图像字典中找出与待重建图像块欧氏距离最小的字典原子,这是本文算法的主要耗时所在。表 3展示了不同算法重建图像耗时的具体数据,本文算法平均耗时为6.05 s,相比于SF方法本文在图像重建效率上有较高的提升,而ANR方法只训练单个字典,因此时间效率稍好,但重建效果不如本文算法。

表 3 不同算法的图像重建时间 Table 3 Time complexity of different methods
s
Images Yang Zeyde NE+LLE NE+NNLS SF ANR Proposed
Baboon 69.79 2.36 3.63 16.97 61.06 0.91 6.19
Barbara 73.99 3.95 6.27 29.92 77.94 1.51 11.43
Bridge 82.25 2.45 3.90 18.24 21.86 0.91 6.91
Coastguard 20.54 0.94 1.50 7.14 21.86 0.35 2.41
Comic 29.39 0.80 1.30 6.13 26.11 0.32 2.31
Face 11.77 0.68 1.12 5.14 11.81 0.26 1.98
Flowers 43.25 1.66 2.69 12.45 41.26 0.63 4.88
Foreman 15.50 0.93 1.47 6.93 18.11 0.35 2.58
Lenna 39.31 2.49 3.91 18.98 41.34 0.95 6.59
Man 59.18 2.42 3.89 18.48 57.74 0.91 7.25
Monarch 62.24 3.67 5.87 27.76 53.84 1.37 10.18
Pepper 36.77 2.43 3.87 18.82 38.51 0.92 7.01
Ppt 52.06 2.95 5.01 22.11 52.51 1.19 9.01
Zebra 62.71 2.10 3.36 15.79 57.52 0.78 6.00
Average 47.05 2.13 3.41 16.06 41.53 0.81 6.05
5 结论

本文提出了一种新的基于聚类和协同表示的超分辨率重建方法,本文采用聚类方法对训练集图片提取的图像块根据其特征进行聚类,然后使用聚类后的结果训练得到多个图像字典,从而使得图像字典对图像不同特征的表示更有效,同时根据聚类字典原子计算高、低分辨率图像块映射矩阵,提高了映射矩阵的准确性。而且在重建阶段,对输入的低分辨率图像块根据其特征选择最合适的完备字典和映射矩阵对其进行重建,使得重建后图像块的特征恢复更准确,从而提高整幅图像的重建效果。实验表明本文利用聚类和协同表示的超分辨率重建算法相比现有算法对图像的重建效果更好,重建出的图像高频信息更多,重建的图像更加接近真实图像。

同时也可以看到本文改进之处,包括利用有监督的聚类算法,提高图像块特征聚类的准确性,也可以在提取图像块特征时引入其他类型的特征,如纹理特征、语义特征等等都是以后有待深入研究的方向。

参考文献
[1]
Park S C, Park M K, Kang M G. Super-resolution image reconstruction: a technical overview[J]. IEEE Signal Processing Magazine, 2003, 20(3): 21-36. DOI:10.1109/MSP.2003.1203207
[2]
Zhan S, Fang Q. Image super-resolution based on edge-enhancement and multi-dictionary learning[J]. Opto-Electronic Engineering, 2016, 43(4): 40-47.
詹曙, 方琪. 边缘增强的多字典学习图像超分辨率重建算法[J]. 光电工程, 2016, 43(4): 40-47.
[3]
Su H, Zhou J, Zhang Z H. Survey of super-resolution image reconstruction methods[J]. Acta Automatica Sinica, 2013, 39(8): 1202-1213.
苏衡, 周杰, 张志浩. 超分辨率图像重建方法综述[J]. 自动化学报, 2013, 39(8): 1202-1213.
[4]
Tsai R Y. Multiframe image restoration and registration[J]. Advances in Computer Vision and Image Processing, 1984, 1(2): 317-339.
[5]
Wu C Z, Hu C S, Zhang M J, et al. Single image super-resolution reconstruction via supervised multi-dictionary learning[J]. Opto-Electronic Engineering, 2016, 43(11): 69-75.
吴从中, 胡长胜, 张明君, 等. 有监督多类字典学习的单幅图像超分辨率重建[J]. 光电工程, 2016, 43(11): 69-75. DOI:10.3969/j.issn.1003-501X.2016.11.011
[6]
Wang R G, Wang Q H, Yang J, et al. Image super-resolution reconstruction by fusing feature classification and independent dictionary training[J]. Opto-Electronic Engineering, 2018, 45(1): 170542.
汪荣贵, 汪庆辉, 杨娟, 等. 融合特征分类和独立字典训练的超分辨率重建[J]. 光电工程, 2018, 45(1): 170542. DOI:10.12086/oee.2018.170542
[7]
Freeman W T, Jones T R, Pasztor E C. Example-based super-resolution[J]. IEEE Computer Graphics and Applications, 2002, 22(2): 56-65. DOI:10.1109/38.988747
[8]
Chang H, Yeung D Y, Xiong Y M. Super-resolution through neighbor embedding[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004: I.
[9]
Roweis S T, Saul L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323-2326. DOI:10.1126/science.290.5500.2323
[10]
Yang J C, Wright J, Huang T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861-2873. DOI:10.1109/TIP.2010.2050625
[11]
Zeyde R, Elad M, Protter M. On single image scale-up using sparse-representations[C]//International Conference on Curves and Surfaces, Berlin, Heidelberg, 2010, 6920: 711–730.
[12]
Aharon M, Elad M, Bruckstein A. rmK-SVD: An algorithm for designing overcomplete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311-4322. DOI:10.1109/TSP.2006.881199
[13]
Yang C Y, Yang M H. Fast direct super-resolution by simple functions[C]//Proceedings of 2013 IEEE International Conference on Computer Vision, 2013: 561–568.
[14]
Zhang L, Yang M, Feng X C. Sparse representation or collaborative representation: Which helps face recognition[C]// Proceedings of 2011 IEEE International Conference on Computer Vision, 2011: 471–478.
[15]
Timofte R, De Smet V, Van Gool L. Anchored neighborhood regression for fast example-based super-resolution[C]// Proceedings of 2013 IEEE International Conference on Computer Vision, 2013: 1920–1927.
[16]
Irani M, Peleg S. Improving resolution by image registration[J]. CVGIP: Graphical Models and Image Processing, 1991, 53(3): 231-239. DOI:10.1016/1049-9652(91)90045-L
[17]
Bevilacqua M, Roumy A, Guillemot C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[C]// Proceedings British Machine Vision Conference, 2012: 135.