光电工程  2020, Vol. 47 Issue (4): 190260      DOI: 10.12086/oee.2020.190260     
彩色图像多尺度引导的深度图像超分辨率重建
于淑侠 , 胡良梅 , 张旭东 , 付绪文     
合肥工业大学计算机与信息学院,安徽 合肥 230601
摘要:为获得更优的深度图像超分辨率重建结果,本文构建了彩色图像多尺度引导深度图像超分辨率重建卷积神经网络。该网络使用多尺度融合方法实现高分辨率(HR)彩色图像特征对低分辨率(LR)深度图像特征的引导,有益于恢复图像细节信息。在对LR深度图像提取特征的过程中,构建了多感受野残差块(MRFRB)提取并融合不同感受野下的特征,然后将每一个MRFRB输出的特征连接、融合,得到全局融合特征。最后,通过亚像素卷积层和全局融合特征,得到HR深度图像。实验结果表明,该算法得到的超分辨率图像缓解了边缘失真和伪影问题,有较好的视觉效果。
关键词深度图像    超分辨率重建    卷积神经网络    多尺度引导    多感受野特征    
Color image multi-scale guided depth image super-resolution reconstruction
Yu Shuxia, Hu Liangmei, Zhang Xudong, Fu Xuwen     
School of Computer and Information, Hefei University of Technology, Hefei, Anhui 230601, China
Abstract: In order to obtain better super-resolution reconstruction results of depth images, this paper constructs a multi-scale color image guidance depth image super-resolution reconstruction convolutional neural network. In this paper, the multi-scale fusion method is used to realize the guidance of high resolution (HR) color image features to low resolution (LR) depth image features, which is beneficial to the restoration of image details. In the process of extracting features from LR depth images, a multiple receptive field residual block (MRFRB) is constructed to extract and fuse the features of different receptive fields, and then connect and fuse the features of each MRFRB output to obtain global fusion features. Finally, the HR depth image is obtained through sub-pixel convolution layer and global fusion features. The experimental results show that the super-resolution image obtained by this method alleviates the edge distortion and artifact problems, and has better visual effects.
Keywords: depth image    super-resolution    convolutional neural network    multi-scale guidance    multiple receptive field characteristics    

1 引言

近年来,随着计算机视觉领域对场景深度信息的需求不断扩大,高分辨率深度图像的获取变得至关重要。然而,由于传感器等硬件条件的限制,由深度相机得到的深度图像分辨率普遍不高,很难满足实际应用需求[1-3]。例如PMD Camcube相机分辨率只有200×200[4],微软的Kinect相机分辨率也只有640×480[5]。如果通过提高硬件设施来提高深度图像的分辨率,成本将会很高,并且也存在一些很难克服的技术难题,因此通常通过软件处理的方法提高深度图像分辨率。

目前深度图像超分辨率重建问题,根据是否加入高分辨率(high resolution,HR)彩色图像作为引导,可以分为:1)仅用低分辨率(low resolution,LR)深度图像超分辨率重建,2) HR彩色图像引导LR深度图像超分辨率重建。许多学者对仅用LR深度图像超分辨率重建的问题展开了研究[6-10]。Mandal等[6]提出了一种可以基于图像噪声级别自适应的鲁棒超分辨重建算法。Aodha等[7]使用基于图像块的多感受块(multiple receptive block,MRB)模型对LR深度图进行进行超分辨率重建。Li等[8]通过添加自相似结构的几何约束来扩展文献[7]中的模型框架。Xie等[9]提出了一种新的框架,首先重建深度图像的边缘图,然后重建HR深度图。Chen等[10]提出了一种利用卷积神经网络实现单幅深度图像超分辨率重建的方法,首先利用卷积神经网络获得HR深度图像边缘图,然后用HR深度图像边缘图引导LR深度图像超分辨率重建。在该类方法中,由于输入网络的LR深度图像包含高频信息很少且没有同场景HR彩色图像作为引导,所以由此类方法得到的重建图像通常在边缘部分不是很理想。

同场景的HR彩色图像与LR深度图像包含相对应的关系,使用同场景HR彩色图像引导LR深度图像超分辨率重建有利于LR深度图像恢复高频信息,因此在对LR深度图像进行超分辨率重建时,通常会使用同场景彩色图像引导[11-16]。Liu等[11]提出了一种基于HR彩色图像引导的LR深度图像超分辨率重建鲁棒优化框架。Kiechle等[12]提出了一种双模共稀疏模型重建LR深度图像。Li等[13]将基本的引导插值问题转化为一个分层的全局优化框架,然后对LR深度图像进行重建。Park等[14]在马尔科夫模型中加入了非局部平均项,使重建图像更加可靠。Li等[15]提出了一种深层次的端到端深度图像超分辨率重建卷积神经网络,提升了重建性能,但是该网络提取的特征单一。Xiao等[16]通过两个金字塔式子网络提取LR深度图像和HR彩色图像特征。以上提到的关于HR彩色图像引导LR深度图像超分辨率重建的卷积神经网络,虽然重建效果相对较优,但是仍然存在一些问题,在使用彩色图像引导时,使用了单尺度引导,不利于对图像精细结构的恢复; 在网络的每一层只提取了单一感受野特征,没有充分提取图像特征。

针对以上问题,本文构建了彩色图像多尺度引导深度图像超分辨率重建卷积神经网络。在不同的尺度上,该网络可以在HR彩色图像分支中学习到丰富的HR特征,将其作为相对应尺度上深度图像分支中特征的补充,这种多尺度引导结构有益于恢复图像细节信息。在LR深度图像分支,首先构建了多感受野残差块(multiple receptive field residual block,MRFRB),该结构能提取并融合不同感受野下的特征,然后将每一个MRFRB输出的特征连接、融合,从而得到全局融合特征。最后,通过亚像素卷积层和融合后的特征,重建HR深度图像。综上,本文采用彩色图像特征多尺度引导深度图像重建有益于对细节信息的恢复; 本文构建的MRFRB可以提取不同感受野下的特征,有益于图像结构信息的重建。

2 理论推导

为有效提高深度图像分辨率,本文构建了彩色图像多尺度引导深度图像超分辨率重建卷积神经网络。该网络包含三个分支:彩色图像分支、深度图像分支、图像重建分支。由于LR深度图像包含较少高频信息,同场景的HR彩色图像包含较多与其相关的高频信息,因此可以通过同场景HR彩色图像引导LR深度图像超分辨率重建以获得更优的重建结果。由于图像中不同的结构信息具有不同的尺度,因此在彩色图像分支,本文提取了不同尺度下的彩色图像特征,用以引导相对应尺度的深度图像重建。对于深度图像超分辨率重建问题来说,输入的LR深度图像与输出的HR深度图像是高度相关的,如果能充分提取LR深度图像的特征,将会得到更优的重建结果。因此在深度图像分支中,本文构建了MRFRB,该结构可以提取并融合不同感受野下的特征,然后将每一个MRFRB输出的特征连接、融合,从而得到全局融合特征。在图像重建分支中,通过亚像素卷积和全局融合特征重建HR深度图像。

2.1 网络概述

本文构建的整体网络架构如图 1所示。假设超分辨率重建倍数为2s,那么彩色图像分支总共有4s-1层; 在深度图像分支,除去深度图像特征提取(deep image feature extract,DIFE)部分总共有4s层,包含s个亚像素卷积层、s个连接层、2s个卷积层。在本文框架中设超分辨率重建倍数为4。

图 1 当超分辨率重建倍数r为4时的网络结构 Fig. 1 Network structure when super-resolution reconstruction multiple r is 4

在彩色图像分支中,所有的卷积层卷积核大小均为3×3,步长为1,输出特征图个数为64,卷积过程中不改变特征图大小。HR彩色图像用HRc表示,假设HRc的大小为4m×4n。输入的HRc首先经过三个卷积层,得到Fc1Fc1大小为4m×4n,包含64张特征图。Fc1经过池化核大小为2×2,步长为2的池化层,得到Fc。具体过程如下:

${F_{\rm{c}}} = Maxpooling({F_{{\rm{c}}1}}), $ (1)

式中:Maxpooling表示最大池化,Fc的大小2m×2nFc经过三个卷积层,得到Fc2Fc2大小为2m×2n,包含64张特征图。至此,该网络在彩色图像分支提取了尺度不同的特征Fc1Fc2,用于在不同尺度下引导深度图像超分辨率重建。

在深度图像分支中,LR深度图像用LRd表示,其大小m×n。LRd经过深度图像特征提取块(deep image feature extract block,DIFE)得到Fd0Fd0的大小与LRd相同,包含256张特征图。经过亚像素卷积层得到Fd1。具体过程如下:

${F_{{\rm{d}}1}} = SF({F_{{\rm{d}}0}}), $ (2)

式中:SF表示亚像素卷积操作,超分辨率重建倍数为2,Fd1的大小为2m×2n,因此Fd1包含64张特征图,进而将由深度图像提取的特征Fd1与彩色图像提取的特征Fc2进行连接操作,得到Fd2。具体过程如下:

${F_{{\rm{d}}2}} = [{F_{{\rm{d}}1}}, {F_{{\rm{c}}2}}], $ (3)

式中:$[{F_{{\rm{d}}1}}, {F_{{\rm{c}}2}}]$表示对Fd1Fc2的连接操作,Fd2包含128张特征图。Fd2首先经过一个卷积核大小为3×3,步长为1,输出特征图个数为64的卷积层,再经过一个卷积核大小为3×3,步长为1,输出特征图个数为256的卷积层,得到Fd1Fc2融合后的特征Fd3Fd3大小为2m×2n,从而实现了彩色图像分支提取的特征Fc2在尺度2m×2n上对深度图像特征Fd1的引导。Fd3经过亚像素卷积层得到Fd4。具体过程如下:

${F_{{\rm{d}}4}} = SF({F_{{\rm{d}}3}}), $ (4)

式中:SF表示亚像素卷积操作,超分辨率重建倍数为2,Fd4的大小为4m×4n,因此Fd4包含64张特征图,进而将Fd4Fc1进行连接操作,得到Fd5。具体过程如下:

${F_{{\rm{d}}5}} = [{F_{{\rm{d}}4}}, {F_{{\rm{c}}1}}], $ (5)

式中:$[{F_{{\rm{d}}4}}, {F_{{\rm{c}}1}}]$表示对Fd4Fc1的连接操作,Fd5包含128张特征图。Fd5经过一个卷积核大小为3×3,步长为1,输出特征图个数为64的卷积层,再经过一个卷积核大小为3×3,步长为1,输出特征图个数为1的卷积层,从而得到最终融合后的特征图Fd6,实现了彩色图像分支提取的特征Fc1在尺度4m×4n上对深度图像特征Fd4的引导。

在图像重建分支中,LR深度图像首先经过一个卷积核大小为3×3,步长为1,输出特征图个数为16的卷积层,特征图的大小为m×n(该层卷积层输出特征图的个数与超分辨率重建倍数相关,假设超分辨率重建倍数为r,则该层输出特征图个数为r2)。然后经过亚像素卷积层得到Fd,其大小为4m×4n。具体过程如下:

${F_{\rm{d}}} = SF(\varphi ({W_{\rm{d}}} * L{R_{\rm{d}}} + {b_{\rm{d}}})), $ (6)

式中:$\varphi $表示激活函数,Wdbd分别表示卷积核和偏置,“*”表示卷积操作,SF表示亚像素卷积,这里的超分辨率重建倍数即为期望的超分辨率重建倍数r,因为该网络是以超分辨率重建倍数4为例,所以这里取r为4。

假设最终得到的HR深度图像用HRd表示,具体过程如下:

$H{R_{\rm{d}}} = {F_{\rm{d}}} + {F_{{\rm{d}}6}}, $ (7)

式中:“+”表示元素级相加操作,即两幅图片对应元素相加。

2.2 深度图像特征提取块

在对深度图像提取特征时,本文直接将LR深度图像LRd输入网络,这样使得后续的DIFE过程都是在LR空间下进行,降低了计算复杂度,同时使网络可以提取图像的原始特征信息。该部分网络结构如图 2所示,包含两部分:多层次特征融合和MRFRB。对于深度图像超分辨率重建问题来说,输入网络的LR深度图像所包含的信息是最可靠的,因此为了充分挖掘LR深度图像的特征,本文构建了MRFRB,该结构可以提取不同感受野下的特征,并将其融合。然后使用多层次特征融合,将各个MRFRB块所提取的特征进行融合,得到全局融合特征。

图 2 深度图特征提取块 Fig. 2 Feature extraction block of depth map
2.2.1 多层次特征融合

为了能充分利用每个MRFRB块所提取的特征,本文将各个MRFRB块所提取的特征进行连接操作。具体过程如下:

$M = [{M_0}, {M_1}, \cdots , {M_7}], $ (8)

式中:[M0M1,…,M7]表示对M0M1、…、M7特征的连接操作,M表示连接后的特征。因为M0M1、…、M7各包含64个特征图,因此M包含512张特征图。这512张特征图会包含一定的冗余信息,为了去除这些冗余信息、降低计算复杂度,将M输入一个卷积核大小为3×3,步长为1,输出特征图个数为256的卷积层,得到全局融合特征Fd0。具体过程如下:

${F_{{\rm{d}}0}} = \varphi ({W_{{\rm{d}}0}} * M + {b_{{\rm{d}}0}}), $ (9)

式中:$\varphi $表示激活函数,Wd0bd0分别表示卷积核和偏置,“*”表示卷积操作。

2.2.2 多层次特征融合多感受野残差块(MRFRB)

对于深度图像超分辨率重建问题来说,输入的LR深度图像与输出的HR深度图像是高度相关的,因此如果能充分挖掘LR深度图像的特征信息,将会得到更优的重建结果。本文构建了MRFRB,如图 3所示,该结构能提取不同感受野下的特征并将其融合,MRFRB使用了双支路,在支路一使用两个卷积核大小为3×3,步长为1,输出特征图个数为64的卷积层,因此在上面的支路输出是感受野为5×5的特征,支路二使用一个卷积核大小为3×3,步长为1,输出特征图个数为64的卷积层,因此下面的支路输出是感受野为3×3的特征。具体过程如下:

${u_0} = \varphi ({W_{u0}} * {M_{n - 1}} + {b_{u0}}), $ (10)
$u = \varphi ({W_u} * {u_0} + {b_u}), $ (11)
$v = \varphi ({W_v} * {M_{n - 1}} + {b_v}), $ (12)
图 3 多感受野残差块 Fig. 3 Multiple receptive field residual block

式中:$\varphi $表示激活函数,Wb分别表示卷积核和偏置,“*”表示卷积操作,uv分别为感受野为5×5、3×3的特征。

对两个支路得到的特征uv进行连接操作,uv连接之后具有128个特征图,为了保证MRFRB块输入输出特征图数目相同,将uv连接之后的特征图输入卷积核大小为1×1,步长为1,输出特征图个数为64的卷积层。s即为不同感受野特征融合之后的特征。具体过程如下:

$s = \varphi ({W_s} * [u, v] + {b_s}), $ (13)

式中:$\varphi $为激活函数,[$u, v$]表示对uv的连接操作,Wsbs分别表示卷积核和偏置, “*”表示卷积操作。

为了提高网络性能,本文在该部分使用了残差连接,具体过程如下:

${M_n} = s + {M_{n - 1}}, $ (14)

式中:Mn-1Mn分别表示MRFRB块的输入和输出,s表示所提取的特征。

2.3 网络训练

本文基于反向传播的随机梯度下降法[17]训练网络,使用均方误差(mean-square error, MSE)作为损失函数,则:

$L(\theta ) = \frac{1}{n}\sum\limits_{i = 1}^n {{{\left\| {F({Y_i};\theta ) - {X_i}} \right\|}^2}}, $ (15)

式中:n为每次训练样本的个数,θ表示需要学习的参数,$F({Y_i};\theta )$表示重建得到的深度图像,Xi表示参考图像。

3 实验结果与分析 3.1 实验设置

本文实验的PC配置为NVIDIA Titan X、RAM 16 G、Linux 64位操作系统,训练测试通过Tensorflow实现。

本文使用的训练数据集包含4部分,分别是Middlebury[18]、RGBZ[19]和RGBD[20]、ICL-NUIM[21]。Middlebury数据集包含丰富的HR深度信息,图像的边缘清晰,是目前验证超分辨率重建算法优劣常用的数据集,从Middlebury数据集随机选取了52个场景。RGBZ和RGBD数据集是TOF拍摄的真实场景深度图像,从RGBD和RGBZ数据集随机选取了10个场景。ICL-NUIM数据集包含丰富的HR深度信息,从中随机选取了65个场景。为了充分利用这些深度图像,本文对图像进行了旋转90°,180°,270°之后再对所有的图像进行水平镜像,最终得到1016个场景的图片。在每个训练批次中,当超分辨率重建倍数为2或4时,从1016个场景中随机剪裁大小为64×64的4个场景的图像块进行训练。每个epoch迭代100次。当超分辨率重建倍数为8时,考虑到图像本身的大小,调整图形块的大小为32×32。本文通过双三次下采样来获得LR的训练图像。

网络参数:本文使用He等[22]的方法初始化卷积层,所有的卷积层后使用激活函数PreLu。网络的初始学习率被设置为5×10-4,每15个epoch学习率下降2倍,直到学习率小于5×10-9

评价指标:本文用均方根误差(root mean squared error,RMSE)和结构相似度指数(structural similarity Index,SSIM)作为评价指标。RMSE是MSE的算术平方根,数值越小,表明重构图像质量越好。SSIM是指两幅图像之间的结构信息相似程度,SSIM值越接近1,表明重建深度图与原始图像越接近,重建效果越好。

${E_{{\rm{RMSE}}}} = \sqrt {\frac{1}{{MN}}\sum\limits_{i = 1}^M {\sum\limits_{j = 1}^N {{{(Y(i, j) - X(i, j))}^2}} } } , $ (16)
${I_{{\rm{SSIM}}}} = \frac{{(2{\mu _x}{\mu _y} + {c_1})({\sigma _{xy}} + {c_2})}}{{(\mu _x^2 + \mu _y^2 + {c_1})(\sigma _x^2 + \sigma _y^2 + {c_2})}}, $ (17)

式中:M×N是重建的HR图像Y的大小,X代表参考图像,μxσx分别表示参考图像的灰度平均值和方差,μyσy分别表示重建的HR图像的灰度平均值和方差,σxy是参考图像与重建HR图像的协方差,C1C2是防止分母为0的常数。

3.2 彩色图像对重建结果的影响

本小节对有无彩色图像引导对实验结果的影响进行了实验分析,构建了无彩色图像引导卷积神经网络(去除了本章所构建网络中的彩色图像分支,网络的其他结构均无变化)如图 4所示,在下文中用without color表示此结构。

图 4 无彩色图像引导网络结构 Fig. 4 Network structure without color image guidance

图 5为有无彩色图像引导在Middlebury数据集上的实验结果的定性比较,放大倍数为4。图 5(a)为真值图像; 图 5(b)为文献[6]的重建结果,由局部放大图可知其存在边缘模糊的问题; 图 5(c)为无彩色引导的重建结果,由局部放大图可知其在边缘存在伪影问题; 图 5(d)为本章方法重建结果,由局部放大图可知,本章方法在边缘部分重建效果较好,验证了彩色图像的引导有益于重建性能的提升。

图 5 有无彩色图像引导在Middlebury数据集上的实验结果的定性比较。 Fig. 5 Qualitative comparison of experimental results on the data set at Middlebury with and without color image guidance. (a)真值图像;(b)文献[6]方法;(c)无彩色图引导;(d)本文方法 (a) Truth image; (b) Ref. [6] method; (c) No color image guide; (d) This article method

表 1给出了有无彩色图像引导在Middlebury数据集上的实验结果的定量比较,放大倍数为4。从实验结果的定量比较分析可知,加入彩色图像的引导有助于重建结果的提升。与未加入彩色图像引导结果做比较,加入彩色图像引导的结果RMSE平均降低约0.02,SSIM平均增加约0.0001。

表 1 有无彩色图像引导在Middlebury数据集上的实验结果的定量比较 Table 1 Quantitative comparison of experimental results on the data set at Middlebury with and without color image guidance
RMSE SSIM
Art Books Moebius Art Books Moebius
Bicubic 3.8564 1.5789 1.4005 0.9683 0.9899 0.9888
Mandal[6] 2.6869 1.2520 1.1255 0.9854 0.9934 0.9925
Kim[25] 1.7986 0.7560 0.7657 0.9934 0.9966 0.9962
Without color 1.6267 0.7586 0.7448 0.9949 0.9969 0.9966
Ours 1.6000 0.7484 0.7244 0.9951 0.9969 0.9967
注:粗体字表示最优值,下划线标识次优值。

综上,从定性和定量两个方面分析结果可知,加入彩色图像作为引导有助于重建性能的提升。

3.3 与其他方法的比较

Middlebury数据集为标准的深度图像数据集,也是目前验证深度图像超分辨率重建算法优劣最常用的数据集,在Middlebury数据集上评估了本文提出的方法。由于篇幅限制,本文将实验的图像分为了A、B两组。对比的方法包括代表性的算法:双三次插值,Mandal[6]、Chen[10]、Liu[11]、Kiechle[12]、Li[13]、Park[14]、Dong[23]、Hui[24]、Kim[25]、Lai[26]。其中Chen[10]的定量结果引自文献[10],Dong[23]和Hui[24]的定量结果引自文献[24]。

在Middlebury数据集上采用RMSE、SSIM指标分别评估了本文的方法,实验结果如表 2~5所示。表 23分别是不同的方法在Middlebury数据集A、B重建结果的RMSE定量分析,由表 23可知,本文算法均优于传统算法(Mandal[6]、Liu[11]、Kiechle[12]、Li[13]、Park[14]),和基于深度学习的算法(Chen[10]、Dong[23]、Hui[24]、Kim[25]、Lai[26])相比,取得了11个最优值,4个次优值。表 4表 5分别是不同的方法在Middlebury数据集A、B重建结果的SSIM定量分析,由表 4表 5可知,本文算法取得了14个最优值,1个次优值。和次优结果相比,本文的RMSE指数平均降低了约0.083,降低比例约5.87%。SSIM指数平均增加了约0.0011。

表 2 不同的方法在Middlebury数据集A上重建结果的定量分析(RMSE) Table 2 Quantitative analysis of reconstruction results on dataset A of Middlebury by different methods (RMSE)
Art Books Moebius
X2 X4 X8 X2 X4 X8 X2 X4 X8
Bicubic 2.5837 3.8564 5.5279 1.0319 1.5789 2.2682 0.9303 1.4005 2.0578
Mandal[6] 1.7502 2.6869 6.0125 0.6152 1.2520 2.6268 0.7046 1.1255 2.2823
Liu[11] 2.3406 3.4221 4.6056 1.1873 1.6225 2.2459 1.0183 1.5159 2.1717
Kiechle[12] 1.1414 1.8789 2.8130 0.5541 0.8137 1.2378 0.6037 0.8497 1.5094
Li[13] 2.9834 4.0422 5.3825 1.2582 1.8400 2.4619 1.2400 1.7089 2.2352
Park[14] 2.9923 4.2771 6.4019 1.2339 1.8707 2.6495 1.1248 1.6981 2.5554
Dong[23] 1.1330 2.0170 3.8290 0.5230 0.9350 1.7260 0.5370 0.9130 1.5790
Hui[24] 0.8130 1.6270 2.7690 0.4170 0.7240 1.0720 0.4130 0.7410 1.1380
Kim[25] 1.0208 1.7986 3.0044 0.4553 0.7560 1.2075 0.4769 0.7657 1.1854
Lai[26] 0.7568 2.0198 3.3320 0.4470 0.8653 1.3639 0.4367 0.8843 1.3811
Ours 0.6306 1.6000 2.6063 0.4197 0.7484 1.0917 0.3905 0.7244 1.0864
注:粗体字表示最优值,下划线标识次优值。

表 3 不同的方法在Middlebury数据集B上重建结果的定量分析(RMSE) Table 3 Quantitative analysis of reconstruction results on dataset B of Middlebury by different methods (RMSE)
Cones Venus Tsukuba
X2 X4 X2 X4 X2 X4
Bicubic 2.5418 3.8659 1.3370 1.9364 5.8185 8.5637
Mandal[6] 1.9663 3.3027 0.7919 1.3592 4.4127 7.0468
Chen[10] 3.1742 0.9955 6.3472
Liu[11] 2.6181 4.5441 1.1619 1.5082 5.6176 7.9656
Kiechle[12] 1.7212 3.2005 0.6102 0.8758 3.6626 6.1629
Li[13] 3.6702 5.5222 1.2277 1.7814 6.3763 9.0654
Park[14] 4.1455 6.3944 1.2662 1.8346 6.9523 9.8982
Dong[23] 1.4840 3.5850 0.4560 0.7890 3.2750 7.9390
Hui[24] 1.1000 2.7700 0.2590 0.4220 2.4720 4.9960
Kim[25] 1.3261 2.6033 0.5517 0.8808 3.0955 5.0385
Lai[26] 0.9976 2.7728 0.3855 1.1368 2.0191 5.3103
Ours 0.8688 2.5339 0.2516 0.7055 1.8346 4.5424
注:粗体字表示最优值,下划线标识次优值。

表 4 不同的方法在Middlebury数据集A上重建结果的定量分析(SSIM) Table 4 Quantitative analysis of reconstruction results on data set A of Middlebury by different methods (SSIM)
Art Books Moebius
X2 X4 X8 X2 X4 X8 X2 X4 X8
Bicubic 0.9870 0.9683 0.9438 0.9956 0.9899 0.9833 0.9950 0.9888 0.9812
Mandal[6] 0.9943 0.9854 0.9407 0.9980 0.9934 0.9830 0.9969 0.9925 0.9788
Liu[11] 0.9902 0.9810 0.9706 0.9939 0.9910 0.9868 0.9942 0.9897 0.9834
Kiechle[12] 0.9971 0.9931 0.9863 0.9980 0.9965 0.9938 0.9975 0.9955 0.9920
Li[13] 0.9842 0.9742 0.9653 0.9936 0.9897 0.9870 0.9924 0.9884 0.9851
Park[14] 0.9847 0.9704 0.9546 0.9944 0.9895 0.9857 0.9937 0.9884 0.9836
Kim[25] 0.9974 0.9934 0.9833 0.9984 0.9966 0.9931 0.9983 0.9962 0.9921
Lai[26] 0.9984 0.9918 0.9795 0.9986 0.9962 0.9926 0.9986 0.9955 0.9909
Ours 0.9988 0.9951 0.9881 0.9985 0.9969 0.9944 0.9988 0.9967 0.9938
注:粗体字表示最优值,下划线标识次优值。

表 5 不同的方法在Middlebury数据集B上重建结果的定量分析(SSIM) Table 5 Quantitative analysis of reconstruction results on dataset B of Middlebury by different methods (SSIM)
Cones Venus Tsukuba
X2 X4 X2 X4 X2 X4
Bicubic 0.9814 0.9585 0.9935 0.9861 0.9700 0.9295
Mandal[6] 0.9877 0.9713 0.9979 0.9934 0.9829 0.9553
Chen[10] 0.9711 0.9897 0.9599
Liu[11] 0.9761 0.9473 0.9941 0.9919 0.9665 0.9461
Kiechle[12] 0.9904 0.9757 0.9983 0.9970 0.9904 0.9733
Li[13] 0.9633 0.9331 0.9951 0.9919 0.9618 0.9341
Park[14] 0.9633 0.9300 0.9943 0.9893 0.9589 0.9177
Kim[25] 0.9935 0.9826 0.9980 0.9963 0.9931 0.9781
Lai[26] 0.9952 0.9803 0.9988 0.9947 0.9956 0.9749
Ours 0.9960 0.9834 0.9993 0.9973 0.9970 0.9834
注:粗体字表示最优值,下划线标识次优值。

图 6是当超分辨率重建倍数为8时本文方法和其他方法在Middlebury数据集上的重构结果图像对比,红色矩形区域对应局部放大区域。从图 6(b)6(c)可以看出,Liu[11]和Li[13]两种方法在边缘处出现模糊的问题。Kim[25]需要用双三次插值进行预处理,并且在网络每一层只提取了单感受野特征,从图 6(d)可以看出,该方法得到的超分辨率重建结果在边缘有伪影问题。从图 6(e)可以看出,本文重建的深度图具有较好的视觉效果,接近真实值,有效地缓解了边缘失真和伪影的问题,因为本文的网络使用多尺度引导的方法重建图像,提取多感受野特征。

图 6 不同方法在Middlebury数据集上的超分辨率重建结果。 Fig. 6 Super-resolution reconstruction results on the Middlebury dataset by different methods. (a)真值图像;(b)文献[11]方法;(c)文献[13]方法;(d)文献[25]方法;(e)本文方法 (a) Truth image; (b) Ref. [11] method; (c) Ref. [13] method; (d) Ref. [25] method; (e) This article method
4 结论

针对深度图像分辨率低的问题,本文构建了一种彩色图像多尺度引导深度图像超分辨率重建卷积神经网络。在彩色图像分支,该网络可以提取不同尺度下的彩色图像特征,用以引导相对应尺度的深度图像重建。在深度图像分支,构建的MRFRB块可以提取并融合不同感受野下的特征。实验结果表明,本文方法得到的重建图像,从定性和定量两个方面均取得了较优的结果。接下来的工作考虑通过构建更优的网络结构,从而得到更优的重建结果。

参考文献
[1]
Palacios J M, Sagüés C, Montijano E, et al. Human-computer interaction based on hand gestures using RGB-D sensors[J]. Sensors, 2013, 13(9): 11842-11860. [Crossref]
[2]
Nguyen T N, Huynh H H, Meunier J. 3D reconstruction with time-of-flight depth camera and multiple mirrors[J]. IEEE Access, 2018, 6: 38106-38114. [Crossref]
[3]
Yamamoto S. Development of inspection robot for nuclear power plant[C]//Proceedings of 1992 IEEE International Conference on Robotics and Automation, Nice, France, 1992: 1559-1566.
[4]
Kolb A, Barth E, Koch R, et al. Time-of-flight cameras in computer graphics[J]. Computer Graphics Forum, 2010, 29(1): 141-159.
[5]
Xie J, Feris R S, Yu S S, et al. Joint super resolution and denoising from a single depth image[J]. IEEE Transactions on Multimedia, 2015, 17(9): 1525-1537. [Crossref]
[6]
Mandal S, Bhavsar A, Sao A K. Noise adaptive super-resolution from single image via non-local mean and sparse representation[J]. Signal Processing, 2017, 132: 134-149. [Crossref]
[7]
Aodha O M, Campbell N D F, Nair A, et al. Patch based synthesis for single depth image super-resolution[C]//Proceedings of the 12th European Conference on Computer Vision, Florence, Italy, 2012: 71-84.
[8]
Li J, Lu Z C, Zeng G, et al. Similarity-aware patchwork assembly for depth image super-resolution[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA, 2014: 3374-3381. [Crossref]
[9]
Xie J, Feris R S, Sun M T. Edge-guided single depth image super resolution[J]. IEEE Transactions on Image Processing, 2016, 25(1): 428-438. [Crossref]
[10]
Chen B L, Jung C. Single depth image super-resolution using convolutional neural networks[C]//Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing, Calgary, AB, Canada, 2018: 1473-1477.
[11]
Liu W, Chen X G, Yang J, et al. Robust color guided depth map restoration[J]. IEEE Transactions on Image Processing, 2017, 26(1): 315-327. [Crossref]
[12]
Kiechle M, Hawe S, Kleinsteuber M. A joint intensity and depth co-sparse analysis model for depth map super-resolution[C]//Proceedings of 2013 International Conference on Computer Vision, Sydney, NSW, Australia, 2013: 1545-1552.
[13]
Li Y, Min D B, Do M N, et al. Fast guided global interpolation for depth and motion[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 717-733. [Crossref]
[14]
Park J, Kim H, Tai Y W, et al. High quality depth map upsampling for 3D-tof cameras[C]//Proceedings of 2011 IEEE International Conference on Computer Vision, Barcelona, Spain, 2011: 1623-1630.
[15]
Li W, Zhang X D. Depth image super-resolution reconstruction based on convolution neural network[J]. Journal of Electronic Measurement and Instrumentation, 2017, 31(12): 1918-1928.
李伟, 张旭东. 基于卷积神经网络的深度图像超分辨率重建方法[J]. 电子测量与仪器学报, 2017, 31(12): 1918-1928
[16]
Xiao Y, Cao X, Zhu X Y, et al. Joint convolutional neural pyramid for depth map super-resolution[Z]. arXiv: 1801.00968, 2018.
[17]
Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. [Crossref]
[18]
Scharstein D, Szeliski R, Zabih R. A taxonomy and evaluation of dense two-frame stereo correspondence algorithms[C]//Proceedings of 2001 IEEE Workshop on Stereo and Multi-Baseline Vision, Kauai, HI, USA, 2001: 131-140.
[19]
Richardt C, Stoll C, Dodgson N A, et al. Coherent spatiotemporal filtering, upsampling and rendering of rgbz videos[J]. Computer Graphics Forum, 2012, 31(2): 247-256. [Crossref]
[20]
Lu S, Ren X F, Liu F. Depth enhancement via low-rank matrix completion[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA, 2014: 3390-3397.
[21]
Handa A, Whelan T, McDonald J, et al. A benchmark for RGB-D visual odometry, 3D reconstruction and SLAM[C]//Proceedings of 2014 IEEE International Conference on Robotics and Automation, Hong Kong, China, 2014: 1524-1531.
[22]
He K M, Zhang X Y, Ren S Q, et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification[C]//Proceedings of 2015 IEEE International Conference on Computer Vision, Santiago, Chile, 2015: 1026-1034. [Crossref]
[23]
Dong C, Loy C C, He K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307. [Crossref]
[24]
Hui T W, Loy C C, Tang X O. Depth map super-resolution by deep multi-scale guidance[C]//Proceedings of the 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 353-369. [Crossref]
[25]
Kim J, Lee J K, Lee K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016: 1646-1654. [Crossref]
[26]
Lai W S, Huang J B, Ahuja N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 2017: 624-632.