
Citation: | Yuan Z A, Gu Y, Ma G. Improved CSTrack algorithm for multi-class ship multi-object tracking[J]. Opto-Electron Eng, 2023, 50(12): 230218. doi: 10.12086/oee.2023.230218 |
舰船多目标跟踪作为多目标跟踪(multi-object tracking, MOT)的重要应用场景之一,在海面救援、渔业管理、海面交通疏导以及舰船监测等领域有着重要的现实意义,其目的是定位多个感兴趣的舰船目标,并维持每个目标唯一的身份编号(identification, ID),记录连续的运动轨迹[1]。然而,在复杂海面场景下进行鲁棒跟踪仍存在诸多困难,主要体现在以下4个方面:1)跟踪过程中舰船目标被遮挡导致难以被精准定位;2)不同舰船目标间可能具有较高的外观相似性,增加了维持目标ID的难度;3)舰船目标间交互可能造成跟踪框漂移[2];4)海面上成像模糊和存在多个类别舰船目标带来的检测挑战。这些问题与行人多目标跟踪类似,但又存在差别,因此将行人多目标跟踪的方法迁移到舰船多目标跟踪时需要进行针对性调整。
传统的多目标跟踪算法包含马尔可夫决策、联合概率数据关联、粒子滤波、最近邻标准滤波等[2],这些传统方法在预测位置时存在较大的误差,并且对遮挡或相似物体的干扰鲁棒性不足。随着深度学习理论与技术的飞速发展,基于深度学习的多目标跟踪方法在性能上已超越传统方法并成为研究的主流方向[3]。现有基于深度学习的多目标跟踪算法中,目标检测和基于重识别的特征提取是影响多目标跟踪性能的两个主要因素。2016年Xiao等人首次在一个卷积神经网络里实现同时处理行人检测和行人重识别任务[4],2017年Bewley等人提出的DeepSORT算法[5]利用深 度 学 习 网 络 模 型 提 取 重 识 别(re-identificarion, ReID)特征向量进行数据关联实现行人的鲁棒跟踪。随后,研究学者在此基础上提出了多种改进算法,显著提高了多目标跟踪性能[6-9]。StrongSORT[6]算法在文献[5]的基础上优化特征提取器和特征更新策略,并使用相机运动补偿和自适应计算噪声协方差的卡尔曼滤波算法提升了目标跟踪精度;ByteTrack[7]算法利用检测框和跟踪轨迹之间的相似性,在保留高分检测结果的同时,从低分检测结果中去除背景,挖掘出模糊、被遮挡的困难目标样本,从而降低漏检并提高轨迹的连续性;FairMOT算法[8]则根据文献[4]的思想使用anchor-free方式减少anchor之间的歧义,通过聚合多层特征生成ReID特征向量提高网络对不同尺寸目标的适应能力。然而,在一个卷积神经网络中尝试同时实现目标检测和目标重识别这两种相互矛盾的任务会导致网络性能不佳。为解决这两种任务之间的矛盾,CSTrack算法[9]通过解耦的方式将网络在颈部(neck)得到的特征图分解成两部分,用不同的网络头实现不同的分支任务。这种方式虽然有效地提升了多目标跟踪的性能,但其暴力解耦的方式会带来目标特征损失的问题,导致在目标遮挡、小目标或密集目标等情况下跟踪性能下降。
为提高CSTrack算法对海面舰船多目标跟踪性能,本文从解耦网络优化设计等方面进行改进,主要贡献如下:
1) 为减少Neck处理部分的目标特征损失,使解耦后的各分支任务网络头提供更丰富的特征,提出了一种结合细粒度特征和注意力机制的改进特征解耦网络(cross-correlation network, CCN)—RES_CCN网络。
2) 对网络的检测头部分进行解耦设计,通过降低误检率提升多目标跟踪性能。
3) 针对多类别舰船跟踪任务,通过增加类别损失,将原算法扩展到多类别多目标跟踪任务。
4) 采用新加坡海事数据集(Singapore maritime dataset, SMD)[10]和MOT16[11]行人数据集进行测试验证,验证了所提方法的有效性。
本文的组织结构如下:第二节综述文献中的相关工作,第三节介绍本文提出的方法,第四节给出实验的结果和分析,第五节对本文进行了总结。
基于深度学习的多目标跟踪算法根据其网络模型完成目标检测、特征提取和数据关联三项子任务中的一项或几项可分成不同的范式,分别是分离检测与特征提取的范式(separate detection and embedding, SDE)、联合检测与特征提取的范式(joint detection and embedding, JDE)和联合检测与跟踪的范式(joint detection and tracking, JDT)[2]。SDE范式将检测和数据关联分成两个独立的任务,通常使用现成的目标检测器进行检测,使用另一个独立的关联算法进行数据关联,可以通过更换不同检测器实现性能的提升,结构灵活,但因采用两阶段处理,所以效率低下。JDT范式在一个网络里完成检测、特征提取以及ID分配三种任务,可以利用网络的反向传播实现全局优化能力,虽然大多JDT范式的主干网络共享特征,但检测网络通常独立进行,没有利用跟踪网络的线索和结果特征,且常见的ReID损失与检测损失不兼容也会造成网络的检测性能下降[12]。JDE范式在一个网络里完成目标检测和ReID特征提取两种任务,相比SDE范式,JDE范式集成度更高;相比JDT范式,JDE范式充分考虑检测任务和ReID任务之间的关系,实现了任务之间优化。
本文方法基于舰船跟踪的应用背景,从JDE跟踪范式和CSTrack跟踪方法出发,进一步改进了CSTrack跟踪方法,以实现更强大的舰船多目标跟踪能力,与本文方法相关工作的介绍具体介绍如下。
JDE范式跟踪方法又被称为单阶段跟踪方法,其框架最早由Xiao等人修改Faster RCNN[13]检测器提出,通过引入额外的全连接层,检测器获得产生ID嵌入的能力。随后Wang等人提出JDE多目标跟踪算法[14],然而其效果并不如SDE范式的算法,为了提升JDE范式跟踪方法的性能,研究人员陆续提出了一系列改进算法。除上文提到的FairMOT[8]、CSTrack[9],RelationTrack[15]与CSTrack类似,都是设计特征解耦模块,通过将特征解耦成两部分来满足各自任务的需求,不同的是CSTrack对来自不同特征层的ReID向量进行特征对齐,设计了具有多尺度学习能 力 的 尺 度 敏 感 注 意 网 络(scale-aware attention network, SAAN),而RelationTrack则考虑全局语义相关性,设计了引导式变换编码网络学习全局感知ReID特征。此外还有研究者利用时空信息来提升多目标跟踪的性能。Wan等人[16]设计了一种多通道时空特征,将目标的外观和运动特征编码到不同通道中,通过更丰富的特征来兼顾检测和ReID任务。将注意力机制用于提升多目标跟踪性能时,Meng等人[17]使用基于语义特征的空间注意力机制分析历史帧的运动轨迹从而预测目标当前位置。Guo等人[18]提出了目标注意力机制和干扰物注意力机制,有效增强模型区分不同目标的能力。
基于深度学习的舰船多目标跟踪方法研究主要涉及两个方面:舰船数据集的研究和基于深度学习的舰船检测和跟踪方法研究。质量或相关性高的数据集是训练高性能网络模型的先决条件,当前常用的舰船公开数据集包括:Bloisi等人在2015年发布的MarDCT数据集[19],Prasad等人在2017年发布的SMD数据集,Shao等人在2018年发布的SeaShips数据集[20],以及基于海面浮动摄像头拍摄的数据集Buoy[21]等。基于深度学习的舰船检测和跟踪算法亦有诸多研究[22-26],徐安林[22]等人提出一种结合层次化搜索与视觉残差网络的光学舰船目标检测方法,对于光学遥感图像中的舰船目标检测具有良好的抗干扰性能。于国莉等人[23]利用相关滤波的方法,将相关图中最大响应值位置作为舰船目标最新位置,输出舰船目标实时跟踪结果。Li等人[24]提出基于图匹配的舰船目标跟踪方法,将检测网络输入的连续帧图像替换为图数据结构,图中的点和线表示目标之间的位置信息以实现跟踪的目的。周越东[25]在特征匹配方面引入多粒度网络提取目标外观信息,并根据目标出现次数设置优先级实现出色的舰船跟踪。陈庆林[26]在DeepSORT的基础上提出了一种基于外观余弦距离平均值的改进方法,减少了舰船跟踪过程中的ID切换实现性能提升。
为详细说明本文方法,本节内容安排如下:首先在3.1节介绍CSTrack方法和网络结构,然后在3.2节介绍本文提出的改进CSTrack多目标跟踪算法,最后在3.3节介绍数据关联算法。
CSTrack在JDE算法框架的基础上进行改进,如图1所示。图1(a)和1(b)分别是JDE和CSTrack的算法流程图,检测任务要求同一类别的物体(例如行人)具有相似的语义信息,类间距离最大,而ReID任务则要求同类目标具有不同的语义信息(例如区分两个不同的行人),类内距离最大。CSTrack算法设计时认为采用共享的网络参数和结构同时实现上述两个任务会存在竞争关系,故利用共性和特性的思想在JDE算法基础上设计了解耦网络模块CCN,并针对ReID任务设计了多尺度的特征增强模块SAAN,以减少不同特征层的ID向量带来的噪声干扰,从而提升多目标跟踪性能。
如图2(a)所示,CSTrack算法的网络结构分为特征提取模块(feature extraction module)、特征融合模块(feature fusion module)、特征解耦模块(feature decoupling module)、检测头分支(detection head branch)、ReID分支(ReID branch),其中CCN网络和SAAN网络分别如图2(b)的绿色虚线框和图2(c)所示。在SAAN网络中,为了将网络不同层的输出特征对齐,分别将1/16和1/32输入图像大小的特征通过上采样方式都统一到1/8图像大小。此外引入空间注意力机制(spatial attention module, SAM)[9]和通道注意力机制(channel attention module, CAM)[9],分别如图2(d)和图2(e)所示。SAM网络增强目标相关区域特征并抑制背景噪声,CAM网络帮助模型更好地关注图像中重要特征通道,提高模型的准确性和泛化能力。在SAM网络中,Maxout和Avgout分别表示输入特征在第一维度上的最大值和均值,[Maxout, Avgout]表示两种特征向量拼接,将拼接后的向量经过卷积和激活,最后得到输入向量的空间权重。在CAM网络中,Avgpool和Maxpool分别表示平均池化和最大池化,将池化后的向量分别经过卷积和全连接(fully connected, FC),最后将得到的两个特征使用元素乘法融合并经过激活函数得到输入向量的通道权重。
CSTrack算法通过图2所示网络检测目标位置并提取外观特征向量,然后采用数据关联算法实现ID分配。给定一帧图像X,首先通过特征提取网络和融合网络得到不同分辨率的特征层Fi|i=1,2,3,然后将Fi|i=1,2,3特征都分别通过特征解耦网络模块得到适用不同任务的特征层Fdei/i=1,2,3和Fidi/i=1,2,3。最后将不同的特征层通过检测头分支和ReID分支得到对应预测检测结果以及原始的ReID特征,其中预测检测结果经过非极大值抑制处理得到目标位置候选框。在数据关联阶段,利用候选框的位置信息从ReID向量池中取出对应目标的ReID特征向量,计算当前帧检测目标与前一帧跟踪目标的代价矩阵,将代价矩阵作为匈牙利算法的输入特征以完成目标的ID分配。
针对CSTrack多目标跟踪算法存在的问题,本文从主干网络、特征解耦网络和检测输出网络等几个方面进行改进,提出的算法总体框图和特征提取网络结构如图3所示,现具体介绍如下。
CSTrack采用了YOLOv5[27]的早期版本作为特征提取和融合的网络基础。为实现更优秀的检测性能,本文的方法对CSTrack的特征提取和融合网络进行了优化和改进。本文将CSTrack中使用的YOLOv5第三个版本的特征提取和融合网络升级为第七个版本的网络。这二者的区别在于:1)将激活函数从LeakyReLU换成了SiLU函数,保留更多的输入信息;2)将Focus模块换成了Conv模块,减少模型的复杂度和计算量,方便模型部署;3)将BottleneckCSP换成了C3模块,提高模型的精度和泛化能力;4)将Backbone网络的最后两层SPP和BottleneckCSP分别换成C3和SPPF模块,提高检测速度和准确率。网络结构如图3的红色虚线框所示。
Res_CCN解耦网络是对CCN网络的改进,其中CCN的网络结构如图2(b)的绿色虚线框所示。特征层首先经过自适应平均池化得到新的不同大小的特征层F′i,接着CCN中会将新的特征层通过一对相同的卷积函数得到不同分支任务的特征M1和M2,最后为了促进两个任务的学习,利用注意力方式获得自注意力权重图和交叉相关性权重图,自注意力权重图促进各自任务的学习,交叉相关性权重图提高两个任务的协同学习。自注意力权重图WT1、WT2由M1和M2与其对应的转置张量进行矩阵乘法,并将结果经过softmax函数得到,如式(1)所示:
wijTk=exp(mik⋅mjk)C∑j=1exp(mik⋅mjk),k∈{1,2}, | (1) |
式中:“⋅”为点乘运算,mik和mjk分别表示M1或M2的第i行和第j行,wijTk表示权重映射图wTk上(i,j)位置处的值。
交叉相关性权重图Ws1由M1和M2的转置进行矩阵乘法之后经过softmax函数得到,交叉相关性权重图Ws2由M1和M2的转置进行矩阵乘法之后再经过转置和softmax函数得到,如式(2)所示:
wijsk=exp(mik⋅mjh)C∑j=1exp(mik⋅mjh),(k,h)∈{(1,2),(2,1)}, | (2) |
式中:wijsk表示M1或M2的第i个特征通道对M2或M1的第j个特征通道的影响。最后得到的自相关和交叉相关性权重映射图通过训练权重λ进行融合得到W1和W2,如式(3)所示:
Wk=λk×WTk+(1−λk)×Wsk,k∈{1,2}. | (3) |
然后原始的特征权重Fi与W1或W2使用矩阵乘法得到增强的表示特征,表示特征与原始特征图Fi使用元素加法进行特征融合,最后得到属于不同分支任务的特征张量FT1i和FT2i。
对于CCN暴力解耦带来的特征损失问题,本文从提升细粒度特征的角度在CCN解耦网络中添加了改进的Res2net网络,改进后的Res2net在残差单元中引入更多的分层残差连接,并结合CA注意力机制,从而不仅能够获得更为精细化的特征,同时还能让网络聚焦于与任务相关的特征,为解耦后的检测头分支和ReID分支提供更多的细节特征,接着解耦后每个分支任务之间的差异性通过CA注意力机制进一步调整,从而实现性能的提升。本文提出的Res_CCN解耦网络结构如图2(b)所示,现分别介绍如下:
1) 改进的Res2net模块
Res_CCN网络使用改进的Res2net block [28]模块,如图4所示。输入特征首先经过1×1卷积进行通道分组,通过参数s控制通道组,将输入平均划分到s个子集,定义为{X1,X2,...,Xs},这样每一个特征都有相同的尺度大小,均是输入特征的1/s,除了第一个子集其余的子集接着通过不同的3×3卷积核,对应的输出为{Y1,Y2,...,Ys},将得到的子特征重新拼接并通过1×1的卷积得到最后的特征。每个子集的3×3卷积核都可以潜在地接受所有其左边的特征信息,这样每一个输出都能增大感受野,同时Res2net里面的分层残差连接使感受野在更细粒度级别上能够捕获细节和全局特性的变化。接着对特征再进行尺度的细化,将1×1卷积得到的特征通过CA注意力机制,这样在保持大范围感受野的同时使用注意力机制让网络更聚集于任务相关的特征提升性能,最后经过残差连接后使用Silu函数进行激活。
2) CA注意力机制
注意力机制[29-32]已被证明有助于各种计算机视觉任务,在Res_CCN解耦网络中也同样使用注意力机制,经典的注意力机制有CA[29]、SE[30](squeeze-and-excitation attention)、CBAM[31](convolutional block attention module)、ECA[32](efficient channel attention)等。Res_CCN网络的构建目标,一方面是为了消除解耦模块可能导致的特征信息丢失,另一方面也着重于精确定位各类任务所需的特定目标特征,以减少不准确目标定位对ReID特征向量可能产生的干扰。其中,CA注意力机制不仅关注通道的信息,还深入考虑了方向相关的地理位置信息,这种设计使得它能够高效地捕捉到大范围的位置信息,同时又不会引入过多的计算负担,从而进一步提升了模型的性能。鉴于Res_CCN网络的目标和CA注意力机制的独特性质,本文决定采用CA注意力机制来增强网络的特征提取能力。
CA注意力机制网络结构图如图5所示,输入特征首先分别按照X方向和Y方向进行池化,然后进行拼接和二维卷积计算进行降维,接着将激活后的特征按照X和Y方向进行切分并分别通过不同的二维卷积和激活函数得到不同方向上的权重,最后将输入特征与权重相乘得到最后的输出特征。
与行人的多目标跟踪不同,舰船的多目标跟踪需要处理包含多种类别、尺度变化较大的目标,这对算法的目标检测能力提出了更高的要求,而多目标跟踪的性能与检测的稳定性紧密相关,因此,本文从提升目标检测性能的角度出发,通过降低误检率进一步提高多目标跟踪的表现。在YOLOv6[33]、YOLOX[34]以及最新的YOLOv8中,解耦检测头被证明可以提高对目标的检测能力,因此本文对CSTrack的检测头进行解耦设计,解耦检测头的网络设计如图6所示,特征金字塔网络(feature pyramid network, FPN)的每层输出特征首先会通过一个内核大小为1×1的Conv卷积模块,接着将得到的结果分别通过两个内核大小为3×3的Conv卷积模块,最后利用二维卷积得到不同任务的输出结果。
由于CSTrack仅支持行人单一类别目标的跟踪,针对SMD数据集等包含多个舰船类别目标的跟踪需求,本文对损失函数进行改进,添加了分类损失,使其能够同时检测多个类别的目标。最后总损失函数由定位损失、分类损失、置信度损失和ReID损失组成。其中,定位损失采用CIOU (complete-IOU)损失,而分类损失和置信度损失则采用二元交叉熵损失,参数设置同YOLOv5保持一致,ReID损失采用交叉熵损失,其损失函数的定义如式(4)所示:
Lid=−1NN∑i=1C∑c=1Yi(c)log(p(c)), | (4) |
其中:N代表当前图像中目标的数量,Yi(c)∈RC×1×1表示真值标签,P={p(c),c∈[1,2,…,C]表示ID分布向量表。最后多类别扩展的总损失函数定义如式(5)所示:
Ltotal=αLcls+βLbox+Lobj+ηLid, | (5) |
其中:Lcls、Lbox、Lobj、Lid分别表示分类损失、定位损失、置信度损失和ReID损失,α、β、η是常数,α为0.5,β为0.05,η在程序中设定为4×10−4用于平衡目标检测任务和ReID任务。
根据目标检测及提取ReID特征的结果进行数据关联,流程如图7所示。首先基于第一帧中检测到的目标进行轨迹起始,接着后续帧中检测目标和跟踪目标的匹配过程则分为三个阶段,在第一阶段,检测目标和前一帧中保留的跟踪目标使用ReID向量和位置信息分别计算余弦距离Dr和马氏距离Dm,然后通过加权的方式融合在一起,得到代价矩阵Dcost=0.98Dr+0.02Dm,匈牙利算法利用代价矩阵得到第一次的目标分配结果,成功匹配的目标会更新位置和ReID特征信息;第二阶段使用交并比(intersection over union, IOU)距离计算目标的代价矩阵,然后利用匈牙利算法完成目标和轨迹的第二次匹配;第三阶段对两次都没匹配上的检测目标初始化为新的跟踪目标,连续30帧未匹配上的跟踪目标则会被删除。
实验所用的舰船数据集是新加坡海事数据集SMD,由Prasad等人在2017年公开,分为甲板和岸上两种拍摄环境,共40个视频序列,包含十类目标。为了更具针对性,本文选取其中跟海面舰船相关的六类目标进行实验,分别是Ferry、Vessel-ship、Speed-Boat、Boat、Kayak、Sail-boat。Moosbauer等人[35]分析了SMD数据集的分布情况,提出了SMD数据集的训练集、验证集和测试集的划分方法。本文根据其论文的划分方法在进行结果测试时,发现测试集中存在着类别不均衡的问题:Boat、Kayak、Sail-boat这三类目标从测试开始到结束都没有出现相应的目标对象,这对于分析这三类目标的检测和跟踪情况不利。因此,本文在统计SMD不同视频序列中的目标类别及其数量之后,对文献[35]的划分方法进行微调,将训练集的三个视频序列MVI_1452、MVI_1587、MVI_1592变为测试集,以此补充测试集中缺少的类别和样本,另外将三个验证集MVI_1469、MVI_1578、MVI_0790调整为训练集,以此增加训练集的样本。相关视频序列的目标统计结果和划分情况如表1所示。
SMD视频序列 | 视频帧数 | Ferry | Vessel-ship | Speed-boat | Boat | Kayak | Sail-boat | 调整前 | 调整后 |
MVI_1448 | 600 | - | 3210 | 1410 | - | - | - | 测试集 | - |
MVI_1474 | 445 | 890 | 3560 | - | - | - | - | 测试集 | - |
MVI_1484 | 600 | 600 | 1200 | - | - | - | - | 测试集 | - |
MVI_1486 | 600 | 1023 | 4200 | - | - | - | - | 测试集 | - |
MVI_1582 | 540 | 540 | 5400 | - | - | - | - | 测试集 | - |
MVI_1612 | 261 | 165 | 2349 | - | - | - | - | 测试集 | - |
MVI_1626 | 556 | - | 2775 | - | - | - | - | 测试集 | - |
MVI_1627 | 600 | - | 4200 | - | - | - | - | 测试集 | - |
MVI_1640 | 310 | - | 1677 | 274 | - | - | - | 测试集 | - |
MVI_0797 | 600 | - | 767 | - | - | - | - | 测试集 | - |
MVI_1587 | 600 | - | 7800 | - | 600 | - | - | 训练集 | 测试集 |
MVI_1592 | 491 | 491 | 2347 | - | - | 791 | - | 训练集 | 测试集 |
MVI_1452 | 340 | - | 1360 | - | - | - | 340 | 训练集 | 测试集 |
MVI_1469 | 600 | - | 3600 | 941 | - | - | - | 验证集 | 训练集 |
MVI_1578 | 505 | - | 3535 | - | - | - | - | 验证集 | 训练集 |
MVI_0790 | 600 | - | 70 | - | 140 | - | - | 验证集 | 训练集 |
MVI_0799 | 600 | - | 390 | 170 | - | - | - | - | 训练集 |
除采用舰船数据集进行算法测试,本文还采用MOT16行人数据集进行消融实验以验证提出各模块的性能。消融实验训练集由ETH、CityPerson、CalTech、MOT17、MOT15、CUDK-SYSU和PRW构成,其中ETH和CityPerson仅提供检测信息,训练检测分支,其余数据集同时提供ID和检测信息,训练ReID和检测分支。验证和测试数据集由MOT16训练集构成,共7个视频序列5316帧79790个标注检测框及731个行人ID,挑战主要包括摄像头抖动、视角变化、光照变化、行人密集等。
为了定量地评价多目标跟踪算法的性能,通常结合多个指标对模型的跟踪性能进行评价,其中最重要的两个指标是MOTA (multiple object tracking accuracy)和IDF1 (identification F1 score),此外还有多数跟踪占比(mostly tracked, MT)、多数丢失占比(mostly lost, ML)指标。
MOTA综合考虑了FP (false positive)、FN (false negative)和IDS (ID switches)三个指标,通常该值越高,多目标跟踪性能越佳。如式(6)所示:
MOTA=1−∑(FN+FP+IDS)N(GT), | (6) |
其中:N(GT)表示真实值的总数,FN表示被预测为负样本的正样本数,FP表示被预测为正样本的负样本数,IDS表示整个跟踪过程中所有目标的ID交换次数,其值越低越好。
IDF1表示正确识别的检测与平均真实数和计算检测数之比,综合考虑了目标ID的准确率和召回率,主要反映数据关联的准确性。如式(7)所示:
IDF1=IDTPIDTP+0.5IDFP+0.5IDFN, | (7) |
其中:IDTP为正确分配数量,IDFN为漏分配数量,IDFP为错误分配数量。
多数跟踪占比表示80%以上的轨迹被成功跟踪的目标占比。
多数丢失占比表示80%以上的轨迹跟踪失败的目标占比。
本文使用SGD优化器在单个NVIDIA GeForce RTX 3090 GPU上训练网络30轮,使用在COCO数据集上训练的YOLOv5l模型对网络模型进行初始化。初始学习率设为5×10−4,在训练到20轮时,会将学习率衰减到5×10−5。在解耦网络中,输入特征经过平均池化处理后的尺寸为(H, W),在SMD数据集和行人数据集上,其尺寸大小均设置为(24,40)。对于不同数据集设置的batch size也不同,舰船数据集设置的batch size为4,行人数据集设置的batch size为16,其余的参数设置都与CSTrack算法保持一致。
经本文训练并测试的CSTrack算法在MOT16训练集上的指标如表2所示。其中Baseline表示CSTrack方法在MOT16上测试得到的指标,Baseline*表示CSTrack方法改进特征提取网络后测试得到的指标,Res2net*表示改进的Res2net模块。从表2中可以看出,Baseline*相比Baseline在MOTA指标上提升了2.8,Baseline+CA相比Baseline在MOTA和IDF1指标上分别提升3.0和0.4,Baseline+检测头解耦相比Baseline在MOTA和IDF1指标上分别提升3.3和1.3,证明这三个改进模块都能提升多目标跟踪性能;在Baseline*+Res2net*和Baseline*+Res2net对比实验中,Baseline*+Res2net*相比Baseline*+Res2net方法虽然MOTA值由83.2下降到83.1,但是IDF1值由75.8上升到80.8,目标切换次数由758下降到了536,证明本文的改进方法Res2net*相比Res2net,在保持MOTA指标相当的情况下在目标关联上有着更好的性能;此外,本文方法相比Baseline方法,MOTA值由79.4上升到了84.0,IDF1由77.9上升到了81.3,同时FP、FN、MT、ML、IDS指标也均表现出不同程度的上升,表明本文提出的模块结合到baseline中是有效的。
模型 | MOTA↑ | IDF1↑ | FP↓ | FN↓ | MT↑ | ML↓ | IDS↓ |
Baseline | 79.4 | 77.9 | 6235 | 15584 | 354 | 29 | 876 |
Baseline+Res2net* | 82.8 | 79.7 | 4714 | 13966 | 390 | 21 | 616 |
Baseline+CA | 82.4 | 78.3 | 4776 | 14022 | 377 | 21 | 642 |
Baseline+检测头解耦 | 82.7 | 79.2 | 4628 | 14318 | 375 | 28 | 571 |
Baseline* | 82.2 | 75.4 | 4927 | 13801 | 389 | 23 | 875 |
Baseline*+Res2net | 83.2 | 75.8 | 4459 | 13350 | 398 | 22 | 758 |
Baseline*+Res2net* | 83.1 | 80.8 | 4413 | 13720 | 385 | 23 | 536 |
Baseline*+ Res2net* +CA注意力机制(Baseline*+RES_CCN) | 83.4 | 81.9 | 4335 | 13434 | 393 | 18 | 571 |
Baseline*+ Res2net* +CA注意力机制+检测头解耦 | 84.0 | 81.3 | 4000 | 13107 | 400 | 20 | 480 |
为了研究RES_CCN网络模块对Baseline*的影响,本文也对Baseline*及RES_CCN内部使用的网络模块进行了定量分析,如表2所示。Baseline*+Res2net*相比Baseline*在MOTA和IDF1指标上分别提升0.9、5.4,表明Baseline*结合改进的Res2net模块能提升目标跟踪性能;将改进的Res2net模块与CA注意力机制结合Baseline*在MOTA提升1.2,IDF1提升6.5,同时FP、FN、MT、ML、IDS都有不同程度的上升,表明改进RES_CCN网络对Baseline*的跟踪性能提升同样是有效的。
此外,为评估CA注意力机制与其他常见注意力机制在网络跟踪性能方面的影响,本文对四种典型的注意力机制进行了详细的对比测试,包括SE、CBAM、ECA和CA注意力机制。采用这些注意力机制的实验结果如表3所示。其中CA注意力机制相比其他注意力机制拥有最高的MOTA值,IDF1、FN、IDS的值也最好,因此本文方法选用CA注意力机制提升网络的跟踪性能。
模型 | MOTA↑ | IDF1↑ | FP↓ | FN↓ | MT↑ | ML↓ | IDS↓ |
SE | 83.0 | 78.6 | 4624 | 13557 | 394 | 18 | 589 |
CBAM | 83.6 | 80.8 | 4229 | 13402 | 391 | 20 | 491 |
ECA | 80.5 | 79.3 | 3316 | 17806 | 351 | 29 | 489 |
CA | 84.0 | 81.3 | 4000 | 13107 | 400 | 20 | 480 |
由于检测损失和ReID损失的权重参数的选择对跟踪性能有较大影响,本文通过实验分析其影响。实验中检测损失的权重参数固定,将η从4×10−2到4×10−5变化,多目标跟踪性能指标如表4所示。当ReID权重参数由4×10−2下降到4×10−4的时候,MOTA、FP、FN、MT、ML、IDS的指标呈现变好的趋势,但是IDF1值下降,说明随着ReID权重参数的下降能提升算法的目标检测性能,但是对于数据关联是不利的;不过随着ReID权重参数不断下降,MOTA、FP、FN、MT、ML、IDS指标也不再上升,反而呈现下降的趋势。由上述分析可知,ReID权重参数的下降在一定程度上有利于算法的检测性能提升,但是不利于关联性能的提升。从表4中可以看出,当权重参数选为4×10−4时,MOTA值最高,漏检、误检以及目标切换次数最少,因此本文方法设置为4×10−4。
ReID权重参数 | MOTA↑ | IDF1↑ | FP↓ | FN↓ | MT↑ | ML↓ | IDS↓ |
4X10-2 | 80.1 | 83.0 | 4685 | 14488 | 374 | 28 | 576 |
4X10-3 | 81.1 | 82.6 | 4416 | 13687 | 388 | 23 | 530 |
4X10-4 | 84.0 | 81.3 | 4000 | 13107 | 400 | 20 | 480 |
4X10-5 | 83.5 | 80.2 | 4319 | 13379 | 396 | 22 | 530 |
为测试和比较本文所提方法与其他先进方法在舰船多目标跟踪方面的性能,本小节在SMD数据集上进行了定量分析。本文训练并测试了几种先进算法在SMD数据集上的指标,如表5所示。CSTrack算法因为使用特征解耦和ReID特征对齐所以相比DeepSORT算法MOTA值提升了7.4,提升明显,IDF1值提升了0.3,但是相比StrongSORT和ByteTrack算法,CSTrack则性能稍差。本文方法在CSTrack算法上进行改进,通过RES_CCN网络保留了更多的细粒度特征以及对检测头的解耦操作,提升算法的多目标跟踪性能,相比StrongSORT方法,本文方法的MOTA值高出4.8,IDF1、FP、FN等指标也都优于StrongSORT;相比ByteTrack方法,MOTA值高出2.1,FP、FN、ML也都优于ByteTrack;相比CSTrack方法,MOTA提升了8.4,IDF1提升了3.1,FP、FN和ML指标也都有不同程度的提升。MOTA综合了FP、FN、IDS指标,从而衡量算法的综合跟踪性能。从表5中可以看出,相比其他方法,本文所提方法的MOTA指标最优。
算法 | MOTA↑ | IDF1↑ | FP↓ | FN↓ | MT↑ | ML↓ | IDS↓ |
DeepSORT | 31.1 | 62.3 | 21678 | 11082 | 69 | 25 | 224 |
StrongSORT | 42.1 | 65 | 13264 | 17233 | 63 | 21 | 224 |
ByteTrack | 44.8 | 67.3 | 9387 | 17003 | 57 | 26 | 49 |
CSTrack | 38.5 | 62.6 | 9760 | 19617 | 48 | 33 | 109 |
本文方法 | 46.9 | 65.7 | 6658 | 16565 | 43 | 23 | 172 |
将改进特征提取网络后的方法CSTrack*作为基准,通过对实验的结果进行可视化来分析本文方法在目标遮挡、小目标或密集目标场景中等情况下表现出的效果。由于原数据集的图片过大,含有的目标比较多,不方便对比分析,截取了实验中间比较有代表性的一些跟踪结果来比较效果,分别如图8和图9所示。
如图8(a)所示,在MVI_1627_VIS的视频序列中,基准方法在第397帧中对尺寸较大船只旁边的小船检测不到,出现漏检,而本文方法则可以正确检测,说明本文方法相比基准算法能保留更多的特征信息;在MVI_1484_VIS视频序列中,基准方法出现了误检,将船舱部分检测为一个新的目标,而本文方法则检测正确,且置信度较高。如图8(b)所示,在MVI_1640_VIS的视频序列中,基准方法和本文方法对连在一块的两个船只都出现了漏检现象,而在第36帧的时候基准方法出现了ID切换,本文方法则保持原来的ID。通过以上的定性分析证明本文的改进特征解耦模块和检测解耦头设计在海面舰船跟踪方面发挥了作用。
在图9(a)所示的MOT16-04视频序列中,第001帧中人流密集的场所基准方法出现了误检,而本文方法则检测正确;在MOT16-13视频序列的第367帧中,基准方法出现了漏检,而本文方法则能正确地检测出。在图9(b)所示的MOT16-10视频序列中,基准方法的第72帧相比前一帧出现了ID切换,重新生成了一个新的跟踪目标,由粉红色目标框切换为了紫色的目标框,而本文方法在人流密集的场所仍能保持ID。通过上面的定性分析,证明本文所提方法的有效性。不过本文方法同样存在一定的问题,如在MOT16-04视频序列的37帧中,本文方法相比基准方法出现了误检,本文方法在分别检测出两个行人的同时将两个行人又作为了一个整体的检测对象,虽然这种误检发生的概率极低,但仍然影响跟踪器的性能,可能因为改进的Res2net在特征解耦前关注了大范围的位置信息,带来了多余噪声信息导致出现误检。
CSTrack通过解耦的方式虽然能够缓解目标检测和目标重识别任务之间的矛盾,提升多目标跟踪的性能,但这种暴力解耦的方法会导致目标特征损失,从而降低算法跟踪性能。为提高CSTrack算法的海面舰船多目标跟踪性能,本文在算法多个方面进行改进。在网络的解耦部分,提出了一种结合细粒度特征和注意力机制的改进特征解耦网络RES_CCN,其通过增加感受野并在残差单元中插入更多带层级的残差连接结构,获得了更加细粒度的特征,提升了多目标跟踪的性能。为满足多类别舰船多目标跟踪的需求,采用检测头解耦网络及改进损失函数进一步提升了跟踪性能。最后,本文在SMD和MOT16数据集上进行了测试和验证,实验结果证明所提网络方法的有效性。但是,本文方法也存在局限性,RES_CCN中的Res2net网络部分在特征解耦之前关注了大范围的位置信息,可能引入了多余的噪声信息,从而影响了跟踪性能。因此,下一步的研究重点是尽量减少网络引入的噪声,以避免误检现象对跟踪性能的影响。
利益冲突:所有作者声明无利益冲突
[1] | Ciaparrone G, Sánchez F L, Tabik S, et al. Deep learning in video multi-object tracking: a survey[J]. Neurocomputing, 2020, 381: 61−88. doi: 10.1016/j.neucom.2019.11.023 |
[2] | 伍瀚, 聂佳浩, 张照娓, 等. 基于深度学习的视觉多目标跟踪研究综述[J]. 计算机科学, 2023, 50(4): 77−87. doi: 10.11896/jsjkx.220300173 Wu H, Lie J H, Zhang Z W, et al. Deep learning-based visual multiple object tracking: a review[J]. Comput Sci, 2023, 50(4): 77−87. doi: 10.11896/jsjkx.220300173 |
[3] | Wang G A, Song M L, Hwang J N. Recent advances in embedding methods for multi-object tracking: a survey[Z]. arXiv: 2205.10766, 2022. https://doi.org/10.48550/arXiv.2205.10766. |
[4] | Xiao T, Li S, Wang B C, et al. Joint detection and identification feature learning for person search[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, 2017: 3376–3385.https://doi.org/10.1109/CVPR.2017.360. |
[5] | Wojke N, Bewley A, Paulus D. Simple online and realtime tracking with a deep association metric[C]//Proceedings of 2017 IEEE International Conference on Image Processing, Beijing, 2017: 3645–3649. https://doi.org/10.1109/ICIP.2017.8296962. |
[6] | Du Y H, Zhao Z C, Song Y, et al. StrongSORT: make deepSORT great again[Z]. arXiv: 2202.13514, 2023. https://doi.org/10.48550/arXiv.2202.13514. |
[7] | Zhang Y F, Sun P Z, Jiang Y, et al. Bytetrack: multi-object tracking by associating every detection box[C]//Proceedings of the 17th European Conference on Computer Vision, Tel Aviv, 2022: 1–21. https://doi.org/10.1007/978-3-031-20047-2_1. |
[8] | Zhang Y F, Wang C Y, Wang X G, et al. FairMOT: on the fairness of detection and re-identification in multiple object tracking[J]. Int J Comput Vis, 2021, 129(11): 3069−3087. doi: 10.1007/s11263-021-01513-4 |
[9] | Liang C, Zhang Z P, Zhou X, et al. Rethinking the competition between detection and ReID in multiobject tracking[J]. IEEE Trans Image Process, 2022, 31: 3182−3196. doi: 10.1109/TIP.2022.3165376 |
[10] | Prasad D K, Rajan D, Rachmawati L, et al. Video processing from electro-optical sensors for object detection and tracking in a maritime environment: a survey[J]. IEEE Trans Intell Transp Syst, 2017, 18(8): 1993−2016. doi: 10.1109/TITS.2016.2634580 |
[11] | Milan A, Leal-Taixé L, Reid I, et al. MOT16: a benchmark for multi-object tracking[Z]. arXiv: 1603.00831, 2016. https://doi.org/10.48550/arXiv.1603.00831. |
[12] | Wu J L, Cao J L, Song L C, et al. Track to detect and segment: an online multi-object tracker[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, 2021: 12347–12356. https://doi.org/10.1109/CVPR46437.2021.01217. |
[13] | Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 39(6): 1137−1149. doi: 10.1109/TPAMI.2016.2577031 |
[14] | Wang Z D, Zheng L, Liu Y X, et al. Towards real-time multi-object tracking[C]//Proceedings of the 16th European Conference on Computer Vision, Glasgow, 2020: 107–122. https://doi.org/10.1007/978-3-030-58621-8_7. |
[15] | Yu E, Li Z L, Han S D, et al. RelationTrack: relation-aware multiple object tracking with decoupled representation[J]. IEEE Trans Multimedia, 2022, 25: 2686−2697. doi: 10.1109/TMM.2022.3150169 |
[16] | Wan X Y, Zhou S P, Wang J J, et al. Multiple object tracking by trajectory map regression with temporal priors embedding[C]//Proceedings of the 29th ACM International Conference on Multimedia, 2021: 1377–1386. https://doi.org/10.1145/3474085.3475304. |
[17] | Meng F J, Wang X Q, Wang D, et al. Spatial–semantic and temporal attention mechanism-based online multi-object tracking[J]. Sensors, 2020, 20(6): 1653. doi: 10.3390/s20061653 |
[18] | Guo S, Wang J Y, Wang X C, et al. Online multiple object tracking with cross-task synergy[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, 2021: 8132–8141. https://doi.org/10.1109/CVPR46437.2021.00804. |
[19] | Bloisi D D, Iocchi L, Pennisi A, et al. ARGOS-Venice boat classification[C]//Proceedings of the 2015 12th IEEE International Conference on Advanced Video and Signal Based Surveillance, Karlsruhe, 2015: 1–6. https://doi.org/10.1109/AVSS.2015.7301727. |
[20] | Shao Z F, Wu W J, Wang Z Y, et al. SeaShips: a large-scale precisely annotated dataset for ship detection[J]. IEEE Trans Multimedia, 2018, 20(10): 2593−2604. doi: 10.1109/TMM.2018.2865686 |
[21] | Ribeiro R, Cruz G, Matos J, et al. A data set for airborne maritime surveillance environments[J]. IEEE Trans Circuits Syst Video Technol, 2017, 29(9): 2720−2732. doi: 10.1109/TCSVT.2017.2775524 |
[22] | 徐安林, 杜丹, 王海红, 等. 结合层次化搜索与视觉残差网络的光学舰船目标检测方法[J]. 光电工程, 2021, 48(4): 200249. doi: 10.12086/oee.2021.200249 Xu A L, Du D, Wang H H, et al. Optical ship target detection method combining hierarchical search and visual residual network[J]. Opto-Electron Eng, 2021, 48(4): 200249. doi: 10.12086/oee.2021.200249 |
[23] | 于国莉, 桑金歌, 李俊荣. 基于改进卷积神经网络的舰船实时目标跟踪识别技术[J]. 舰船科学技术, 2022, 44(21): 152−155. doi: 10.3404/j.issn.1672-7649.2022.21.031 Yu G L, Sang J G, Li J R. Ship real-time target tracking and recognition technology based on improved convolutional neural network[J]. Ship Sci Technol, 2022, 44(21): 152−155. doi: 10.3404/j.issn.1672-7649.2022.21.031 |
[24] | Li G Y, Qiao Y L. A ship target detection and tracking algorithm based on graph matching[J]. J Phys Conf Ser, 2021, 1873: 012056. doi: 10.1088/1742-6596/1873/1/012056 |
[25] | 周越冬. 基于深度学习的遥感图像舰船多目标跟踪方法研究[D]. 西安: 西安电子科技大学, 2021.https://doi.org/10.27389/d.cnki.gxadu.2021.000391. Zhou Y D. Research on ship multiple object tracking in remote sensing image based on deep learning[D]. Xi’an: Xidian University, 2021. https://doi.org/10.27389/d.cnki.gxadu.2021.000391. |
[26] | 陈庆林. 面向舰船视频目标检测的标注与多目标跟踪算法研究[D]. 杭州: 杭州电子科技大学, 2021. https://doi.org/10.27075/d.cnki.ghzdc.2021.000349. Chen Q L. Research on automatic annotation and multi-target tracking algorithm for ship video target detection[D]. Hangzhou: Hangzhou Dianzi University, 2021. https://doi.org/10.27075/d.cnki.ghzdc.2021.000349. |
[27] | 陈旭, 彭冬亮, 谷雨. 基于改进YOLOv5s的无人机图像实时目标检测[J]. 光电工程, 2022, 49(3): 210372. doi: 10.12086/oee.2022.210372 Chen X, Peng D L, Gu Y. Real-time object detection for UAV images based on improved YOLOv5s[J]. Opto-Electron Eng, 2022, 49(3): 210372. doi: 10.12086/oee.2022.210372 |
[28] | Gao S H, Cheng M M, Zhao K, et al. Res2Net: a new multi-scale backbone architecture[J]. IEEE Trans Pattern Anal Mach Intell, 2019, 43(2): 652−662. doi: 10.1109/TPAMI.2019.2938758 |
[29] | Hou Q B, Zhou D Q, Feng J S. Coordinate attention for efficient mobile network design[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, 2021: 13708–13717. https://doi.org/10.1109/CVPR46437.2021.01350. |
[30] | Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018: 7132–7141. https://doi.org/10.1109/CVPR.2018.00745. |
[31] | Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of the 15th European Conference on Computer Vision, Munich, 2018: 3–19. https://doi.org/10.1007/978-3-030-01234-2_1. |
[32] | Wang Q L, Wu B G, Zhu P F, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, 2020: 11531–11539. https://doi.org/10.1109/CVPR42600.2020.01155. |
[33] | Li C Y, Li L L, Jiang H L, et al. YOLOv6: a single-stage object detection framework for industrial applications[Z]. arXiv: 2209.02976, 2022. https://doi.org/10.48550/arXiv.2209.02976. |
[34] | Ge Z, Liu S T, Wang F, et al. YOLOX: exceeding YOLO series in 2021[Z]. arXiv: 2107.08430, 2021. https://doi.org/10.48550/arXiv.2107.08430. |
[35] | Moosbauer S, König D, Jäkel J, et al. A benchmark for deep learning based object detection in maritime environments[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Long Beach, 2019: 916–925. https://doi.org/10.1109/CVPRW.2019.00121. |
Ship multi-object tracking is an important application scenario in the field of multi-object tracking (MOT), and can be widely applied in both military and civilian fields. The objective of MOT is to locate multiple ship objects and maintain a unique identification (ID) number for each ship object, and record its continuous trajectory. The difficulty of MOT lies in the uncertainty of false positives, false negatives, ID switches, and object numbers. The feature maps obtained by the neck part of the network in CSTrack multi-object tracking algorithm are decomposed into two different feature vectors by decoupling, and are as the input of object detection and Re-identification networks respectively to alleviate the contradiction between these two tasks and improve the performance of multi-object tracking. However, this kind of violent decoupling will bring about the problem of object feature loss, which leads to the deterioration of tracking performance in the case of object occlusion, small objects, or dense objects. To solve this issue, an improved cross-correlation network (CCN) named RES_CCN which can extract fine-grained features is proposed in this paper. This network is composed of an improved Res2net network, coordinate attention, and CCN network, and is inserted between the neck and head modules of the network, so that more fine-grained features can be obtained by increasing the receptive field and inserting more hierarchical residual connection structures into the residual unit before feature decoupling. To meet the requirements of multi-class ship multi-object tracking and improve the detection performance of the algorithm, the decoupled design of the detection head network is used to predict class, confidence, and position of objects, respectively, and binary cross-entropy is used as class loss function and added to the total loss function. Finally, the ablation experimental results on the MOT2016 dataset show that the multiple object tracking accuracy (MOTA) of the proposed algorithm has an improvement of 4.6 compared with that of the original algorithm, and the identification F1 score (IDF1) is increased by 3.4. When tested on the Singapore maritime dataset, the MOTA of the proposed algorithm is improved by 8.4 compared with that of the original CSTrack, and IDF1 is increased by 3.1, which are better than the performance of ByteTrack and other algorithms. The qualitative experimental results show that the proposed algorithm can effectively detect small objects and maintain object IDs in sea-surface scenarios. The algorithm proposed in this paper has the characteristics of high tracking accuracy and low error detection rate, and is suitable for ship multi-object tracking in sea-surface scenarios.
1. | 李士博,肖振久,曲海成,李富坤,王晶晶. 面向SAR图像舰船检测的多粒度特征与形位相似度量方法. 光电工程. 2025(02): 48-63 .
![]() |
SMD视频序列 | 视频帧数 | Ferry | Vessel-ship | Speed-boat | Boat | Kayak | Sail-boat | 调整前 | 调整后 |
MVI_1448 | 600 | - | 3210 | 1410 | - | - | - | 测试集 | - |
MVI_1474 | 445 | 890 | 3560 | - | - | - | - | 测试集 | - |
MVI_1484 | 600 | 600 | 1200 | - | - | - | - | 测试集 | - |
MVI_1486 | 600 | 1023 | 4200 | - | - | - | - | 测试集 | - |
MVI_1582 | 540 | 540 | 5400 | - | - | - | - | 测试集 | - |
MVI_1612 | 261 | 165 | 2349 | - | - | - | - | 测试集 | - |
MVI_1626 | 556 | - | 2775 | - | - | - | - | 测试集 | - |
MVI_1627 | 600 | - | 4200 | - | - | - | - | 测试集 | - |
MVI_1640 | 310 | - | 1677 | 274 | - | - | - | 测试集 | - |
MVI_0797 | 600 | - | 767 | - | - | - | - | 测试集 | - |
MVI_1587 | 600 | - | 7800 | - | 600 | - | - | 训练集 | 测试集 |
MVI_1592 | 491 | 491 | 2347 | - | - | 791 | - | 训练集 | 测试集 |
MVI_1452 | 340 | - | 1360 | - | - | - | 340 | 训练集 | 测试集 |
MVI_1469 | 600 | - | 3600 | 941 | - | - | - | 验证集 | 训练集 |
MVI_1578 | 505 | - | 3535 | - | - | - | - | 验证集 | 训练集 |
MVI_0790 | 600 | - | 70 | - | 140 | - | - | 验证集 | 训练集 |
MVI_0799 | 600 | - | 390 | 170 | - | - | - | - | 训练集 |
模型 | MOTA↑ | IDF1↑ | FP↓ | FN↓ | MT↑ | ML↓ | IDS↓ |
Baseline | 79.4 | 77.9 | 6235 | 15584 | 354 | 29 | 876 |
Baseline+Res2net* | 82.8 | 79.7 | 4714 | 13966 | 390 | 21 | 616 |
Baseline+CA | 82.4 | 78.3 | 4776 | 14022 | 377 | 21 | 642 |
Baseline+检测头解耦 | 82.7 | 79.2 | 4628 | 14318 | 375 | 28 | 571 |
Baseline* | 82.2 | 75.4 | 4927 | 13801 | 389 | 23 | 875 |
Baseline*+Res2net | 83.2 | 75.8 | 4459 | 13350 | 398 | 22 | 758 |
Baseline*+Res2net* | 83.1 | 80.8 | 4413 | 13720 | 385 | 23 | 536 |
Baseline*+ Res2net* +CA注意力机制(Baseline*+RES_CCN) | 83.4 | 81.9 | 4335 | 13434 | 393 | 18 | 571 |
Baseline*+ Res2net* +CA注意力机制+检测头解耦 | 84.0 | 81.3 | 4000 | 13107 | 400 | 20 | 480 |
模型 | MOTA↑ | IDF1↑ | FP↓ | FN↓ | MT↑ | ML↓ | IDS↓ |
SE | 83.0 | 78.6 | 4624 | 13557 | 394 | 18 | 589 |
CBAM | 83.6 | 80.8 | 4229 | 13402 | 391 | 20 | 491 |
ECA | 80.5 | 79.3 | 3316 | 17806 | 351 | 29 | 489 |
CA | 84.0 | 81.3 | 4000 | 13107 | 400 | 20 | 480 |
ReID权重参数 | MOTA↑ | IDF1↑ | FP↓ | FN↓ | MT↑ | ML↓ | IDS↓ |
4X10-2 | 80.1 | 83.0 | 4685 | 14488 | 374 | 28 | 576 |
4X10-3 | 81.1 | 82.6 | 4416 | 13687 | 388 | 23 | 530 |
4X10-4 | 84.0 | 81.3 | 4000 | 13107 | 400 | 20 | 480 |
4X10-5 | 83.5 | 80.2 | 4319 | 13379 | 396 | 22 | 530 |
算法 | MOTA↑ | IDF1↑ | FP↓ | FN↓ | MT↑ | ML↓ | IDS↓ |
DeepSORT | 31.1 | 62.3 | 21678 | 11082 | 69 | 25 | 224 |
StrongSORT | 42.1 | 65 | 13264 | 17233 | 63 | 21 | 224 |
ByteTrack | 44.8 | 67.3 | 9387 | 17003 | 57 | 26 | 49 |
CSTrack | 38.5 | 62.6 | 9760 | 19617 | 48 | 33 | 109 |
本文方法 | 46.9 | 65.7 | 6658 | 16565 | 43 | 23 | 172 |
SMD视频序列 | 视频帧数 | Ferry | Vessel-ship | Speed-boat | Boat | Kayak | Sail-boat | 调整前 | 调整后 |
MVI_1448 | 600 | - | 3210 | 1410 | - | - | - | 测试集 | - |
MVI_1474 | 445 | 890 | 3560 | - | - | - | - | 测试集 | - |
MVI_1484 | 600 | 600 | 1200 | - | - | - | - | 测试集 | - |
MVI_1486 | 600 | 1023 | 4200 | - | - | - | - | 测试集 | - |
MVI_1582 | 540 | 540 | 5400 | - | - | - | - | 测试集 | - |
MVI_1612 | 261 | 165 | 2349 | - | - | - | - | 测试集 | - |
MVI_1626 | 556 | - | 2775 | - | - | - | - | 测试集 | - |
MVI_1627 | 600 | - | 4200 | - | - | - | - | 测试集 | - |
MVI_1640 | 310 | - | 1677 | 274 | - | - | - | 测试集 | - |
MVI_0797 | 600 | - | 767 | - | - | - | - | 测试集 | - |
MVI_1587 | 600 | - | 7800 | - | 600 | - | - | 训练集 | 测试集 |
MVI_1592 | 491 | 491 | 2347 | - | - | 791 | - | 训练集 | 测试集 |
MVI_1452 | 340 | - | 1360 | - | - | - | 340 | 训练集 | 测试集 |
MVI_1469 | 600 | - | 3600 | 941 | - | - | - | 验证集 | 训练集 |
MVI_1578 | 505 | - | 3535 | - | - | - | - | 验证集 | 训练集 |
MVI_0790 | 600 | - | 70 | - | 140 | - | - | 验证集 | 训练集 |
MVI_0799 | 600 | - | 390 | 170 | - | - | - | - | 训练集 |
模型 | MOTA↑ | IDF1↑ | FP↓ | FN↓ | MT↑ | ML↓ | IDS↓ |
Baseline | 79.4 | 77.9 | 6235 | 15584 | 354 | 29 | 876 |
Baseline+Res2net* | 82.8 | 79.7 | 4714 | 13966 | 390 | 21 | 616 |
Baseline+CA | 82.4 | 78.3 | 4776 | 14022 | 377 | 21 | 642 |
Baseline+检测头解耦 | 82.7 | 79.2 | 4628 | 14318 | 375 | 28 | 571 |
Baseline* | 82.2 | 75.4 | 4927 | 13801 | 389 | 23 | 875 |
Baseline*+Res2net | 83.2 | 75.8 | 4459 | 13350 | 398 | 22 | 758 |
Baseline*+Res2net* | 83.1 | 80.8 | 4413 | 13720 | 385 | 23 | 536 |
Baseline*+ Res2net* +CA注意力机制(Baseline*+RES_CCN) | 83.4 | 81.9 | 4335 | 13434 | 393 | 18 | 571 |
Baseline*+ Res2net* +CA注意力机制+检测头解耦 | 84.0 | 81.3 | 4000 | 13107 | 400 | 20 | 480 |
模型 | MOTA↑ | IDF1↑ | FP↓ | FN↓ | MT↑ | ML↓ | IDS↓ |
SE | 83.0 | 78.6 | 4624 | 13557 | 394 | 18 | 589 |
CBAM | 83.6 | 80.8 | 4229 | 13402 | 391 | 20 | 491 |
ECA | 80.5 | 79.3 | 3316 | 17806 | 351 | 29 | 489 |
CA | 84.0 | 81.3 | 4000 | 13107 | 400 | 20 | 480 |
ReID权重参数 | MOTA↑ | IDF1↑ | FP↓ | FN↓ | MT↑ | ML↓ | IDS↓ |
4X10-2 | 80.1 | 83.0 | 4685 | 14488 | 374 | 28 | 576 |
4X10-3 | 81.1 | 82.6 | 4416 | 13687 | 388 | 23 | 530 |
4X10-4 | 84.0 | 81.3 | 4000 | 13107 | 400 | 20 | 480 |
4X10-5 | 83.5 | 80.2 | 4319 | 13379 | 396 | 22 | 530 |
算法 | MOTA↑ | IDF1↑ | FP↓ | FN↓ | MT↑ | ML↓ | IDS↓ |
DeepSORT | 31.1 | 62.3 | 21678 | 11082 | 69 | 25 | 224 |
StrongSORT | 42.1 | 65 | 13264 | 17233 | 63 | 21 | 224 |
ByteTrack | 44.8 | 67.3 | 9387 | 17003 | 57 | 26 | 49 |
CSTrack | 38.5 | 62.6 | 9760 | 19617 | 48 | 33 | 109 |
本文方法 | 46.9 | 65.7 | 6658 | 16565 | 43 | 23 | 172 |
Flowchart of the JDE and CSTrack algorithms. (a) JDE; (b) CSTrack
Network architecture of the CSTrack. (a) Overall framework; (b) CCN and Res_CCN networks; (c) SAAN network; (d) SAM network; (e) CAM network
Overall framework and feature extraction network architecture of the proposed method
Network architecture of the improved Res2net
Network architecture of CA
Network architecture of decoupled head
Flowchart of matching cascade
Comparison of visualization results between our method and baseline on SMD validation set. (a) FN and FP; (b) ID switch and FN
Comparison of visualization results between our method and baseline on MOT validation set. (a) FP and FN; (b) ID switch and special FP