LSTD论文笔记

LSTD: A Low-Shot Transfer Detector for Object Detection .H Chen,Y Wang,G Wang,Y Qiao

 

摘要

目标检测的最新进展主要是由大规模检测基准的深度学习驱动的。然而,完全标注的训练集受限于目标检测任务,这可能会恶化深度检测器的性能。为了解决这一挑战,本文提出了一种新的low-shot迁移检测器(LSTD),其中利用丰富的源域source-domain)知识,在很少的训练样本下构造有效的目标域 target-domain)检测器。主要贡献如下。首先,我们设计了一种灵活的LSTD深度架构,以缓解low-shot检测中的迁移困难。这种架构可以在一个统一的深度框架中集成SSD和Faster RCNN的优点。其次,我们引入了一种新的正则化迁移学习框架用于low-shot检测,其中迁移知识(TK)和背景抑制(BD)正则化分别利用源域和目标域的对象知识,以进一步增强对少量目标图像的微调效果。最后,我们在一些具有挑战性的low-shot检测实验中验证了了我们的LSTD,其中LSTD优于其他最先进的方法。结果表明,LSTD是一种较好的low-shot检测器。

 

引言

与弱/半监督解决方案相比,迁移学习是一个不需要额外数据收集的更好的选择。更重要的是,当训练集缺乏时,源域知识是泛化目标域学习过程的有效监督。

low-shot检测的迁移学习的难点?

Ø 首先,当目标检测数据集有限时,不适合采用一般的目标检测迁移策略(即从预先训练的分类器初始化深度检测器)。这主要是因为对如此小的目标集进行微调往往难以消除检测和分类之间的任务差异。

Ø 其次,与分类器相比,检测器在迁移学习过程中更容易发生过拟合。这主要是因为检测器必须学习更多的特定于对象的表示,以完成检测的定位和分类任务。

Ø 最后,简单的微调可能会降低可迁移性,因为它经常忽略来自源域和目标域的重要对象知识。

为此,在本文中提出了Low-Shot Transfer Detector(LSTD),这是我们所知的第一个用于low-shot检测的迁移学习解决方案。主要贡献如下

首先设计了一种新的深度架构LSTD,通过将SSD和Faster RCNN 的优势整合到一个深度框架中,可以增强low-shot检测。此外,LSTD可以灵活地对两个不同的模型部分进行边界框回归和目标分类,这促进了一个方便的迁移学习过程的low-shot检测。

图片 4.jpg 

其次,提出了一种新的正则化的LSTD迁移学习框架,该框架可以灵活地从源域LSTD迁移到目标域LSTD,避免了任务差异(如一般策略中从分类迁移到检测)。在这种情况下,目标域LSTD可以充分整合来自源域LSTD的大规模检测数据的共同对象特征。此外,我们还采用一种新的正则化方法,包括迁移知识(TK)和背景抑制(BD)。TK为每个目标域proposal迁移了源目标标签知识,以泛化目标域的low-shot学习。BD融合了目标图像的边界知识作为特征图的额外监督,使得LSTD在转移目标时能够抑制背景干扰。

最后,我们的LSTD在一些low-shot检测实验上优于其他最先进的方法,这表明LSTD是低镜头场景中较好的深度检测器。

 

LSTD

3.1 LSTD的架构

为了有效地实现low-shot检测,我们首先需要缓解检测器中的训练困难,当有少量训练图像可用时。为此,我们在图1中提出了一种新的深度检测体系结构,它可以利用两个最先进的检测器:SSD和Faster RCNN,设计有效的包围盒回归和目标分类用于low-shot检测。

首先,我们以SSD的方式设计包围盒回归。具体来说,对于每个被选择的卷积层,在卷积特征图的每个空间位置上都有一些默认的候选框(不同的比例和比例)。对于任何与ground truth目标匹配的候选盒,使用回归损失(平滑L1)来惩罚预测和gt边界盒之间的偏移(盒中心、宽度和高度)误差。因此,SSD中的这种多卷积特征设计适合于定位各种大小的对象。这对于low-shot检测尤其重要,因为我们缺乏具有大小多样性的训练样本SSD中的回归器在所有对象类别中共享,而不是像Faster RCNN中那样为每个类别指定。在这种情况下,SSD的回归参数在大规模源域上进行了预训练,可以在不同的low-shot目标域上重新初始化。这避免了重新初始化边界盒随机回归,从而减少了微调负担只有少数图像在目标域。

其次,以Faster RCNN的方式设计目标分类。具体来说,我们首先处理每个默认框的二进制分类任务,以检查框是否属于某个对象。在Faster RCNN中,我们根据每个候选框的分类分数选择RPN的目标proposals。接下来,我们在中层卷积层上应用ROI池化层,该层为每个proposal生成一个固定大小的卷积特征立方体。最后,我们在ROI池化层的顶层使用了两个卷积层来进行(K+1)对象分类,而不是使用原来的Faster RCNN中的全连接层。这进一步减少了训练参数较少的过拟合。此外,与直接(K+1)-对象分类方法(单阶段方法)相比,coarse-to-fine分类方法可以更有效地缓解迁移学习的训练困难。与背景相比,源和目标中的物体可能具有一些共同的特征(例如,清晰的边缘,均匀的纹理)。因此,我们提出使用object-or-not分类器来迁移这种知识,这有助于生成更好的proposal,从而提高最终性能。相反,直接(K + 1)分类器必须处理数千个随机选择的proposals

小结:架构旨在减少low-shot检测中的迁移学习困难。为了实现这一目标,我们灵活地利用了SSD和Faster RCNN的核心设计,即边界盒回归的多卷积层设计和目标分类coarse-to-fine的设计。此外,我们的LSTD在两个相对独立的地方进行包围盒回归和对象分类,这可以进一步分解在low-shot检测中构成学习困难。

正则化迁移学习

在设计了一种灵活的LSTD深度架构后,我们引入了一种端到端正则化迁移学习框架用于low-shot检测。整个训练过程如图2所示。首先,我们在源域中训练LSTD,我们在图1中应用一个大规模的源数据集来训练LSTD。其次,我们在目标域内对预训练的LSTD进行微调,其中提出了一种新的正则化方法,以进一步增强仅训练少量图像的检测。具体来说,微调的全部损失可以写成

 图片 8.jpg

其中主要损失Lmain是LSTD中多层包围盒回归和对象分类的损失总和。需要注意的是,源和目标之间的对象类别可以是相关的,但可以是不同的,因为low-shot检测的目的是从少量目标域数据中检测出以前看不到的类别。在这种情况下,(K + 1)-对象分类(即K个对象+背景)必须在目标域内被随机重新初始化,即使包围盒回归和object-or-not分类可以从源域的预先训练的LSTD初始化。因此,仅使用Lmain进行的微调仍可能受到过拟合的影响。为了进一步增强目标域的low-shot检测,我们设计了一种新的正则化Lreg,

图片 9.jpg 

其中,LBD和LTK分别表示背景抑制迁移知识项,λBD和λTK分别为LBD和LTK的系数。

 

Background-Depression (BD) Regularization.

在提出的LSTD深度架构中,包围盒回归与SSD的多卷积层设计相结合。虽然这种设计可以降低不同尺度目标的训练难度,但是在low-shot场景下,复杂的背景仍然会干扰定位性能。为此,我们提出了一种新的背景抑制(BD)正则化方法,利用目标域的对象知识(即训练图像中的ground-truth bounding boxes)。具体来说,对于目标域内的训练图像,首先从LSTD的中层卷积层生成卷积特征立方体。然后,我们用图像中所有物体的ground-truth边界盒来掩盖mask)这个卷积立方体。因此,我们可以识别出与图像背景相对应的特征区域,即FBD。为了抑制背景干扰,使用L2正则化来惩罚FBD的激活,

图片 10.jpg 

通过该LBD, LSTD可以抑制背景区域,同时对目标对象更加关注,这对于少量训练图像的训练尤为重要。从图3中可以清楚地看出,我们的BD正则化可以帮助LSTD减少背景干扰

图片 5.jpg 

图片 6.jpg 

图片 7.jpg 

 

Transfer-Knowledge (TK) Regularization.

LSTD的coarse-to-fine分类可以缓解目标分类的困难,因为我们可以在目标域使用预训练的object-or-not分类器。然而,由于源和目标之间的类别差异,对于目标域中的K个新对象(加上背景),(K + 1)-目标分类器必须随机重新初始化。在这种情况下,仅用目标数据对该分类器进行微调可能无法充分利用源域知识。如图4所示,由于颜色(或形状)相似,目标对象Cow(或plane)与源域类别Bear(或Kite)具有很强的相关性。为此,我们提出了一种新的知识迁移(TK)正则化方法,将源网络的目标标签预测作为源域知识来正则化目标网络的low-shot检测训练。需要注意的是,检测任务中的对象分类需要应用于每个对象proposal,而不是标准图像分类任务中的整个图像。因此,我们为目标域中的每个对象proposal设计TK正则化

1)源域知识

首先,我们将训练图像分别输入源域和目标域LSTD。然后,将目标域proposal应用于源域LSTD的ROI池化层,最终由源域目标分类器生成知识向量(knowledge vector):

图片 12.jpg 

其中as是每个目标proposal的pre-softmax激活向量,τ>1是温度参数,温度参数可以可以产生具有更丰富的标记关系信息的软标签。

2)源域类别的目标域预测。

为了将源域知识psτ整合到目标域LSTD训练过程中,我们将目标域LSTD修改为一个多任务学习框架。具体来说,我们在目标域LSTD的末尾添加一个源目标软分类器( source-object soften classifier)。对于每个目标proposal,该分类器生成源目标类别的软预测,

图片 13.jpg 

其中apre是每个proposalpre-softmax激活。

3TK Regularization

利用源域LSTD的知识psτ和目标域LSTD的软化预测pτpre,将交叉熵损失作为TK正则化

图片 14.jpg 

在这种情况下,可以将源域知识集成到目标域的训练过程中,将LSTD推广到目标域的low-shot检测。

小结:为了减少对少量训练图像的过拟合,我们提出了一种端到端正则化迁移学习框架。据我们所知,这是第一个用于low-shot检测的迁移学习解决方案。整个训练过程如Alg. 1所示,我们充分利用预处理的源域LSTD来泛化目标域LSTD。此外,我们设计了一种新的正则化方法(即BD和TK)来有效地增强有限目标训练集下的微调。

 图片 11.jpg

 

 

实验

数据集

图片 15.jpg 

实现的细节

首先,LSTD的基本深层架构是建立在VGG16之上的。对于包围盒回归,使用与标准SSD中相同的结构。在目标分类方面,我们将ROI池化层应用于conv7,并在(K + 1)-对象分类器之前添加两个卷积层(对于task 1/2/3: conv12: 3x3x256, conv13: 3x3x256)。

其次,我们在正则化迁移学习框架(Alg. 1)中训练LSTD。在源域,batch_size=32,以SSD的方式训练边界盒回归器和object-or-not二值分类器。然后,选择100/100/64个proposal来训练(K+1)-对象分类器(对top 1000个proposal进行0.65非最大抑制后)。在目标域,除了选择64/64/64 proposal来训练(K+1)-对象分类器外,所有训练设置与源域相同,在conv5-3上采用背景抑制正则化,迁移-知识正则化中的温度参数为2。背景抑郁和迁移知识的权重系数均为0.5。

最后,源目标的优化策略为Adam (Kingma and Ba 2015),其中初始学习率为0.0002(衰减0.1)动量/动量2为0.9/0.99,权重衰减为0.0001。我们所有的实验都是在Caffe上进行的

 

 

 

图片 16.jpg 

 

图片 17.jpg 

 

 

图片 18.jpg 

 

 

 

图片 19.jpg 

 

 

 

 

图片 20.jpg 

 

 

 

 

 

 

 

 

 

 


上一篇:
下一篇: 没有了

首页 所有文章 机器人 计算机视觉 自然语言处理 机器学习 编程随笔 关于