IROS2019目标识别比赛

    本文根据IROS 2019 Lifelong Robotic Vision: Object Recognition Challenge和IROS 2019 Lifelong Robotic Vision Challenge -- Lifelong Object Recognition Report这两篇报告总结而来,包括8个决赛队伍的方法和结果。比赛主页:https://lifelong-robotic-vision.github.io/competition/ 


引言

    人类具有从外部环境和内部经验中不断学习的能力,而机器人的目标之一是建立一个“终生学习(life long)”智能体,经过自主的终生学习,从当前场景和先前的知识中塑造对世界的理解。当机器人遇到新的任务或信息时,保持早期的知识对机器人学习过程来说是一个挑战。由于ImageNet和COCO等大型数据集的出现,计算机视觉和深度学习取得了巨大的发展。然而,由于机器视觉隐式地假设了一组固定的类别和时不变的任务分布,因此它对应用基于这些计算机视觉数据集的视觉算法提出了新挑战。下面是人类、计算机视觉和机器人之间的关系:

71rnnekm6w.png

    语义的概念随时间动态变化。因此,从实时变化的环境中采集大量的机器人视觉数据集,对于加快机器人视觉算法的研究和评价具有重要意义。为了弥补机器人视觉和stationary计算机视觉领域之间的差距,这里使用一个装有多个高分辨率传感器的机器人,在几种典型场景(如家庭、办公室、校园和商场)中主动收集来自真实世界物体的数据。高分辨率传感器比如RealSense D435i的单目/RGB-D相机,RealSense T265的双鱼眼相机,以及激光雷达,如下图:

图片1.jpg

    终生学习的方法可以分为:

    (1)正则化方法,比如LwF、EWC、SI等。

    (2)网络拓展方法,比如XdG、DEN等。

    (3)带有抽样重播(sampling replay)或生成机制(generative mechanism)的rehearsal approaches,以适应先前任务的分布。比如ICaRL、DGR、双内存DGR、反馈DGR等。

    这里总结了IROS 2019-Lifelong Robotic Vision Competition (Lifelong Object Recognition Challenge)的数据集、规则、方法和前8名决赛选手(150多支队伍)的成绩。个人报告、数据集信息、比赛规则和发布的源代码可以在竞赛主页(https://lifelong-robotic-vision.github.io/competition/  )上找到。


目标识别比赛

    这个是IROS 2019会议上举办的比赛,全称:IROS 2019-Lifelong Robotic Vision Competition (Lifelong Object Recognition Challenge。这个比赛旨在探索如何利用先前任务总结出的知识,有效地学习新任务,以及如何在终生机器人视觉(Lifelong Robotic Vision)中有效地记忆先前学习到的任务。这次比赛的目的是测试模型在服务机器人场景中持续学习对象的能力。8支队伍的150多名参赛者参加了最后测试阶段的比赛。这项工作为机器人在知识转移、关联和组合能力方面表现得像人类铺平了道路。

比赛数据集

    这个比赛用到的数据集是OpenLORIS-Object,该数据集旨在推动机器人视觉领域的终生学习研究和应用,包括家庭、办公室、校园和商场场景中的日常用品。该数据集明确的量化了光照(Illumination)、对象遮挡(Occlusion)、对象大小(Object Pixel Size)、杂乱程度(Clutter)。数据集共69种物体,包括7个场景下19类日常用品(见表1)。

图片2.jpg

    对于每种物体被记录为一个17s、30fps的深度相机录制的视频。明确考虑了四个环境因素:Illumination、Occlusion、Object Pixel Size、Clutter,每个因素有3个级别的变化,每种情况对应260个样本,因此每种物体总共有3120个样本。因此该数据集共包含:260*69*4*3=215280个样本。数据集地址: https://lifelong-robotic-vision.github.io/dataset/Data_Object-Recognition 。数据集的部分可视化如下图所示:

图片3.jpg

    在决赛的数据集中,测试集有 21520 个样本,验证集有 21520 个样本,训练集有 172200 个样本,赛方根据不同的影响因素随机打乱数据集。数据集被分为 12 个批次,每个批次的样本来自一个子类,总共有 12 个子类,即:4(环境影响因素/等级) * 3(难度等级),包含 7 个生活场景下的 69 种物体。


比赛规则

    规则的设计是为了量化机器人视觉系统在面对动态环境中出现的目标时的学习能力。与标准的计算机视觉挑战不同,不仅评估了所有任务的总体准确性;还考虑了模型效率,包括模型大小、内存成本和回放大小(用于学习新任务的旧任务样本数;越小越好)(表2)。

图片4.jpg

    同时,组织者没有直接要求参与者提交深度学习挑战测试数据集的预测结果,而是收到源代码或二进制代码来评估他们的整个终身学习过程,以便进行公平的比较。决赛选手的方法由主办方在Intel Core i9 CPU和nvidia rtx1080tiGPU上进行测试。

比赛结果

    下面是比赛结果:

图片5.jpg


决赛队伍的算法

HIK_LIG Team (Champion)

● Title: Dynamic Neural Network for Incremental Learning

● Members: Liang Ma, Jianwen Wu, Qiaoyong Zhong, Di Xie, and Shiliang Pu

●Affiliation: 海康威视研究院,中国杭州.

● Method: 他们设计了一个动态神经网络,由两个部分组成:动态网络扩展 和 知识蒸馏(knowledge distillation)。如下图所示:

图片6.jpg

    该方法会计算对于每一次增量任务与先前学习任务的领域差异 (domain gap) 来判断任务相似性,对于相似性大的任务采用知识蒸馏方案在学习新任务的同时记住旧任务的特征,相似小的任务采用网络结构扩充来学习新任务。


Unibo Team (First Runners Up)

● Title: Efficient Continual Learning with Latent Rehearsal

● Members: Gabriele Graffieti, Lorenzo Pellegrini, Vincenzo Lomonaco, and 

Davide Maltoni

● Affiliation: University of Bologna, Italy 

● Method: 该队基于 隐层结构回放(latent rehearsal)提出了一个新的持续学习(Continual Learning)方法,即在输入层重放潜在神经网络激活而不是原始图像,该算法可以低延迟的部署在边缘设备上。

图片7.jpg

    如上图所示,在latent rehearsal中他们提出了一种方法:输入模式的副本不是以原始数据的形式保存在外存中,而是以给定的级别(表示为latent rehearsal layer)存储模式激活。该算法可以概括为:1)从当前批中抽取n个模式;2)前向传播直到rehearsal layer;3)从rehearsal存储器中选择k个模式;4)连接原始和重播模式;5)在剩余的网络中前向传播;6) 只在rehearsal layer之前反向传播损失。

    他们使用的具体设计是在MobileNet-v1和MobileNetv2上使用AR1*、AR1*自由和LwF-CL方法。同时,他们选择了简单性,算法1中总结的简单rehearsal方法用于内存管理。

图片8.jpg

    完整论文:Latent Replay for Real-Time Continual Learning,https://arxiv.org/abs/1912.01100 


Guinness Team

● Title: Learning Without Forgetting Approaches for Lifelong Robotic Vision

●Members: Zhengwei Wang, Eoin Brophy, and Tomás E. Ward

● Affiliations: Wang: V-SENSE, School of Computer Science and Statistics, Trinity College, Dublin, Ireland; Brophy and Ward: Insight Center for Data Analytics, School of Computing, Dublin City University, Ireland 

● Method: 他们的方法的核心是LwF,如下图所示: 

图片9.jpg

    上图展示了这个训练策略。他们部署了一个预先训练过的MobileNet-v2,在这个系统中,瓶颈的权重保留为θp(这里的θp在训练过程中进行了微调),他们从头开始训练瓶颈权重。在LwF的基础上,保留了以往任务训练的θold,构造了训练新权值θnew的正则化项。需要注意的是,在这个结构中没有以前任务图像的重放,只有更新后的θnew在训练后被保留。经验上,他们在处理新任务时加载了初始预训练权重θp,并且θp将在训练期间进行微调。算法如下:

图片10.jpg


Neverforget Team

● Title: A Small Step to Remember: Study of Single Model Versus Dynamic Model

● Members: Liguang Zhou, Tin Lun Lam, and Yangsheng Xu

● Affiliation: The Chinese University of Hong Kong, Shenzhen, China, and Shenzhen Institute of Artificial Intelligence and Robotics for Society, China 

● Method: This approach was based on EWC [8] without a replay mechanism. 

The team also found the fact that the estimation of the Fisher information matrix might be biasedly estimated.

图片11.jpg


SDU_BFA_PKU Team

● Title: SDKD: Saliency Detection with Knowledge Distillation

● Members: Lin Yang and Baoquan Chen

● Affiliation: Peking University, Beijing, China; Shandong University, Qingdao, China; and Beijing Film Academy, Beijing, China 

● Method: The approach disentangled this problem with two aspects: background removal problem and classification problem. The entrant used saliency maps to implement background removal and knowledge distillation to address catastrophic forgetting.

图片12.jpg


Vidit98 Team

● Title: Intelligent Replay Sampling for Lifelong Object Recognition

● Members: Vidit Goel, Debdoot Sheet, and Somesh Kumar

● Affiliation: Indian Institute of Technology, Kharagpur, India 

● Method: This approach sampled validation data from the buffer and used them as replay data. It intelligently created the replay memory for a task. The replay memory was an efficient representation of previous task data, whose information was lost and sampled from the validation set.

图片13.jpg


HYDRA-DI-ETRI Team

● Title: Selective Feature Learning with Filtering Out Noisy Objects in Background Images

● Members: Soonyong Song, Heechul Bae, Hyonyoung Han, and Youngsung Son

● Affiliation: Electronics and Telecommunications Research Institute, Korea

● Method:提出了选择性特征学习 (selective feature learning) 方案去减少噪声物体对目标物体的干扰。该队伍在口头报告中得到最高分。

    由于在真实的机器人视觉识别任务中,目标物体的周围环境趋向于杂乱无规律,存在较多的噪声物体,这可能会对识别的准确率产生影响。该团队采用 Single Shot MultiBox Detector (SSD) 去对选择出第一个任务的数据集中的目标物体,后再进行连续的物体识别任务。

图片14.jpg

图片15.jpg


NTU_LL Team

● Title: Lifelong Learning with Regularization and Data Augmentation

● Members: Duvindu Piyasena, Sathursan Kanagarajah, Siew-Kei Lam, and Meiqing Wu

● Affiliation: Nanyang Technological University, Singapore 

● Method: The team utilized a combination of an SI-based regularization method [9] and data augmentation for each task

图片16.jpg




下一篇: 没有了

首页 所有文章 机器人 计算机视觉 自然语言处理 机器学习 编程随笔 关于