菜单总览
新闻

我院黄锐教授团队论文被 AAAI 接收,研究提出一种语义分割新模型

  • 2020.12.23
  • 新闻
我院计算机视觉研究中心副主任黄锐教授的两篇论文被 AAAI 2021接收。

        我院计算机视觉研究中心副主任黄锐教授的两篇论文被 AAAI 2021接收。两篇文章分别是 Sparse Single Sweep LiDAR Point Cloud Segmentation via Learning Contextual ShapePriors from Scene Completion 和AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing 。以下介绍的 AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing  一文。作者在论文中提出了一种可提高语义分割精度与推理速度的新模型——注意力增强网络(AttaNet),该模型可在保持较高效率的同时捕获全局上下文和多层次语义。

        AAAI会议由人工智能促进协会AAAI(Association for the Advancement of Artificial Intelligence)主办,始于1980年,会议也以AAAI为简称。该会议注重理论与应用,也讨论对人工智能发展有着重要影响的社会、哲学、经济等话题,是人工智能顶级会议之一。

研究背景

        场景分析,也称为语义分割,预测图像中所有像素的密集标签。作为计算机视觉的基本任务之一,它在自主驾驶、视频监控、机器人传感等领域有着广泛的应用,其中很多都对分割精度和推理速度提出了很高的要求。而与高质量语义分割网络的超常发展相反,在不牺牲太多质量的前提下,提高语义分割模型推论速度的研究却落在了后面。这促使了我们展开了这一方面的研究。

研究概要

        在实验过程中我们发现有两个因素对语义分割模型的性能非常重要:全局上下文信息和多层次语义表征。然而,同时捕获具备这两个因素的特征总是会导致高计算复杂度,这在实时应用中是有问题的。在本文中,我们提出了一种新的模型,称为注意力增强网络(AttaNet),它既能捕获全局上下文又能捕获多层次语义,同时又能保持较高的效率。

        AttaNet 由两个主要模块组成:条带注意模块(SAM)和注意力融合模块(AFM)。鉴于自然图像中垂直条带的数量明显大于水平条带区域,与传统的 non-local 网络相比,SAM 利用条带化操作在保留大部分上下文信息的同时,大大降低了在垂直方向上编码全局上下文的复杂度。此外,AFM 采用跨层次特征融合策略来限制计算量,在融合时采用注意策略对每个像素处不同层次特征的重要性进行加权,从而得到高效的多级表示。我们在两个语义分割数据集上进行了大量的实验,并取得了领先的性能,特别地,我们的网络在 cityscapes 上实现了不同水平的速度/精度,例如 71FPS/79.9%mIoU,130fps/78.5%mIoU,180fps/70.1%mIoU。

AttaNet网络结构图

作者介绍

        论文第一作者宋琪,吉林大学车辆工程专业在读硕士,香港中文大学(深圳)访问学生,其导师为黄锐教授。目前研究方向为语义分割。

        论文第二作者梅康夫,香港中文大学(深圳)二年级硕士生,其导师为黄锐教授。目前他的研究方向包括自然图像的理解和生成。

        论文通讯作者黄锐教授先后毕业于北京大学(理学学士,1999)、中科院自动化所(工学硕士,2002)和美国罗格斯大学(博士,2008)。博士毕业后他在罗格斯大学从事了两年博士后研究并于2010年回到中国加入华中科技大学担任教职。2012年至2016年,他曾在NEC中国研究院担任研究员,现任香港中文大学(深圳)理工学院副教授、深圳市人工智能与机器人研究院(AIRS)计算机视觉研究中心副主任。黄教授在数据降维和子空间分析、可变形模型(deformable models)、概率图模型等方法以及它们在计算机视觉、模式识别、(医学)图像处理中的应用等方面做过大量研究工作,近年来主要从事智能视频监控相关的研究,包括行人的检测、跟踪与识别等。目前研究兴趣集中在计算机视觉在机器人领域的应用。黄教授已发表相关领域学术论文50余篇,主持过包括国家自然科学基金在内的多项科研课题。