菜单总览
新闻

我院黄建伟教授、范晨悠博士和胡君杰博士在ACM Multimedia 2021发表文章

  • 2021.11.09
  • 新闻
我院群体智能中心黄建伟教授、范晨悠博士和智能机器人中心胡君杰博士在多媒体与人工智能 CCF-A 类会议 ACM Multimedia 2021发表了题为“Few-Shot Multi-Agent Perception(小样本多智能体协同感知)”的文章。

        我院群体智能中心黄建伟教授、范晨悠博士和智能机器人中心胡君杰博士在多媒体与人工智能 CCF-A 类会议 ACM Multimedia 2021发表了题为“Few-Shot Multi-Agent Perception(小样本多智能体协同感知)”的文章。该论文研究如何利用大量“具有有限自主算力和通讯带宽的智能体”,执行联合的环境感知任务。

        ACM Multimedia 是全球首屈一指的学术峰会,旨在展示多媒体领域科学成果和创新工业产品。

研究背景

        设想在未来的校园中,校园送餐车或者警务车执行点到点的个体服务任务,首先需要在人群中识别目标个体再进行路径规划。我们设计一种高效的空地协同模式:1)利用多个无人机进行人脸识别,获取校园内人群动态信息;2)自动驾驶送餐车或者警务车通过发送目标人脸到多个无人机数据进行匹配,再返回相似度,从而确定目标任务的地理位置再进行路径规划。


图1:多智能体协同感知示意图

        我们研究这个过程中的多智能体协同感知过程。如图1所示,查询智能体(Query agent,左)通过发送自己的少样本数据特征(如单张人脸图片)到多个支持智能体(Support agent,右)。支持智能体自身可以不断更新自己的人脸数据库,通过不断地飞行持续感知地面情况,更新目标的坐标和外观特征。支持智能体接受查询智能体的查询,通过比对自身的数据,提供相似度计算结果并返回给查询智能体。查询智能体接收所有支持智能体的返回值进行排序和筛选,从而最终确定目标位置。

研究方法

        通过上述多智能体感知的过程,我们需要解决如下两个难点。1)查询智能体如何提取感知数据的特征并发送给支持智能体;2)分布式支持智能体如何高效地计算查询-支持数据之间的相似度。


图2:分布式度量学习框架示意图

        我们设计一种分布式特征提取与度量学习的架构,如图2所示。对于典型的感知数据,如图像、音频频谱,我们首先进行编码,即生成其深度特征。通过使用深度学习网络(如CNN),生成紧凑的查询数据的特征qu(用于发出广播查询),以及在各个分布式智能体本地生成维度较大的支持数据特征kv,其维度大小可以根据任务精度进行选取,并且可以设置为非对称大小。我们进一步将图像 2D 特征平面分成 N-by-N 个特征区域,利用余弦距离来计算查询特征与支持特征的图像各区域的相似度,

        并通过该相似度的累加来衡量查询及支持特征的区域重要性程度。

        通过计算查询数据与所有分布式支持数据之间的相似度,得到最优匹配支持数据,从而赋予其相应的数据标签作为回答。

        为了保证对图像数据的移动、视角和旋转等变换的鲁棒性,我们利用最优传输(Optimal transport)优化目标得出查询-支持数据各个区域之间最佳匹配,如下图所示。

        最后,通过加权平均最优匹配值获得查询-支持数据整体的最优匹配值,获得更加鲁棒的相似度度量。如上图所示,我们给出多项式时间的算法,结合深度学习网络进行训练。

研究结果

        我们通过实验验证了所提方法,在图像分类、图像分割、人脸识别、音频频谱分析等目前人工智能的典型应用场景下,均大幅超越现有的方法。


图4:多智能体视频、人脸图像、音频采集示意图

        在人脸识别方面,我们收集了“Celebrity of AIRS”数据,验证了在小样本学习设定下(5-way 1-shot/5-shot)无人机和地面的人脸识别精度为 67%/70%,精度比原有方法(参见下方参考文献[2]、[3])提高了10-15%。在道路分割任务上,我们利用 Air-Sim 无人机模拟数据,在道路的语义分割任务上进行验证,在小样本学习设定下(3-way 1-shot/5-shot)精度为72%/78%,比原有方法提高5%左右。同样的,在少样本图像分类和音频频谱风格分类任务上精度均有大幅度提高。


图5:Air-Sim 少样本道路分割结果

研究总结

        我们提出了一种有效的分布式多智能体小样本感知的学习框架。该框架体现了多智能体数据收集的优势,即海量数据的协同收集;同时体现了多智能体协同感知的算力优势,即通过分布式执行的方式,实现数据处理的本地化;最后,体现了多智能体少样本学习的算法优势,即通过解耦分布式数据之间的关联,保证了分布式执行返回的结果为全局最优,而无需分布式节点之间的通信,节省了通信开销。

参考文献:

[1] Chenyou Fan, Junjie Hu, Jianwei Huang. "Few-Shot Multi-Agent Perception." 29th ACM International Conference on Multimedia 2021 (ACM MM'21)

[2] Abhishek Das, Théophile Gervet, Joshua Romoff, Dhruv Batra, Devi Parikh, Mike Rabbat, and Joelle Pineau. 2019. Tarmac: Targeted multi-agent communication. In ICML.

[3] Jake Snell, Kevin Swersky, and Richard Zemel. 2017. Prototypical networks forfew-shot learning. In NIPS.

作者简介

        论文通讯作者为深圳市人工智能与机器人研究院(AIRS)副院长,群体智能中心主任黄建伟教授。他同时也是香港中文大学(深圳)校长讲座教授,理工学院副院长。黄教授是深圳市鹏城特聘教授、IEEE Fellow、IEEE通信学会杰出讲者、汤森路透计算机科学领域全球高被引科学家。他长期专注于网络通信、网络经济学和群体智能交叉领域的开创性研究。他已发表 7部学术专著、 125 篇 JCR一区论文和 170 余篇国际会议论文,被谷歌学术引用超过 13900 次, H-index为 59(位列全球计算机领域学者中前 0.05%)。

        论文第一作者为 AIRS 群体智能中心助理研究员范晨悠博士,范博士毕业于美国印第安纳大学,并在美国谷歌等IT公司有三年研发工程师经历。他的主要研究方向包括深度学习、计算机视觉、少样本学习,和联邦学习等。他以第一作者在机器学习和计算机视觉领域会议发表多篇研究文章,包括CVPR、ACM MM、AAAI、 KDD、NeurIPS。

        论文第二作者为 AIRS 智能机器人中心胡君杰博士,胡博士于2020年3月毕业于日本东北大学,研究方向为机器人感知、模式识别、计算机视觉。他在相关领域已发表十几篇学术论文,其中包括 wacv 2019(100+引用)、iccv 2019、Remote Sensing 2020、ral2021 等。

点击链接可查看“小样本多智能体协同感知”技术的应用场景之一:通过遍布城市中的多智能体间的协同感知与交互,帮助自动驾驶车辆做出最优判断与规划。https://www.bilibili.com/video/BV1sF411Y72b/