新闻动态
AIRS研究成果GraphSlot为具身控制构建物理常识理解
近日,我院冀晓强教授团队创新性地提出了一个基于图神经网络的物体中心化(object-centric)学习框架GraphSlot。该框架通过物理常识驱动,能够依据物体的空间邻近关系和外力(如重力)影响动态构建交互图,并在相连的节点间传播嵌入信息,从而显式地建模物体间的相互作用。我院具身智能中心万瀚文为论文第一作者,成就为共同第一作者,冀晓强教授为论文独立通讯作者。
通过在大规模仿真数据集上的综合实验验证,GraphSlot实现了业界领先的性能,其fg-ARI相较基线模型取得了8.5%的显著提升。为进一步评估模型的物理直觉,本研究还设计了一个真实的“接球游戏”测试环境。实验结果表明,本方法展现出了出色的物理常识推理能力,为融合物理理解的物体中心化方法带来了新的突破,并展示了其在复杂现实世界中应用的巨大潜力。
期刊介绍
ACM Transactions on Cyber-Physical Systems(TCPS) 是ACM旗下专注于信息-物理系统这一新兴且关键领域的旗舰级期刊。该期刊秉承了极高的审稿标准,录用率较低,只发表在该领域具有重大原创性贡献、深远影响和卓越质量的科研成果。本论文被该期刊专题特刊“Embodied Artificial Intelligence in Cyber-Physical Systems: Algorithms, Computing Systems, Applications, and Trustworthiness”接收,该特刊汇集了具身智能领域的智能算法、计算系统、前沿应用和系统可信赖性四大方面的最新突破性研究,旨在推动将人工智能深度融入物理实体的技术发展,最终实现机器与人类、环境共融共生的未来。
研究背景
理解物理学对于智能机器人和具身智能体感知世界、移动与操控物体、与环境安全交互以及优化运动与流程至关重要。本文提出一种基于槽式神经网络的物体中心学习框架GraphSlot,该框架利用图神经网络建模物体间的交互作用。GraphSlot能根据物体的空间邻近性和重力等外部影响动态构建关系图,并通过相连节点间传播邻域嵌入信息。通过在仿真数据集上的综合实验,GraphSlot相较基线模型SAVi-L实现了8.5%的前景调整兰德指数(fg-ARI)显著提升,达到最先进性能。本文还通过真实世界的接球游戏环境来测试所提出模型的物理直觉。GraphSlot展现出将物理理解融入机器人感知算法的有效方式。
研究方法
如图1所示,槽式神经网络维护了一组向量槽位,槽位通过迭代注意力机制学习逐步将感受域收敛到物体目标。预测器通过Transformer编码器预测槽位在相邻帧间的变化关系,将槽位映射至未来状态。与传统的模式识别方法相比,以物体为中心的神经网络方法致力于突破被动的模式匹配,构建具有跨运动状态和时间线一致性的物体表征嵌入。

图1. 槽式神经网络基本原理
本研究提出的GraphSlot模型主要结构及校正器(Corrector)的详细架构如图2所示。高斯背景和弱监督信息经过拼接后输入至初始化模块。编码器采用下采样残差神经网络从原始帧中提取特征。槽位在槽注意力模块中经过训练,并通过槽位门控循环单元(slot-wise GRU)获得时间依赖性。图表示模块利用注意力图构建图表征与槽位。解码器采用槽位空间广播卷积,其输入为初始槽位与经图神经网络精炼槽位的加权求和,最终输出预测流。输出槽位同时被传送至预测器,用于建模下一输入帧的动态变化。

图2. GraphSlot流程图

图3. 本研究的实验结果。(a)MOVi-C仿真数据实验结果;(b)接球游戏实验设备图;(c)接球游戏实验结果图。
为评估所提出方法的性能,我们在物体表征任务上开展了实验,将GraphSlot与其他物体中心学习方法及基线方法SAVi进行对比。为验证GraphSlot的有效性,我们进行了消融实验以评估其在不同复杂度数据集上的泛化能力,并通过分析不同图构建策略来检验基于距离的局部连接的有效性。此外,我们还探索了超参数配置以确定最优设置。最后,我们通过接球实验评估了所提出的物理感知方法在三维真实环境中对物理场景的理解能力。
研究贡献
本文的主要贡献是
- 提出了GraphSlot——一种新型物体中心学习方法。通过在仿真数据集上的广泛评估,该方法在物体中心推理与物理感知能力方面达到了先进性能。
- GraphSlot创新性地引入图表示建模物体的相互关系。其物理感知注意力机制能够同时捕获物体间的内在交互作用与重力等外部物理影响。
- 为评估模型的物理理解能力,本研究构建了三维接球游戏环境进行测试。该方法在多种环境中均展现出较高的成功率,体现了其出色的物理交互推理能力。
作者简介
本文独立通讯作者冀晓强教授现任香港中文大学(深圳)理工学院助理教授、博士生导师,广东省具身智能机器人工程技术研究中心副主任,中国仿真学会智能物联专委会委员,东盟 - 中国人工智能实验室首席科学家。冀晓强教授在美国哥伦比亚大学获得博士学位,他的研究主要集中在智能控制系统,主持多项科研及人才项目,包括国家自然科学基金数据科学与人工智能前沿探索课题。至今在IEEE Transactions on Automatic Control (TAC)、Automatica、Journal of Field Robotics (JFR)、IEEE/ASME T-Mech、T-ASE、RA-L、CDC、ICRA、IROS等顶尖国际期刊及会议发表论文五十余篇。特别是在非最小相位系统方面,是该领域全球范围内学习控制设计的推动者之一。他担任包括IEEE-TAC在内的多个顶级期刊及会议的审稿人、MECC副编辑、Robot Learning青年编委、RCAR等国际会议领域主席,并于近期获得CINT优秀论文奖、ISUI最佳论文奖等。
本文第一作者万瀚文,AIRS科研助理,香港中文大学(深圳)2025级计算机与信息工程专业博士生,硕士毕业于香港中文大学(深圳),主要研究方向为具身控制。在Journal of Field Robotics,EMNLP,IROS,TCPS等国际顶级期刊/会议发表论文,曾担任IROS、ICRA等机器人国际顶级会议审稿人。
本文共同第一作者成就,曾任AIRS科研助理,香港中文大学(深圳)2023级计算机与信息工程专业硕士。成就于2023年加入理工学院攻读硕士学位,2025年入职华为海思,主要研究方向为大模型系统,ros机器人控制的大模型优化。在嵌入式设备开发,高性能计算和机器人控制领域有大量研发经验。
* 相关信息由论文作者提供
