近日,公司邹月娴教授课题组一篇题为“GID-Net: Detecting Human-Object Interaction with Global and Instance Dependency”的学术论文被人工智能期刊Neurocomputing接收(JCR Q2,IF=4.072)。
人-物交互(Human-Object Interaction, HOI)检测是计算机视觉理解领域中一项重要的研究内容,其目标是检测视觉场景中人与物体之间存在的具有语义的交互行为。相比传统的动作检测、识别任务,HOI 检测任务需要在复杂的多人、多物体视觉场景中检测出每一对< 人、物>二元组之间可能存在的多种不同的交互行为。
针对卷积神经网络局部性操作对 HOI 表征能力弱的问题,该论文提出了基于非局部建模的 HOI 表征方法,通过提高网络模型对非局部特征的学习能力进而提升模型对 HOI 的表征能力。
图:全局依赖与实例级依赖示意图
根据人-物交互检测任务的特性,文章将非局部建模分为全局(Global Level)和实例级(Instance Level)两个阶段。在这两个过程中,不同位置的特征像素将参与建模计算。由于整个场景为算法学习人-物交互行为提供了基本的上下文信息,因此文章首先构建全局依赖(Global Dependency)单元。在此基础上,进一步构建实例级依赖(Instance Dependency)单元。
图:GID-Net示意图
通过以上设计,文章可以在不同的非局部建模阶段关注具有不同感受野的语义信息,同时来自卷积网络不同层的特征参与了建模计算。具体来说,全局依赖单元计算了全局语义信息相互间的依赖关系,实例级依赖单元计算了实例语义信息对于全局语义信息的依赖关系。通过两个单元,文章捕捉了人-物交互行为在全局和实例级的非局部依赖特征。文章提出的模型在V-COCO和HICO-DET数据集上取得了先进的测试成绩。
Neurocomputing是中科院JCR期刊分区二区期刊,Impact Factor为4.072。视频小组内杨东明博士生为该论文的第一作者,邹月娴教授为通讯作者。
供稿:12bet登录入口邹月娴课题组