报告摘要:语言引导的指向性理解(Referring Understanding)作为连接自然语言与视觉内容的核心任务,旨在通过定位语言描述中的目标,实现跨模态语义对齐。然而,现有方法在语言表达能力和动态建模方面仍存在不足,难以有效刻画目标在空间数量与时间状态上的变化。针对这一问题,我们提出了新的通用任务——指代多目标跟踪(Referring Multi-Object Tracking, RMOT)。该任务以语言表达为高层语义线索,引导多目标跟踪预测,从而统一建模目标的数量变化与时序语义。本报告将回顾传统视觉跟踪中的特征融合技术,进一步介绍语言与视觉融合的指代视觉跟踪任务,并系统展示课题组在该领域的最新研究成果,以探讨指向性理解的发展方向。
讲者简介:董性平,武汉大学计算机学院教授、博士生导师、国家级青年人才。曾任阿联酋起源人工智能研究院研究员。2019 年在北京理工大学获得博士学位,2016-2018年曾在澳洲国立大学进行联合博士培养。已发表论文 30余 篇,其中包括国际权威期刊 IEEETrans. 汇刊 (IEEE TPAMI, IEEE TIP, IEEE TMM, IEEE TNNLS, IEEE TCYB, IEEE TCSVT) 和国际顶级视觉会议 (IEEE CVPR, ECCV)。谷歌学术H 指数达到 24,单篇引用最高 700 余次。在 SCI 论文中,四篇论文入选 ESI 高被引,其中一篇被评为热点论文。2021-2024连续入选斯坦福大学全球前2%顶尖科学家年度影响力榜单。曾获得中国人工智能学会优秀博士论文奖、北京市优秀毕业生等奖励与荣誉。目前从事小样本学习、目标跟踪、图像/视频目标分割、三维重建、自动驾驶感知、多模态学习、医学人工智能等研究工作。