报告摘要:以人为中心的视觉感知涉及姿态估计、形态解析和行为识别等与人相关的广泛视觉任务,是智能体和人类之间可靠交互的重要技术支撑。这些任务刻画了身份、形态和交互等多种视觉特性,需要从多个角度实现对人类的视觉理解,进而使得以人为中心的视觉感知模型难以高效通用。本报告将以姿态估计和行为识别作为经典案例,介绍以人为中心的视觉感知所面临的核心问题和关键技术;然后介绍如何推动专才模型向通用模型的转变,揭示以人为中心的视觉感知通用基础模型的核心技术,包括轻量小模型的自监督预训练方法,以及基于跨尺度的模型优化方法等,推动以人为中心的视觉感知模型在更真实场景下的应用。
讲者简介:宋井宽,同济大学计算机科学与技术学院教授,国家“青年特聘专家”,国家杰出青年科学基金获得者。主要研究方向为多模态、具身智能。在多媒体、计算机视觉、人工智能等领域的重要会议和期刊发表论文180余篇,谷歌学术引用17000余次。担任国际SCI期刊IEEE TMM、ACM TOMM等编委,担任多个期刊的评审和多个国际顶级会议(MM'18-'24, IJCAI'18-'24)的领域主席。主持自然科学基金委重点、科技部重点研发课题等多项国家级项目。