会程安排

9 月 20 日下午

分论坛主席

王利民

南京大学

王利民，南京大学计算机学院教授、博士生导师。研究领域为计算机视觉和多模态大模型，专注视频理解与动作识别，在IJCV、T-PAMI、CVPR、ICCV、NeurIPS等学术期刊和会议发表论文100余篇，论文引用3.4万余次，两篇一作论文单篇引用超过4000次。在视频分析领域做出了一系列有代表性的工作，例如：TDD视频深度特征、TSN视频网络架构，VideoMAE视频预训练方法等。带领团队研发了首个性能领先的通用视频理解大模型InternVideo，被Google、Meta、NVIDIA等知名企业关注和使用，产生了重要国际影响力。曾获得广东省技术发明一等奖，ACM MM 2023唯一最佳论文提名奖、世界人工智能大会青年优秀论文奖。入选2022年度AI 2000人工智能全球最具影响力学者榜单，2022年度全球华人AI青年学者榜单，2021-2023年度爱思唯尔中国高被引学者榜单。担任CVPR/ICCV/NeurIPS等会议的领域主席和TPAMI/IJCV编委。

程　德

西安电子科技大学

程德，西安电子科技大学副教授，博士生导师，主要研究方向为计算机视觉、机器学习。曾任华为公司主任工程师，西安交通大学与美国卡内基梅隆大学(CMU)联合培养博士。目前已在国际高水平会议和期刊（如IJCV、TIP 、CVPR、ICCV、NeurIPS、ICML等）发表论文90余篇，其中包括第一/通讯作者IEEE Trans./中科院1区Top期刊和CCF A类顶会论文50余篇，申请/授权国家发明专利40余项。个人一作论文单篇最高被引用1600余次，ESI高被引论文2篇。目前主持国家自然科学基金-面上项目、国家重点研发计划子课题、陕西省重点研发计划、国家自然科学基金区域联合基金重点项目—课题、重点实验室开放课题等。

高　赞

山东省人工智能研究院

高赞，山东省人工智能研究院，教授，博士生导师，国家青年人才、山东省突贡专家、全球前2%顶尖科学家、山东省高等学校优秀青年 “智能媒体分析与视觉感知”创新团队负责人。近年来，主持完成或在研国家基金4项，参与包括国家自然基金重点，国家重点研发计划等省部级以上课题10余项。在国际高水平会议和期刊上发表论文100余篇，IEEE/ACM汇刊或CCF A类会议60余篇，其中包括TPAMI，CVPR等， 6篇论文入选ESI高被引，1篇入选热点论文，2021年获CCF A类会议SIGIR 最佳学生论文。此外，先后获天津市科技进步一等奖、山东省科技进步一等奖、山东省技术发明一等奖和天津市科技进步二等奖各1项，获授权发明专利50余项，其中包括2项国际专利。目前兼任计算机学会杰出会员，中国图形图像学会高级会员，IEEE高级会员，山东省人工智能学会常务理事，计算机学会多媒体技术专委会、计算机视觉专委会和模式识别与人工智能委员会执行委员，中国图形图象学会多媒体技术专委会执行委员。受邀担任20余个国际知名期刊和会议的领域主席、程序委员会委员和审稿人，担任Neural Network等多个国际期刊编委或客座编委。

涂志刚

武汉大学

涂志刚，武汉大学研究员、博士生导师，国家级青年人才（教育部岗位：新一代人工智能），全球前2%顶尖科学家入选者。研究领域：人工智能、计算机视觉，聚焦“以人为中心”视频行为识别与生成。发表高水平学术论文90余篇，第一/通讯作者中科院1区Top SCI 期刊+CCF A类顶会论文近50篇。获2022年湖北省自然科学二等奖（排名1）等省部级科技奖励3项。主持国家重点研发计划课题、湖北省杰出青年基金、国家自然科学基金、教育部联合基金（青年人才类）、腾讯犀牛鸟基金（技术创新奖）等科研项目。指导学生获2024中国国际大学生创新大赛―高教主赛道“全国金奖”、国家自然科学基金“青年学生项目”。担任中国仿真学会-视觉计算与仿真专委会副秘书长、10余个国际知名期刊和会议的编委、领域主席、程序委员会委员等职务。开发了视频人体行为智能识别系统，成功应用“第七届世界军人运动会开闭幕式”等多个领域，被央视新闻/体育频道采访报道。

徐婧林

北京科技大学

徐婧林，北京科技大学副教授，北京图象图形学学会理事、副秘书长，中国图象图形学学会青托俱乐部副主席。研究方向为视频理解、细粒度运动分析。已发表TPAMI、IJCV、CVPR等ACM/IEEE Trans.和CCF A类论文30余篇。主持国家自然科学基金面上、青年基金、北京市自然科学基金面上、中国博士后科学基金面上等项目；主持腾讯犀牛鸟专项研究计划；作为合作单位负责人参与国家自然科学基金重点（序2）、北京市自然科学基金联合基金重点（序2）等项目。担任《Chinese Journal of Electronics》（电子学报英文刊）青年编委、《电子与信息学报》编委等。入选第九届中国科协青年人才托举工程，获2024年中国图象图形学学会石青云女科学家奖、2022年中国图象图形学学会优秀博士学位论文奖、2023年中国自动化学会自然科学奖一等奖（4/5）、2024年中国图象图形学学会自然科学奖二等奖（3/5）等荣誉。

分论坛报告

基于身体语言的情感智能计算

刘青山南京邮电大学

报告摘要：随着人工智能技术的飞速发展，人类社会正加速迈向人机深度共融的智能时代，因此构建情智兼备的自然人机交互显得尤为重。图灵奖得主马文明斯基说“没有情感的机器是不能称之为有智能的”，情智兼备的数字人和机器人研究也被中国科协遴选为2024年十个重大科学问题之一。早在1950年，人类学家雷·博威斯特的“动作学”理论便指出：在人际交流过程中，面部表情、手势、姿态等身体语言的信息传递能力甚至超越了语言本身。2012年芝加哥大学Alexander Todorov教授等人在《Science》上发文进一步验证了身体语言在情感表达和意图感知中的核心地位。因此，基于身体语言的情感智能计算已成为人工智能领域的研究热点。本报告将简单汇报一下研究背景、现状，并重点汇报团队在表情识别、姿态估计，以及结合语音语言的多模态情感智能计算等方面的探索研究及其进展。

讲者简介：刘青山博士，南京邮电大学教授副校长，国家杰青/教育部特聘教授，主要从事模式识别、图像理解等人工智能领域相关研究等，近年来主持承担了科技部2030人工智能重大专项项目、国家自然基金重点项目等。曾获江苏省科学技术一等奖、教育部自然科学二等奖、中国电子学会自然科学一等奖等。带领团队入选全国高校黄大年式教师团队和江苏省双创团队。现兼任中国计算机学会计算机视觉专委会副主任、中国图形图像学会学术工委主任、江苏省人工智能学会副理事长等。

以人为中心的视觉感知：从专才到通用基础模型

宋井宽同济大学

报告摘要：以人为中心的视觉感知涉及姿态估计、形态解析和行为识别等与人相关的广泛视觉任务，是智能体和人类之间可靠交互的重要技术支撑。这些任务刻画了身份、形态和交互等多种视觉特性，需要从多个角度实现对人类的视觉理解，进而使得以人为中心的视觉感知模型难以高效通用。本报告将以姿态估计和行为识别作为经典案例，介绍以人为中心的视觉感知所面临的核心问题和关键技术；然后介绍如何推动专才模型向通用模型的转变，揭示以人为中心的视觉感知通用基础模型的核心技术，包括轻量小模型的自监督预训练方法，以及基于跨尺度的模型优化方法等，推动以人为中心的视觉感知模型在更真实场景下的应用。

讲者简介：宋井宽，同济大学计算机科学与技术学院教授，国家“青年特聘专家”，国家杰出青年科学基金获得者。主要研究方向为多模态、具身智能。在多媒体、计算机视觉、人工智能等领域的重要会议和期刊发表论文180余篇，谷歌学术引用17000余次。担任国际SCI期刊IEEE TMM、ACM TOMM等编委，担任多个期刊的评审和多个国际顶级会议(MM'18-'24, IJCAI'18-'24)的领域主席。主持自然科学基金委重点、科技部重点研发课题等多项国家级项目。

基于稀疏观测的鲁棒3D人体姿态估计 /div>

魏　星西安交通大学

报告摘要：在虚拟现实、增强现实与人机交互等应用场景中，准确估计3D人体姿态是实现自然交互体验的关键技术。然而，现有方法普遍依赖高质量、连续的传感器输入，难以在信号稀疏、缺失或退化的实际环境中保持稳定性能。为此，本报告提出一种基于稀疏观测的鲁棒3D人体姿态估计框架，旨在提升姿态恢复系统在低质量输入条件下的可靠性与实用性。

讲者简介：魏星，西安交通大学电信学部软件学院副教授，博士生导师，主要研究方向为计算机视觉与模式识别，发表学术论文80余篇，其中9篇顶级学术会议论文获口头汇报/亮点展示，谷歌学术引用4600余次，h指数28。曾获 CVPR2021 JRDB 无人车导航挑战赛冠军，2021 广东工业智造创新大赛-智能算法赛冠军，ECCV2020 VisDrone 无人机智能算法挑战赛冠军，CVPR2020 AI CITY 城市规模车辆追踪挑战赛亚军。

高效人体姿态估计与行为识别

刘梦源北京大学深圳研究生院

报告摘要：高效的人体姿态估计与行为识别是实现自然人机交互的关键。然而，现有研究面临两个主要挑战：一是缺乏面向机器人感知的人体行为数据集，二是缺少能够兼顾精度与效率的建模算法。为此，我们构建了一个机器人视角的人体行为数据集，并提出了三项核心方法：（1）设计 Hourglass Tokenizer，实现了高效的Transformer三维人体姿态估计；（2）提出 Robotic View Action Recognition 框架，能够从机器人视角自然识别人类动作；（3）提出 Unified Spatio-Temporal State Space Model，实现了点云序列的高效建模。实验结果表明，我们的方法在准确性与效率上均取得了显著提升，为自然人机交互提供了新的解决方案。

讲者简介：刘梦源，北京大学深圳研究生院研究员、助理教授、博士生导师、深圳市优青，担任中国人工智能学会智能机器人专委会副秘书长、Science Partner Journal及中科院一区SCI期刊 Cyborg and Bionic Systems青年编委。主持国家重点研发计划课题、国家自然科学基金面上项目。获广东省自然科学奖一等奖、深圳市自然科学奖一等奖、中国智能自动化大会最佳论文奖。

视频基础模型及其应用

王亚立中国科学院深圳先进技术研究院

报告摘要：视频是描述多模态世界的重要数据来源之一。随着多模态大模型的兴起，视频理解与生成逐渐引起关注。区别于静态图片，视频包含了复杂长时的动态信息。因此，如何构建视频基础大模型，实现时空内容理解与预测是当前重要的研究问题。本次报告主要围绕视频基础模型及其应用这一主题，介绍团队的近期工作，旨在提升真实开放场景下的视频分析与编辑能力。

讲者简介：王亚立，中国科学院深圳先进技术研究院，研究员，博士生导师。重点从事视频理解、多模态大模型等方面的研究工作，共发表高水平国际期刊和会议论文100余篇。获得广东省技术发明一等奖、吴文俊人工智能科技进步二等奖、深圳市科技进步奖二等奖。获得计算机视觉竞赛冠军10余项。