中国图象图形学学会青年科学家会议-2023

第十九届中国图象图形学学会青年科学家会议
以人为中心的视觉计算论坛成功举办

由中国图象图形学学会青年工作委员会发起的“第十九届中国图象图形学学会青年科学家会议”于2023年12月28-31日在中国广州召开。本次会议由中国图象图形学学会主办，琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会承办。王耀南院士、谭铁牛院士、中山大学赖剑煌教授、华南理工大学徐向民副校长、许勇副校长、琶洲实验室常务副主任李远清教授、华南理工大学陈俊龙教授、北京大学林宙辰教授共同担任大会主席。

会议面向国际学术前沿与国家战略需求，聚焦最新前沿技术和热点领域，会议设4个大会报告，27个主题分论坛，4个Tutorial，总计近150场高水平学术报告 。2023年12月30日下午，以人为中心的视觉计算论坛成功举办。论坛由华南理工大学丁长兴教授、南京理工大学舒祥波教授、北京航空航天大学刘偲教授联合组织，华南理工大学的庄辉平副教授担任本次论坛主持人。“视觉计算”是重要的前沿科技领域，其着重于提升人工智能在视觉领域的计算能力，着力于使人工智能能够更好的处理视觉信息。论坛聚焦该领域的最新研究进展与前沿技术，详细探讨了“从像素到模式的路径探索”、“ 自动驾驶中动态障碍物轨迹预测与自车决策规划”、“ 连续一致行人重识别”、“ 面向真实场景的人群计数研究及其应用”、“ 视频人体动作行为识别与捕捉”等主题内容。

中国科学院计算技术研究所山世光研究员正在进行汇报

中国科学院计算技术研究所山世光研究员带来主题为“从像素到模式的路径探索”的报告。

得益于深度卷积神经网络的复兴和发展，以人为中心的视觉感知计算，特别是人脸识别在过去10年取得了跨越式的进步。本报告将介绍“后人脸识别时代”，计算机视觉为测量或评估人类情绪、情感等心理感知任务带来的新机会。报告将重点介绍近两年来计算所VIPL研究组在表情识别、面部动作（AU）检测、视线估计和跟踪等方面的研究进展，特别是针对该领域标注数据严重不足的问题，借鉴各类先验知识设计自监督损失函数以利用更大规模无标注数据的方法，以及借力多模态大模型进行情感理解的新方法，并讨论相关领域面临的挑战和未来发展趋势。

浙江大学杨易教授正在汇报

浙江大学杨易教授的报告主题为“多重知识驱动的人体跟踪、重建与生成”。

本报告首先讨论人体跟踪、重建与生成应用中面临的挑战和问题，展开分析多重知识表达的优势与特点。随后，本报告将面向人体跟踪技术、数字人重建与驱动、跨媒体数字人生成等应用，讨论数字人建模的研究进展。在数字人重建方面，本报告将讨论融合几何等先验信息的方法在数字人驱动中的应用。在跨媒体数字人生成方面，本报告将讨论由音频、文本等输入到生成数字人图像、视频等表达形式的方法和技术。本报告将结合实际案例讨论专用知识嵌入方法、结构化表达机制等。最后，本报告将展望数据知识双轮驱动的研究前景。

中山大学郑伟诗教授正在进行汇报

中山大学郑伟诗教授的报告主题为“连续一致行人重识别”。

行人重识别的一个重要目的是在多个摄像区域下连续追踪行人，然而当前行人重识别研究往往只关注于两两摄像区域同一人的图像匹配，但并没有直接衡量在多个摄像区域下的追踪一致性。本次汇报回顾了近期行人重识别的发展，发现了传统行人重识别建模并没有真正解决多摄像区域下的连续追踪问题。为此，我们提出了连续一致行人重识别，并提出了全局一致Rank-K精度评价指标。此外，我们还通过连续一致行人重识别分析了多摄像区域下摄像头质量对行人重识别的影响，可以有效地检测出有缺陷的摄像机设置，以便在实际应用中对视频监控环境的做出有益调整。

西北工业大学王琦教授正在进行汇报

西北工业大学王琦教授的报告主题为“面向真实场景的人群计数研究及其应用”。

近年来，由于大规模群体性事件的频繁发生，基于视觉技术的人群计数就变得具有重要现实意义和研究价值。随着深度学习的不断发展，人群计数方法的性能也得到极大提升。本报告将介绍面向真实场景的人群计数研究及其应用，主要包含三个方面：使用虚拟数据建立大规模有标注人群计数数据集，通过监督学习和域适应算法提升模型泛化能力，从数据和算法层面缓解现存人群计数算法易过拟合的问题；针对现存算法无法有效处理域间差异和生成精细人群密度图的问题，提出域间特征隔离模型将合成数据转译为真实数据，并使用高斯先验重建提高密度图质量；建立大型人群计数数据库和算法测试平台，供科研人员快速公平地测评算法性能，从而促进人群计数领域的快速发展。

武汉大学涂志刚研究员正在汇报

武汉大学涂志刚研究员的报告主题为“视频人体动作行为识别与捕捉”。

视频理解作为计算机视觉领域的核心任务成为推动人工智能研究的主要力量，其中人体动作行为识别与捕捉作为视频理解的关键技术由于具有广泛的应用范围而一直都备受关注。首先，报告将从人机交互的角度，介绍武汉大学行为理解与视觉感知研究组（HUVPRLab）在视频人体动作行为识别与捕捉方面的系列工作，主要包括人手姿态估计与重建、人体姿态估计与动作识别、人体动作生成、捕捉与迁移，形成了从局部（人手）→ 整体（个体）→下游应用（动捕）的研究范式。最后，报告将总结和展望视频人体动作行为识别与捕捉的发展趋势。

华南理工大学丁长兴研究员正在进行汇报

华南理工大学丁长兴研究员的报告主题为“基于语言描述的行人重识别”。

实用的行人重识别方法应当具备细粒度、可泛化、多模态三方面的性质。特别的，真实场景下的行人重识别任务往往依据目击者的语言描述，因此基于语言描述的行人重识别任务成为近年来行人重识别领域的研究热点。本报告将分别介绍本课题组在基于图像和基于语言描述的行人重识别领域的最新进展，包括数据集的构建和技术探索，并分析单模态和跨模态行人重识别方法在提取细粒度、可泛化特征方面的异同。

本次论坛为青年科学家们提供了宝贵的学术交流平台，为通用以人为中心的视觉计算领域的研究进展提供了新的启示和思想碰撞。