第十八届中国图象图形学学会青年科学家会议–青托与优博论坛

报告嘉宾

叶茫武汉大学

报告题目：联合计算之异构联邦学习

讲者简介：武汉大学教授，国家优青（海外）、中国科协青年托举人才、湖北省百人计划创新人才。主要研究方向计算机视觉、联邦学习等，发表国际期刊会议论文 70 余篇，其中第一/通讯作者发表 CCF-A 类论文30余篇，谷歌学术引用 3400 余次，9篇第一作者论文引用过百。主持湖北省重点研发计划、国家自然科学基金面上项目等10余项科研项目。获谷歌优秀奖学金、计算机视觉顶会 ICCV2021 无人机特定行人检索赛道冠军、2021年斯坦福排行榜 “全球前2%顶尖科学家”、2022年度百度AI华人青年学者（计算机视觉领域）等荣誉。

报告摘要：联邦学习在保证数据隐私及合法合规的基础上，实现多方共同建模，联合提升模型性能。然而现有方法在面临模型结构不一致、训练样本少、多方样本噪声等问题时，性能急剧下降。报告主要分享团队近期在异构联邦学习的一些进展：1）小样本的异构联邦学习, 实现少样本下模型异构的多方合作；2）噪声鲁棒的异构联邦学习：缓解各模型在本地更新时对噪声的过拟合，同时避免了合作学习时噪声参与者的过度学习；3）互相关蒸馏的异构联邦学习，提升联邦学习的跨域泛化能力，为面向复杂世界的大数据联合计算提供技术支撑。

赵健军事科学院

报告题目：面向无约束场景下的图象/视频深度理解

讲者简介：博士，中国图象图形学学会高级会员、北京图象图形学学会理事。近5年受理国家专利5项，发表高水平学术论文40余篇，其中第一/通讯作者发表CCF A类论文11篇。曾获PREMIA’19 Lee Hwee Kuan奖和ACM MM’18最佳学生论文奖，并多次获得权威国际竞赛全球冠军。近8项技术在国家部委单位和科技行业领军企业得到应用。开放了学界首个大规模无约束人脸识别平台（face.evoLVe），被百度PaddlePaddle官方引入。曾入选北京市科协&中国科协“青年人才托举工程”，主持/参与科技委项目3项，国自然青年科学基金项目1项。担任CSIG高级会员、CSIG-BVD/CCF-CV委员、CSIG/BSIG青工委委员、BSIG理事会理事、VALSE资深领域主席和PRL/Electronics特刊客座编辑。

报告摘要：近年来，深度学习算法和技术在学术界与工业界的众多领域取得了诸多突破性进展。在计算机视觉领域，深度学习算法和技术在很多基准数据集都极大改善并提升了图象/视频理解的性能。然而，在涉及视频监控、区域安防、自动驾驶、群体行为分析等实际场景时，图象/视频理解的性能表现还是不尽如人意，有关问题还需不断做出改进与完善，寻求更优解决方案。我们多年来围绕“面向无约束场景下的图象/视频深度理解”进行研究，形成了连贯清晰的研究思路与渐成体系的研究方法，并在复杂环境下基于多光谱多模视频目标融合感知和无约束人物图像/视频深度理解等关键科学问题和实际应用领域取得了较大技术突破，相关研究成果在北京2022年冬奥会中进行了创新、转化和应用，助力科技冬奥。

黄岩
中科院自动化研究所

报告题目：图文匹配模型小型化探索

讲者简介：中科院自动化所副研究员，研究方向为视觉-语言理解和视频分析。在相关领域的国内外期刊和会议上发表论文共计80余篇，曾获CVPR Workshop最佳论文奖、ICPR最佳学生论文奖等，并担任CVPR和ICCV上3次多模态主题研讨会的共同组织主席。曾入选中国科协青年人才托举工程、北京市科技新星计划和微软铸星计划。获得中国人工智能学会优秀博士论文奖、中国科学院院长特别奖、百度奖学金、NVIDIA创新研究奖。

报告摘要：图文匹配（Image-Text Matching）是视觉-语言理解领域的基础任务之一。近年来，大量研究人员围绕此任务进行了深入研究，特别是在视觉-语言预训练模型出现之后，该任务的精度被迅速提升到高位，甚至开始接近饱和。本报告首先梳理该任务的发展历程及代表性方法，然后重点介绍课题组在图文匹配模型小型化方面的最新进展，最后将简要展望未来研究方向。

何相腾北京大学

报告题目：细粒度跨媒体分类与检索

讲者简介：北京大学王选计算机研究所助理研究员，2022年入选中国科协青年人才托举工程项目、2020年入选CCF优博。2014年本科毕业于南开大学计算机与控制工程学院，2020年博士毕业于北京大学王选计算机研究所。主要研究方向为跨媒体分析、细粒度图像分类、计算机视觉和人工智能。主持国家自然科学基金面上、腾讯微信犀牛鸟专项等项目，已发表论文20余篇，包括IEEE Trans.和CCF A类论文17篇，其中IEEE TIP 2018入选ESI高被引论文。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频语义搜索比赛，均获第一名。研究成果已经应用于央视、人民日报、新华社等单位。获2018年百度奖学金（全球10名获奖者），2020年北京大学优秀博士学位论文奖，2020年北京大学优秀毕业生、2020年北京市普通高等学校优秀毕业生。担任国际会议ICME 2023领域主席、IJCAI 2021高级程序委员（SPC）、CVPR 2022/2023细粒度视觉分类Workshop共同组织者。

报告摘要：互联网数据具有图像、文本、视频、音频等跨媒体并存的特点，而现有跨媒体分类与检索技术通常聚焦于粗粒度的大类，难以满足医疗、交通等诸多领域的精细化需求。而细粒度跨媒体分类与检索旨在使计算机能够对跨媒体内容进行精细化分析。如何借鉴人脑的认知机理，模拟注意力机制学习多粒度的辨识性特征，突破细粒度跨媒体分类与检索难题，对于提高计算机的感知和认知能力至关重要。本报告将梳理细粒度跨媒体分类与检索方向的研究现状与进展，并探讨未来研究方向。

宋新航
中科院计算技术研究所

报告题目：场景知识引导的视觉导航研究

讲者简介：中国科学院计算技术研究所副研究员，于2017年博士毕业于中国科学院大学，获中科院院长特别奖，中国图象图形学学会优博，也曾获博新计划支持。主要研究方向为多模态场景理解与视觉导航，曾在多个CCF-A期刊与会议发表论文，其中一作CCF-A类论文10篇。相关技术曾获ImageCLEF2013多模态视觉理解竞赛，ACM Multimedia 2016图像描述竞赛，CVPR2021具身智能视觉导航竞赛等多项竞赛冠军，也曾获中国图象图形学学会自然科学二等奖、北京市科技进步二等奖。

报告摘要：物体导航任务要求智能体在不同环境中找到给定的目标物体。传统方法一般基于建图与定位技术实现导航，虽然在已知环境中效率较高，但对于未知环境需重复建图则效率不佳。面向未知环境，从视觉到行为的端到端可学习模型研究出发，利用强化学习训练深度模型以实现智能体的导航行为预测。端到端深度强化模型一般需要大量数据驱动，由于在未知环境的大部分区域中智能体无法观测到目标物体，会导致奖惩函数稀疏，所训练模型一般难以规划最优路径，会导致导航效率较低等问题。为提升未知环境下的导航能力，提出了场景知识引导的目标导航模型，在模拟器\真实环境中通过研究RGB-D多模态场景理解及物体识别技术，以构建场景-区域-物体-属性等多维度场景知识图，基于知识图预测并规划到目标的语义拓扑路径，以指导智能体的行为输出。知识图可基于已知环境预训练，并在未知环境导航过程中在线更新，以快速适应未知环境，我们在类别级和实例级目标导航任务中分别验证了所提出方法的有效性。

易冉上海交通大学

报告题目：面向艺术肖像画的媒体艺术生成与评估

讲者简介：上海交通大学计算机科学与工程系助理教授。2016年获得清华大学工学学士学位，2021年获得清华大学工学博士学位。从事计算机图形学、计算机视觉等方面的研究。发表录用30余篇论文于IEEE TPAMI、ACM TOG、SIGGRAPH、CVPR、ICCV、TVCG、AAAI等国际期刊和会议，其中CCF-A国际期刊会议21篇。入选第八届中国科协“青年人才托举工程”，获2021年北京市科技进步二等奖(排名九)，2022年中国图象图形学学会高等教育教学成果一等奖(排名五)，2021年中国图象图形学学会石青云女科学家奖(青英组)，2022年瑞士Chorafas青年研究奖，2022年中国人工智能学会优秀博士学位论文，2019年中国计算机学会计算机视觉专委会学术新锐奖。担任中国图象图形学学会智能图形专委会、动画与数字娱乐专委会委员，TPAMI、IJCV、TIP、CVPR、ICCV、NeurIPS、ICLR、AAAI等国际期刊会议审稿人。

报告摘要：人工智能内容生成已经引发内容创作行业的产业革命，艺术肖像画是人工智能内容生成领域的重要分支。本次报告主要分享我们团队对于面向艺术肖像画的媒体艺术风格生成的系列研究工作。首先，针对成对数据、单风格生成，我们提出针对线条的距离变换损失和层次化结构的生成模型，与基于流形映射的理论解释和精细艺术肖像生成模型；针对非成对数据、多风格生成，我们提出基于非对称循环结构的生成模型以解决源域、目标域信息不对称导致的信息隐藏问题，提出肖像线条画质量评估指标和基于风格空间搜索的未知新风格肖像画生成方法。其次，针对多模态信息融合的问题，我们提出基于语言模型指导的小样本扩散模型风格迁移方法；提出基于特征空间弹性匹配，实现从单张照片和语音信号生成艺术肖像说话视频，同时实现面部几何变形和艺术风格转换。最后，针对内容生成质量难以评估的特点，我们提出了图像艺术美感评估方法，以助力后续的媒体艺术生成研究。