第十八届中国图象图形学学会青年科学家会议–图象图形机器学习理论与方法专题

报告嘉宾

程明明南开大学

报告题目：大规模图像的多粒度语义理解

讲者简介：程明明，南开大学教授，计算机系主任。主持承担了国家杰出青年科学基金、优秀青年科学基金项目、科技部重大项目课题等。他的主要研究方向是计算机视觉和计算机图形学，在SCI一区/CCF A类刊物上发表学术论文100余篇（含IEEE TPAMI论文28篇），h-index为64，论文谷歌引用3.2万余次，单篇最高引用4300余次，连续6年入选Elsevier中国高被引学者榜单。技术成果被应用于华为、推想、金风、和中化农业等。获得多项省部级科技奖励。现担任中国图象图形学学会副秘书长、天津市人工智能学会副理事长和SCI一区期刊IEEE TPAMI, IEEE TIP编委。

报告摘要：从图像中快速准确地获取目标信息是计算机视觉的核心任务。鲁棒的目标检测与信息提取需要对不同粒度的信息进行高效的整合。本报告从多层次卷积特征融合、基于短连接的多尺度融合与深度监督、基于分层递进残差设计的层内多尺度特征表达、时序多层次信息提取、霍夫空间度尺度检测、多模型高效融合、多图像联系分析等角度入手，系统地介绍南开大学媒体计算团队在边缘检测、显著性物体检测、图像分类、语义分割、物体检测、关键点估计、视频动作分割，语义线检测、行人计数、年龄估计、图像超分辨率等领域的最新研究进展。同时，本次报告也将从实例、图像、以及整个数据集三个粒度出发，对大规模图像集合进行联合分析，以减少图像理解算法对大规模精确标注的依赖。

方乐缘湖南大学

报告题目：弱监督遥感影像处理与分析

讲者简介：方乐缘，博士，湖南大学岳麓学者特聘教授，国家优青，科睿唯安全球“高被引科学家”，自动化系系主任，担任多个机器学习与计算机视觉领域国际知名期刊编委。研究成果在国际权威期刊和会议发表论文130余篇，其中SCI期刊发表论文90余篇，国际权威会议论文30余篇，Google scholar引用超过8000次，ESI高被引（1%）18篇，ESI热点论文（0.1%）4篇，获国家自然科学二等奖一项（排名第二），湖南省自然科学一等奖（排名第二）、湖南省优秀博士论文、IEEE Transactions on Geoscience and Remote Sensing最佳审稿人等奖项。近年来，主持了国家重点研发课题、JKW创新特区、湖南省重点研发等项目。

报告摘要：深度学习因其出色的性能在遥感影像处理分析中广泛应用，但深度学习是数据驱动的监督学习方法，其性能严重依赖于海量高质量的数据。实际应用中，难以获得高质量遥感影像来训练深度学习模型；一方面遥感影像分辨率低，不利于观测并解译精细地物信息；另一方面完整标注的遥感影像获取难度大，需要相关专业背景，甚至是实地踏勘。这些严重制约了深度学习方法在遥感领域的应用。本报告首先针对遥感影像分辨率受限问题，提出盲空间超分辨率和盲光谱超分辨率方法；其次，针对遥感影像完整标注困难、时间代价昂贵的问题，提出基于点标签的解译方法；最后，针对遥感影像分辨率提升大幅增加计算代价的问题，提出一种双支路并行网络结构，大幅度减少了训练时间，并不增加推理阶段的运算时间。

卢策吾上海交通大学

报告题目：行为理解与具身智能

讲者简介：卢策吾，上海交通大学教授，博士生导师，2016年或海外高层次青年引进人才，2018年被《麻省理工科技评论》评为35位35岁以下中国科技精英（MIT TR35），2019年获求是杰出青年学者，2020年获上海市科技进步特等奖（第三完成人），2021获中国高被引学者，2022年获IROS最佳论文之一（6/3579）。以通讯作者或第一作者在《自然》，《自然·机器智能》，TPAMI等高水平期刊和会议发表论文100多篇；担任Science正刊，Nature子刊，Cell子刊等期刊审稿人，NeurIPS，CVPR，ICCV ，ECCV，IROS ，ICRA领域主席。研究兴趣包括计算机视觉，机器人学习。

报告摘要：该讲座围绕智能体行为理解问题展开讨论，包括：从机器认知角度，如何让机器看懂行为？介绍人类行为知识引擎与庞加莱空间下的行为语义统一等工作。从神经认知角度：机器语义理解与脑神经认知的内在关联？介绍如何阐释视觉行为理解与其脑神经的内在关联，并建立稳定映射模型。从具身认知角度，如何让机器人具有第一人称的行为能力？介绍提出的PIE（perception- imagination-execution）方案，其中代表工作graspNet首次在未知物体抓取问题上达到人类水平。

赵洲浙江大学

报告题目：多模态生成式模型研究

讲者简介：赵洲，浙江大学计算机学院教授、博士生导师，2015年博士毕业于香港科技大学。主要研究方向为自然语言理解、计算机视觉计算和生成式模型，在国际期刊和会议上发表50余篇论文，谷歌学术引用8000多次。完成了多个多模态生成式任务的工作，如语音合成（NATSpeech）、歌声合成（DiffSinger）、图像合成（PNDM）、音色合成（Make-An-Audio）和视频合成（GeneFace）等，应用于微软、华为、Stable-Diffusion和字节等科技公司产品中，获教育部科技进步一等奖、中国电子学会科技进步一等奖。

报告摘要：AIGC在最近几个月获得了巨大的突破，用户可以输入自然语言生成图像、视频、音频、甚至是3D模型。现有跨模态生成方法在人机交互场景下，存在着合成推理的实时性、泛化性和可控性等挑战。针对上述挑战，本次报告首先介绍跨模态频谱图合成中的并行化推理、多峰性建模、模型轻量级、高表现力建模、泛化学习和任意模态可控合成等工作（NATSpeech、DiffSinger、GenerSpeech和Make-An-Audio）；其次介绍跨模态视觉合成中的表示学习、数据增强和加速推理等工作（PDAE、GeneFace和PNDM）。

王利民南京大学

报告题目：视频基础模型及其下游任务应用

讲者简介：王利民，南京大学教授，博士生导师。2011年在南京大学获得学士学位，2015年香港中文获得博士学位，2015年至2018在苏黎世联邦理工学院（ETH Zurich）从事博士后研究工作。主要研究领域为计算机视觉和深度学习，专注视频理解和动作识别，在IJCV、T-PAMI、CVPR、ICCV等重要学术期刊和会议发表论文50余篇。根据Google Scholar统计，论文被引用 14000余次，两篇一作论文取得了单篇引用超过3000的学术影响力。提出的TSN网络获得首届ActivityNet比赛冠军，已经成为动作识别领域基准方法。2018年入选国家高层次青年人才计划，曾获得广东省技术发明一等奖，世界人工智能大会青年优秀论文奖。入选AI 2000人工智能全球最具影响力学者榜单（计算机视觉方向），2022年度全球华人AI青年学者榜单，2021爱思唯尔中国高被引学者榜单。

报告摘要：构建通用基础模型（Foundation Model）已经成为计算机视觉任务的重要性能增长点。视频理解领域面临着数据维度高、信息容量大、场景变化多等核心挑战，如何构建视频基础模型已经成为现阶段一项极具挑战的任务。在本次报告中间，将详细介绍南京大学媒体计算课题组在视频基础模型及其下游任务适配方面的系列工作，具体包括：视频基础模型预训练范式（VideoMAE V1 & V2），基于VideoMAE预训练模型的时空动作检测框架（STMixer），基于VideoMAE预训练模型的时序动作检测框架（ViT-TAD）。此外，还将介绍课题组在体育视频分析领域建立的视频理解能力综合评测基MultiSports。最后，将展望视频基础模型的未来发展趋势。