优博论坛

会程安排

9 月 19 日 上午

分论坛主席

马超
教授 ⋅ 上海交通大学
马超,上海交通大学人工智能研究院教授,博士生导师。上海市浦江人才、中国图象图形学学会优博。上海交通大学与加州大学默塞德分校联合培养博士。澳大利亚机器人视觉研究中心(阿德莱德大学)博士后研究员。主要研究计算机视觉问题。谷歌学术引用1万4千余次,连续五年入选爱思唯尔中国高被引学者(2020-2024)。任中国图象图形学学会优博俱乐部主席、青年工作委员会副秘书长。担任CVPR、ICCV、ICLR等会议领域主席,IEEE Trans. on Multimedia (TMM)、Journal of Artificial Intelligence Research (JAIR)编委。主持自然基金委青年项目(B类)。获中国图象图形学学会青年科学家奖、第30届多媒体建模会议(MMM 2024)唯一最佳论文奖、华为技术合作领域2021年度优秀技术成果奖。
晏轶超
副教授 ⋅ 上海交通大学
晏轶超,上海交通大学人工智能研究院副教授,博士生导师。获上海交通大学电子工程系学士、博士学位,法国里昂中央理工学院硕士学位,曾担任阿联酋起源人工智能研究院研究科学家。主要研究方向为人体视觉表征学习,发表包括TPAMI、CVPR、NeurIPS在内的论文40余篇。先后主持国家自然科学基金青年项目、CCF-阿里巴巴青年科学家基金等项目8项。曾入选上海市海外高层次人才计划,获2024年中国图象图形学学会自然科学二等奖(排二),2023挑战杯-揭榜挂帅专项赛特等奖,2020年中国图象图形学学会优秀博士论文奖。

分论坛报告

面向复杂成像场景的高精度图像视频重建
刘婧 副教授 ⋅ 天津大学
报告摘要:随着数字成像技术的快速发展和视觉媒体应用的广泛普及,用户对图像视频的视觉质量要求不断提高。然而,受限于传感器物理特性、存储经济性及传输带宽等现实约束,主流成像系统仍普遍采用8-bit甚至更低精度的量化方案进行数据存储与传输,导致在显示时出现伪轮廓、色彩断层和细节丢失等问题。针对这一问题,高精度图像视频重建技术已成为突破成像系统物理限制、提升终端视觉体验的核心研究方向。在复杂成像场景下,普通精度图像视频面临非线性失真机理未知、帧间失真结构干扰强等多重挑战。报告介绍了团队从相机物理成像过程、小样本场景等角度开展的一系列高精度图像视频重建研究工作,提升了复杂场景下的高精度重建质量,同时实现了计算效率的优化,推广了高精度图像视频的实际应用。
讲者简介:刘婧,天津大学电气自动化与信息工程学院副教授,博导,天津大学北洋学者青年骨干教师。主要研究方向为多媒体处理和内容理解,曾获天津市科学技术进步特等奖、中国图象图形学学会优秀博士论文提名奖。先后主持国家自然科学基金面上项目及青年项目、中国博士后科学基金特别资助、国家重点研发计划子课题等项目。发表50余篇期刊及会议论文,谷歌学术引用2500余次,获2021年度IEEE Transactions on Multimedia最佳论文提名奖、2024 年国际数字多媒体通信论坛最佳论文奖等。目前担任IEEE Transactions on Multimedia、Elsevier Displays期刊编委。
面向动态变化场景的视频理解模型参数自适应
曾润浩 长聘副教授 ⋅ 深圳北理莫斯科大学
报告摘要:模型参数测试时自适应(Test-Time Adaptation, TTA)是提升视频模型在未知场景下鲁棒性与泛化能力的重要途径。然而,在动态视频理解中,TTA仍面临以下三大挑战:1)运动建模不足:视频特有的时空关联性被忽视;2)模态利用单一:音频等伴随信息未得到充分挖掘;3)优化效率低下:传统方法收敛速度较慢、适应过程耗时较长。为此,我们提出了应对方案:1)动态感知增强:设计基于快慢采样的特征对齐机制,通过跨速率的交互建模捕捉运动线索,提升模型对动态场景的自适应能力;2)跨模态协同进化:构建音频辅助的视频TTA框架,利用预训练音频模型与大语言模型进行语义映射,实现音视频联合优化;3)高效优化引擎:提出基于学习的测试时元梯度优化器,通过历史信息的压缩、记忆与重用在保证准确度的同时降低计算开销,实现快速、稳定的在线自适应。
讲者简介:曾润浩,博士,深圳北理莫斯科大学长聘副教授,北理工博导。广东省重大人才工程青年拔尖人才,深圳市科技创新人才,深圳市鹏城孔雀人才,广东潮博智库专家。研究领域为计算机视觉、多模态数据分析,核心方向包括视频动作识别、情绪识别等,在IEEE TPAMI、IEEE TIP、CVPR等国际顶级期刊和会议发表论文20余篇,谷歌学术总引2000余次,单篇最高引600余次。所提出的视频时序动作分析方法在THUMOS14权威基准连续14个月排名全球第一。近三年主持国家自然科学基金项目、广东省教育厅重点领域项目等纵向科研项目7项。获中国图象图形学学会优博提名奖,IEEE计算机学会杰出组织奖,成果入选CVPR 2024最佳论文候选。受邀担任NeurIPS、CVPR等人工智能领域顶级会议和TPAMI、TIP等权威期刊的程序委员会委员和审稿人。担任国际会议2024 IEEE SmartIoT本地主席、2023 CSIG青年科学家会议论坛主席,CSIG多媒体专委会委员,广东图象图形学会计算机视觉专委会委员
面向复杂成像场景的高精度图像视频重建
姜阳邦彦 研究助理 ⋅ 中国科学院大学
报告摘要:半监督学习、无监督学习等标签缺失场景下的机器学习范式是解决数据标注成本高昂问题的主要手段之一。尽管现有方法取得了一定进展,但在复杂数据处理、泛化理论保障以及学习稳定性等方面仍存在不足。本报告将以理论启发为主线,从数据建模、理论分析、算法实现三个层面系统阐述报告人近年来在该领域的研究进展:数据层面,针对数据中混杂异常样本等问题,提出一系列无监督异常检测方法,增强复杂数据应对能力;理论层面,针对主流深度半监督算法作用机理不明确、缺乏理论支撑问题,构建通用半监督泛化误差上界,在具有理论支撑前提下推广现有主流方法;方法层面,针对现有PU方法学习稳定性欠佳问题,提出基于全局标签分布对齐的PU学习方法,有效避免潜在预测偏差,稳定训练过程。通过构建明确的理论度量与目标函数,上述研究可避免经验驱动的盲目性,提升模型的可解释性和稳定性,从而更好地适应复杂且缺乏标签的实际环境。
讲者简介:姜阳邦彦,中国科学院大学博士后、特别研究助理,入选中国图象图形学学会博士学位论文激励计划、中国科学院优秀博士学位论文、ACM中国SIGMM优秀博士学位论文。研究方向为计算机视觉与机器学习,先后在TPAMI、TIP、NeurIPS、AAAI、ACM MM等CCF-A类国际期刊/会议发表论文20余篇,其中一作TPAMI 2篇、NeurIPS 1篇(Spotlight,录用率为2.4%);担任NeurIPS、ICML、ICLR、AAAI、CVPR、ICCV及TPAMI、TKDE等国际会议/期刊审稿人,主持国家自然科学基金青年基金、CCF-深信服“远望”科研基金、博士后面上基金等项目。先后获得吴文俊人工智能科技进步二等奖、微软学者奖学金(亚太地区共12人)、首都前沿学术成果奖、中国科学院朱李月华优秀博士生奖、中国科学院院长优秀奖、中国科学院信息工程研究所所长特别奖等奖励,及ICML 2022与NeurIPS 2020 Top-10%审稿人称号。
统计分析驱动的图像质量评价指标体系与多模态大模型评价基准
王聪 副教授 ⋅ 西北工业大学
报告摘要:统计分析方法为模型质量评估提供了崭新的解决思路。在传统的图像质量评估领域,为解决当前单一指标方法(PSNR,SSIM等)的局限性,本报告将介绍一种统计模型驱动的图像质量评估框架以实现对图像质量的全面评估,并且为图像质量评估指标的分析和应用提供有价值的见解。在当年大模型时代,有效评估多模态大语言模型(MLLM)也是一个基本挑战,原因在于缺乏结构化、可解释且有理论依据的基准设计。现有的基准通常采用基于启发式的任务分组,其认知目标不明确,从而导致能力重叠、指标冗余以及诊断能力有限。本报告将介绍一种基于结构方程模型(SEM)的新型框架,用于对MLLM基准进行对齐,以分析和量化基准组件的内部有效性、维度可分离性和贡献。
讲者简介:王聪,西北工业大学副教授、博导,IEEE模糊系统汇刊编委(IF: 10.7),陕西省青联委员。现任中国航空学会飞行汽车分会委员、陕西省临地安防学会秘书长、陕西省高层次人才发展促进会副秘书长、陕西省青年科技工作者协会副秘书长和中国青年科技工作者协会会员。主要研究方向为复杂域图像分析与处理、人工智能中的数学基础。主持国家自然科学基金(重点/面上/青年)、科技部重大项目子课题、陕西省重点研发计划(重点)等纵向课题13项,发表IEEE TPAMI/IEEE TIP/IEEE TFS/IEEE TCYB/自动化学报(英文版)等高水平论文40余篇,出版专著1部、教材1部。入选博新计划、教育部春晖计划和中国科协优秀中外青年交流计划。荣获陕西省优博奖、CSIG优博提名奖。
多模态融合的乒乓球智能运动训练
王伽臣 研究员 ⋅ 浙江大学
报告摘要:构建融合多模态数据的智能运动训练系统可以辅助运动员进一步提升训练效果,提高竞技水平。本研究围绕“多模态融合的乒乓球智能运动训练”展开,首先提出了集成可视分析与IoT设备的乒乓球智能训练框架,旨在实现高效、可解释的训练过程监控与反馈。其次,基于运动生物力学原理,提出一种用于描述击球风格和技术特征的“击球指纹”提取方法,为运动能力评估与个性化训练提供理论支撑。最后,构建了一个用于训练乒乓球智能教练的大规模多模态数据集,支持对运动状态感知、动作分类与训练推荐等核心任务的建模。
讲者简介:王伽臣,浙江大学教育学院体育系百人计划研究员,博士生导师。获得浙江大学计算机科学与技术博士学位,曾任香港科技大学计算机科学与工程系博士后研究员。主要研究方向为面向体育数据的可视分析、知识挖掘、机器学习和人机交互技术。在IEEE VIS、IEEE TVCG、ACM SIGKDD、ACM  SIGCHI等计算机领域顶级会议和期刊发表论文15篇,获得授权发明专利9项,曾获得2023年度CSIG优秀博士学位论文与浙江省优秀博士学位论文。担任IEEE与ACM旗下多个计算机领域顶级会议和期刊的审稿人。
面向可信具身的交互式空间理解
谭鑫 研究员 ⋅ 华东师范大学
报告摘要:可信是具身智能系统不可或缺的重要特征。近年来,具身智能系统在空间理解方面快速发展,但在可信方面仍然面临巨大挑战:例如可信具身的定义不明确、缺乏主动交互与确认、三维信息利用不充分影响可信等。快速三维几何重建与语义场重建技术,以及多模态大模型强大的知识与推理能力,为交互式的空间理解提供了可能,有利于增强具身智能系统的可信能力。本报告汇报我们在定义可信具身内涵方面做的工作,并汇报了我们在可信具身方面的研究进展,包括基于多模态大模型的三维空间交互、基于认知理论的可信具身导航、基于不可知论的多图空间理解、基于思维链的空间长程规划等。
讲者简介:谭鑫,华东师范大学计算机科学与技术学院青年研究员(紫江青年学者),院长助理;上海人工智能实验室双聘副研究员;博士生导师。入选第十届中国科协青年人才托举工程、中国图象图形学学会博士学位论文激励计划;上海市扬帆计划、晨光计划。他的主要研究兴趣是面向具身的通用场景理解与构建。他主持了国家级和省部级项目共6项,以及CCF-腾讯犀牛鸟基金(优秀结题)等。他在TPAMI、TIP、ICLR、CVPR、ICCV等国际知名期刊和会议发表论文40余篇。作为完成人曾获世界互联网大会领先科技奖等。他还担任多个知名期刊(Pattern Recognition, The Visual Computer等)的编委(Associate editor)等。