报告摘要:随着我们的世界通过多样化的数据源变得日益互联,理解来自多种模态(如视觉、语言和深度信息)的复杂场景能力,已成为现代人工智能的核心。本次报告将探讨新兴的多模态视频理解领域,即机器如何整合并推理来自不同感知输入的信息,从而实现对环境的感知、理解与交互。我们将深入介绍该领域在模型架构、融合策略和实际应用方面的最新进展,展示这些方法如何不断突破感知与认知的边界。报告还将讨论在构建能够跨模态学习具有鲁棒性、上下文感知和类人理解能力的系统方面,所面临的挑战与机遇。
讲者简介:韩军功,2024年9月加入清华大学自动化系,担任兴华讲席教授(长聘教授),教育部“长江讲席”教授。回国之前,他任英国谢菲尔德大学(全球排名前100;6位诺奖)计算机学院讲席教授,领导计算机视觉研究团队。2004年-2024年间,他曾在多所欧洲知名大学、国家研究机构及国际大型企业担任教授及研究员。他在动态神经网络、多模态视觉感知、类脑机器学习以及大模型优化等研究领域取得了一系列理论创新和技术突破。论文总引用量超2.8万次,单篇一作论文最高引用量2.1千次,H指数80,连续入选斯坦福全球前2%顶尖科学家榜单及ScholarGPS全球前0.05%高被引学者榜单(位列谢菲尔德大学工学部第一)。他是4本IEEE Transactions的副主编,荣获2024年IEEE Transactions on Multimedia 的最佳编委,获中国科学:信息科学(英)2024最佳论文奖,并将出任BMVC2025的大会主席。他的团队获CVPR’24视频分割第一名;他主导开发的海量音/视频内容检索技术荣获国际CSI创新奖,并助力企业获得美国国家电视艺术与科学学院颁发的技术与工程艾美奖。韩军功是国际模式识别学会会士、亚太地区人工智能学会会士。