智能视频分析

会程安排

9 月 19 日 下午

分论坛主席

白慧慧
教授 ⋅ 北京交通大学
白慧慧,北京交通大学信息科学研究所教授、所长、国家级高层次人才。长期从事计算机视觉、视频分析、视频编码等方面的研究。主持多项高水平科研,如国家自然科学基金重点项目、国家重点研发计划重点专项、国家自然科学基金面上项目、北京市自然基金小米创新前沿项目、北京市自然基金面上项目、江苏省自然科学基金项目等。已发表学术论文100余篇,包括IEEE汇刊TPAMI、TIP、TCSVT、TMM与计算机学会推荐会议论文CVPR、IJCAI、AAAI、ECCV、DCC等。出版专著2部,其中1部由本领域内知名国际出版社Springer出版。获得国际专利授权3项、国家发明专利授权15项。获北京市科技进步二等奖(排1)、北京市自然科学一等奖(排2)、中国电子学会青年科学家奖(首批)。入选中国人工智能学会教学激励计划一等奖(排1)、中国图象图形学学会教学激励计划二等奖(排2)、北京高等学校“青年英才计划”、微软亚洲研究院“铸星计划”、CCF-腾讯犀牛鸟创意基金、APSIPA Distinguished Lecturer (2020-2021)等。所负责完成的多项研究成果已经在华为终端有限公司、电信科学技术第四研究所有限公司等单位取得良好应用。
彭宇新
教授 ⋅ 北京大学
彭宇新,北京大学二级教授、博雅特聘教授,CAAI/CIE/CSIG Fellow,2019年国家杰出青年科学基金获得者,2025年青年科学基金项目(A类)延续资助计划获得者,2019年国家万人计划科技创新领军人才,2018年科技部中青年科技创新领军人才,863项目首席专家,中国工程院“人工智能2.0”规划专家委员会专家,中国人工智能产业创新联盟专家委员会主任,中国图象图形学学会副秘书长、提名与奖励委员会副主任,北京图象图形学学会副理事长。主要研究方向为多媒体分析、计算机视觉、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步奖一等奖,2008年获北京大学宝钢奖教金优秀奖,2017年获北京大学教学优秀奖。主持了863、国家自然基金重点、北京自然基金联合基金重点、发改委专项等40多个项目。发表TPAMI、IJCV、CVPR、NeurIPS、ICML等ACM/IEEE Trans.和CCF A类论文150多篇,获最佳论文奖2次。10次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频搜索比赛,均获第一名。成果应用于国家网信办、公安部、国家广播电视总局等重要单位以及华为、腾讯、快手、蔚来、美团、中国电信、中国铁塔等头部企业。IEEE TCSVT高级领域编委、IEEE TMM等期刊编委,培养博士生获中国计算机学会、中国电子学会等优博。
刘曼
讲师 ⋅ 安徽大学
刘曼,安徽大学,讲师。于2025年在北京交通大学信息科学研究所获得工学博士学位。近年来,其主要研究方向为计算机视觉、多模态学习等,以第一作者在TPAMI、TIP(×2)、CVPR(Highlight)、AAAI、ACM MM等国际顶级期刊/会议发表多篇论文。同时担任TIP、CVPR等计算机视觉顶级会议或期刊审稿人。

分论坛报告

多模态视频理解
韩军功 教授⋅ 清华大学
报告摘要:随着我们的世界通过多样化的数据源变得日益互联,理解来自多种模态(如视觉、语言和深度信息)的复杂场景能力,已成为现代人工智能的核心。本次报告将探讨新兴的多模态视频理解领域,即机器如何整合并推理来自不同感知输入的信息,从而实现对环境的感知、理解与交互。我们将深入介绍该领域在模型架构、融合策略和实际应用方面的最新进展,展示这些方法如何不断突破感知与认知的边界。报告还将讨论在构建能够跨模态学习具有鲁棒性、上下文感知和类人理解能力的系统方面,所面临的挑战与机遇。
讲者简介:韩军功,2024年9月加入清华大学自动化系,担任兴华讲席教授(长聘教授),教育部“长江讲席”教授。回国之前,他任英国谢菲尔德大学(全球排名前100;6位诺奖)计算机学院讲席教授,领导计算机视觉研究团队。2004年-2024年间,他曾在多所欧洲知名大学、国家研究机构及国际大型企业担任教授及研究员。他在动态神经网络、多模态视觉感知、类脑机器学习以及大模型优化等研究领域取得了一系列理论创新和技术突破。论文总引用量超2.8万次,单篇一作论文最高引用量2.1千次,H指数80,连续入选斯坦福全球前2%顶尖科学家榜单及ScholarGPS全球前0.05%高被引学者榜单(位列谢菲尔德大学工学部第一)。他是4本IEEE Transactions的副主编,荣获2024年IEEE Transactions on Multimedia 的最佳编委,获中国科学:信息科学(英)2024最佳论文奖,并将出任BMVC2025的大会主席。他的团队获CVPR’24视频分割第一名;他主导开发的海量音/视频内容检索技术荣获国际CSI创新奖,并助力企业获得美国国家电视艺术与科学学院颁发的技术与工程艾美奖。韩军功是国际模式识别学会会士、亚太地区人工智能学会会士。
具身智能体
郝建业 教授 ⋅ 天津大学
报告摘要:本报告首先会介绍大模型技术背景和基础,然后介绍在大模型时代下具身智能技术,从数据、模型、优化和推理三方面,分享具身智能实现scaling law所面临的关键挑战和业界最新进展。
讲者简介:郝建业,天津大学智算学部教授,华为诺亚决策推理实验室主任。主要研究方向为强化学习、具身智能和多智能体系统。发表人工智能领域CCF-A类国际会议和期刊论文100余篇,专著3部。 获国家自然科学基金委优青、国家科技部2030人工智能重大课题、基金委人工智能重大培育等项目资助10余项,研究成果获国际会议最佳论文奖3次,NeurIPS大会竞赛冠军4次。相关成果在国产工业基础软件智能化、自动驾驶、游戏AI、互联网广告及推荐、5G网络优化、工业物流调度等领域广泛落地应用。
面向具身智能的物体6D位姿感知与深度估计
刘贤明 教授 ⋅ 哈尔滨大学
报告摘要:从传感器数据中恢复、推断和理解环境中物体或场景的三维几何结构、空间关系以及运动信息,在具身智能、VR/AR、自动驾驶等领域有着广泛应用。物体的在线 6D 位姿感知与深度估计是具身智能中两项基础且关键的技术步骤。本报告将汇报课题组在该方向的最新研究进展,包括单目视频下的零样本物体 6D 位姿跟踪、基于隐表面优化的 6D 位姿修正和多传感器协同深度估计等技术。
讲者简介:刘贤明,现任哈尔滨工业大学计算机学院长聘教授、博士生导师、副院长,兼任哈工大-中国移动5G联合创新研究院总师。在加拿大麦克马斯特大学、日本国立情报学研究所担任博士后研究员和特任研究员。2014年秋和2016年秋两次入选哈工大青年拔尖人才,分别破格提升副教授、教授。研究方向为可信机器学习、多媒体信息处理,在Nature Methods、Nature Communications、TPAMI、JMLR、TRO、NeurIPS、ICML、ICLR、CVPR、ICCV等国际顶级期刊和会议上发表论文200余篇。主持国家重点研发计划重点专项项目、课题,和国家自然科学基金人才类、重大研究计划、面上等项目。指导博士生获得中国人工智能学会优秀博士论文激励计划、黑龙江省人工智能学会优秀博士论文奖(一等)、首批国家自然科学基金青年学生基础研究项目资助,荣获哈工大“育人新星”青年导师荣誉称号;获得黑龙江省研究生教学成果奖特等奖(第二完成人)和哈工大研究生教学成果奖特等奖(第二完成人)。
多模态视频理解与生成
高常鑫 教授⋅ 华中科技大学
报告摘要:智能视频分析是当前人工智能领域的研究热点,是人工智能理解世界和创作内容的关键技术,在智能视频监控、自动驾驶、内容创作等领域有广泛的应用。本报告首先介绍课题组在视频理解方面的研究工作,包括视频理解特征学习、行为检测等。此外,还将介绍图像视频可控生成方面的研究工作,包括视频高效生成、可控生成以及虚拟试衣等。最后,对上述方向进行总结与展望。
讲者简介:高常鑫,华中科技大学教授、多谱信息智能处理技术全国重点实验室副主任,国家级青年人才。研究领域为计算机视觉、图像/视频智能理解及其在视频监控等领域的应用。近年来发表IEEE TPAMI、IJCV、IEEE TIP、CVPR、ICCV、ECCV等高水平期刊会议论文40余篇。先后主持湖北省杰出青年基金项目、国家自然科学基金面上项目、装备预研项目题等课题。获湖北省科技进步一等奖。
真实世界视频智能感知与理解
李锋 副教授⋅ 合肥工业大学
报告摘要:在真实世界的开放环境中,视频采集过程不可避免地受到多种复杂因素的干扰与制约,这为机器对视频场景的精准感知与高效理解带来了严峻挑战。具体而言,恶劣天气退化、光照条件差异、视点变化、复杂背景干扰以及传输带宽限制等因素,不仅显著降低了模型的鲁棒性与泛化能力,更极大增加了场景语义解析与目标准确识别的难度。本次报告将聚焦于视频感知与理解的鲁棒性增强、传输质量优化、高效智能处理以及深度语义理解等关键环节。我们将深入探讨在复杂真实场景下,如何实现视频的准确感知与高效理解,全面展示团队在相关领域取得的最新研究突破与核心技术进展,旨在为构建更可靠、更智能的视频感知与理解系统提供系统性解决方案。
讲者简介:李锋,合肥工业大学副教授。主要研究方向为计算机视觉、图像视频增强及多媒体信息处理。主持国家自然科学基金青年基金,国家自然科学基金重点项目课题负责人,参与包括科技部重点研发计划等多项项目。获IEEE CVPR NTIRE双目图像超分挑战赛亚军。在包括IEEE TPAMI、IJCV、CVPR、ICCV、ICLR等CCF-A类会议、IEEE汇刊上发表论文40余篇。