分论坛主席

李崇轩

副教授 ⋅ 中国人民大学

李崇轩，中国人民大学高瓴人工智能学院准聘副教授，主要研究领域为生成模型，研制LLaDA系列扩散大语言模型，视觉扩散模型成果部署于DALL·E 2、Stable Diffusion、Vidu等行业领先模型。获ICLR 2022 杰出论文奖、吴文俊优秀青年奖、北京市科技新星、吴文俊人工智能自然科学一等奖等，主持国家自然基金重大研究计划培育项目等。担任IEEE TPAMI 编委（AE）和ICLR、NeurIPS等会议的领域主席（AC）。个人主页：zhenxuan00.github.io。

赵恒爽

助理教授 ⋅ 香港大学

赵恒爽博士是香港大学计算机科学系助理教授，国家优秀青年基金获得者。此前，他曾在麻省理工学院和牛津大学担任博士后研究员。他的研究兴趣涵盖计算机视觉、机器学习和人工智能等广泛领域，特别着重于构建智能视觉系统。他在CVPR、NeurIPS和TPAMI等顶级会议和期刊上发表论文100余篇，研究成果被引约40,000余次，其中单篇一作论文被引超17,000次，五篇一作论文被引超1,000次。他曾获得过多次国际学术竞赛的冠军，世界人工智能大会明日之星奖和青年优秀论文奖，CVPR最佳演示荣誉奖，AI100青年先锋，被AI 2000评为计算机视觉领域最具影响力的学者之一，被斯坦福大学列为世界前2%终身影响力科学家。此外，他曾担任CVPR、ICCV、ECCV、NeurIPS和ICLR等会议的领域主席，以及Pattern Recognition的副编辑和IEEE TCSVT的客座编辑。

朱军

教授 ⋅ 清华大学

朱军，清华大学计算机系博世人工智能冠名教授、IEEE/AAAI Fellow、清华大学人工智能研究院副院长、计算机系人智实验室主任，曾任卡内基梅隆大学兼职教授。主要从事机器学习研究，发表CCF A类会议/期刊论文百余篇；担任国际著名期刊IEEE TPAMI的副主编，担任ICML、NeurIPS、ICLR等（资深）领域主席20余次；曾获中国科协求是杰出青年奖、科学探索奖、中国计算机学会自然科学一等奖、吴文俊人工智能自然科学一等奖、ICLR国际会议杰出论文奖等，入选国家级高层次人才计划、中国计算机学会青年科学家、MIT TR35中国先锋者、IEEE AI 10 to Watch等。研发UniDiffuser、ProlificDreamer、DPM-Solver等多模态生成模型和高效算法。

左旺孟

教授 ⋅ 哈尔滨工业大学

左旺孟，哈尔滨工业大学计算学部教授。主要从事底层视觉、视觉生成、视觉理解和多模态学习等方面的研究。在CVPR/ICCV/ECCV/NeurIPS/ICLR等顶级会议和IEEE TPAMI、IJCV及IEEE Trans.等期刊上发表论文200余篇。曾任ICCV、CVPR、ECCV等会议领域主席，现任IEEE TPAMI、TIP、《中国科学：信息科学》等期刊编委。

分论坛报告

扩散模型：高效训练和推理

王井东首席科学家⋅ 百度计算机视觉

报告摘要：扩散模型是视觉生成的主流模型。本报告主要介绍两个方面的工作。一个是，通过中间监督来提升扩散模型的训练效率，与REPA相比，不依赖外部模型，可用性更强。另外一个是：通过金字塔式的patchification来提升推理效率，与Pyramid Flow相比，不依赖renoising策略，实现更加简单。

讲者简介：王井东博士，百度计算机视觉首席科学家，加拿大国家工程院外籍院士，国际电气电子工程师学会会士，国际模式识别学会会士，国际计算机协会杰出会员。研究领域包括计算机视觉、深度学习和多媒体搜索。代表工作包括：第一个面向稠密视觉识别的主干网络 - 高分辨率网络HRNet、第一个基于类别 query的transformer图像语义分割网络OCRNet、和第一个基于近邻图实用的和可处理千亿量级的向量搜索算法（NGS与SPTAG）。王井东博士担任ICCV 2025程序委员会主席，担任或曾担任IEEE TPAMI、IJCV、ACM TOMM、IEEE TMM和IEEE TCSVT的编委，担任或曾担任视觉、多媒体和人工智能等方向顶会的（资深）领域主席，比如CVPR、ICCV、ECCV、NeurIPS，ACM MM， IJCAI和AAAI等。

Towards Controllable and Consistent Interactive Video Generation

刘希慧助理教授 ⋅ 香港大学

报告摘要：The rapid development of video generation technologies has recently garnered significant attention from both academia and industry. The increased interest is driven not only by the improvement in visual quality but also by enhanced understanding of real-world physics,powerful generative priors enabled by large-scale pretraining, and advanced controllable generation mechanisms. These advances have paved the way for applications across various fields, including AIGC, embodied AI, gaming, autonomous driving, and more. Despite the vast application potential of interactive video generation, current research still lacks a systematic and in-depth exploration. We begin by reviewing existing work in interactive video generation and propose five core modules that drive its technological development: generation, control, memory, dynamics, and intelligence. This framework clearly outlines the ultimate form of interactive video generation technology, the progress made in each component, and future research directions.Furthermore, our recent work provides a detailed study of the generation, control, and memory components. Specifically, through our two works, GameFactory and Context-as-Memory, we have made significant advances in streaming video generation, generalizable control, and memory for maintaining static scene consistency.

讲者简介：Xihui Liu is an Assistant Professor at the Department of Electrical and Electronic Engineering and Institute of Data Science, The University of Hong Kong. Before joining HKU, she was a postdoc Scholar at UC Berkeley. She obtained her Ph.D. degree from Multimedia Lab (MMLab), the Chinese University of Hong Kong and received her bachelor's degree from Tsinghua University. Her research interests cover computer vision, machine learning, and artificial intelligence, with special emphasis on visual synthesis, generative models, and multimodal AI. She was awarded Adobe Research Fellowship 2020, MIT EECS Rising Stars 2021, and WAIC Rising Stars Award 2022. She serves as area chairs for CVPR, NeurIPS, ICLR, and AAAI, and ACM MM.

高效可控的可视媒体智能生成

易冉副教授 ⋅ 上海交通大学

报告摘要：可视媒体智能生成能为数字孪生、虚拟现实等领域提供内容支撑，具有重要的研究价值与应用价值。在本次报告中，我将汇报近期在高效可控的可视媒体智能生成方面的研究进展：在图像高效可控生成方面，将介绍改进的自回归视觉生成方法IAR，文本引导的图像背景修复方法ATA和Pinco，扩散模型高效微调方法Sara；在视频高效可控生成方面，将介绍视频多主体定制化方法PolyVivid和HunyuanCustom，以及视频运动可控生成方法MotionMaster，所提出的方法在生成质量、主体一致性、可控生成的精准性等方面取得明显提升。

讲者简介：易冉，上海交通大学计算机学院副教授、博士生导师。入选中国科协“青年人才托举工程”、上海市扬帆计划。从事计算机图形学、可视媒体智能生成方向的研究，发表TPAMI、IJCV、CVPR、SIGGRAPH等高水平论文100余篇，其中CCF-A类论文63篇。获中国图象图形学学会石青云女科学家奖（青英组），CCF-腾讯犀牛鸟基金卓越项目，瑞士Chorafas青年研究奖，数博会十大领先科技成果，ACM SIGAI China新星奖，吴文俊人工智能优秀博士学位论文，北京市科技进步二等奖，中国图象图形学学会高等教育教学成果一等奖，中国产学研合作创新成果奖优秀奖，中国计算机学会计算机视觉专委会学术新锐奖。担任中国图象图形学学会智能图形专委会副秘书长，连续2年担任全国几何设计与计算学术会议程序委员会秘书长，担任《Virtual Reality & Intelligent Hardware (VRIH)》期刊青年编委，TPAMI、TOG、IJCV、SIGGRAPH、CVPR 等知名期刊会议审稿人。

自回归-扩散混合模型及应用

邓志杰助理教授 ⋅ 上海交通大学

报告摘要：以自回归模型和扩散模型为代表的多模态生成模型是当前人工智能领域的前沿热点，不过两类模型各有优劣和适用场景。本报告将探讨二者的有机结合，主要围绕 diffusion for AR的思路，解决自回归模型在连续信号建模、推理效率和Inference-time scaling等方面的问题。并简要介绍相关方法在跨模态生成、vla等场景的应用。

讲者简介：邓志杰，上海交通大学计算机学院助理教授，博士生导师。于清华大学计算机系取得博士（2022）和学士（2017）学位。主要研究方向为生成模型，以第一/通讯作者在ICML、NeurIPS、ICLR、CVPR等会议和期刊上发表学术论文30余篇，包括多篇Spotlight，近期代表工作包括生成理解统一模型Orthus和一致性大语言模型CLLMs。获英伟达先锋研究奖等荣誉。主持国自然青基、上海面上、CCF-百川、CCF-智谱、CCF-阿里妈妈基金等项目。个人主页：thudzj.github.io。

多模态原生统一模型建模与挑战

袁粒助理教授 ⋅ 北京大学

报告摘要：近几年以视觉-语言双模态为主的视频理解和生成领域蓬勃发展。当前主流视频多模态理解模型主要是借助大语言模型作为理解和逻辑推理的“中枢”，以自回归式Transformer (AR Transformer)为主干模型，而视频多模态生成仍然以扩散式Transformer (Diffusion Transformer)或者Diffusion ConvNets作为主要模型。所以视频多模态理解和生成在两条不同的技术路径上发展，当前已有的视频理解和生成一体架构大部分是依靠不同架构“搭积木”方式实现，原生的统一架构尚不成熟。要实现视频生成和理解统一的多模态架构，需要探索自回归式路径和扩散式生成的融合或者选择其一，本次报告先介绍团队的视觉生成系列工作，然后讲解探索图像和视频生成的自回归式路线，以及将视觉生成往多模态理解路线上统一，最后探讨未来多模态生成和理解统一架构的建模与挑战。

讲者简介：袁粒，北京大学深圳研究生院助理教授、博士生导师、国家高层次青年人才，入选2022年国家优秀留学生奖(归国类)、2023年福布斯亚洲30U30等，主持国家科技创新2030重大项目课题和国自然基金等。研究方向为多模态深度学习，代表性学术工作包括VOLO, T2T-ViT等深度神经网络框架，以第一/通讯作者在国际期刊和顶会上发表论文50余篇，包括Nature Computational Science、IEEE TPAMI/CVPR等，代表性一作论文单篇被引两千余次，代表性应用工作包括ChatExcel、Open-Sora Plan视频生成开源计划。

会程安排

分论坛主席

分论坛报告