图象视频生成与编辑

会程安排

9 月 20 日 下午

分论坛主席

贾旭
副教授 ⋅ 大连理工大学
贾旭, 大连理工大学未来技术学院副教授,博士生导师,入选国家级青年人才计划,专注于计算机视觉与人工智能领域的研究,在TPAMI、TIP、CVPR、ICCV 等国际高水平期刊和会议上发表学术论文60余篇,谷歌学术累计引用达到1万余次,其中4篇引用超过1000次,成果获得包括诺贝尔奖、多国院士等权威学者正面评价,已申请和授权国内外发明专利20余项。主持多项国家级项目或重点项目子课题,相关研究成果获得CCF自然科学二等奖(序1)、华为火花奖、以及CVPR 形状恢复挑战赛冠军等多项学术奖励。目前担任CSIG青工委副秘书长,CCF、CSIG和CAAI等多个专委会执委,以及Valse执行领域主席,多次担任ICLR、ACM MM、IJCAI、ICME等国际顶会领域主席或高级程序委员,并在CVPR、ECCV等国际顶会上组织多次研讨会。
杨易
求是讲席教授(二级教授) ⋅ 浙江大学
杨易,浙江大学求是讲席教授(二级教授)、国家特聘专家。目前担任浙江大学人工智能研究所所长、微软-教育部视觉感知重点实验室主任、人工智能省部共建协同创新中心副主任。中国图象图形学会数字娱乐与智能生成专委会主任。主要研究方向为人工智能及其应用。所发论文Google Scholar引用8万余次,H-index 135,近6年连续入选Clarivate Analytics全球高被引学者。获教育部全国优秀博士论文(2010)、澳大利亚基金委青年研究职业(2013)、澳大利亚计算机学会颠覆创新金奖(2016)、谷歌学者研究奖(2016)、澳大利亚科研终身成就奖(2019)、亚马逊机器学习科研奖(2020)、AAAI最具影响力论文(2021)、ACM MM唯一最佳论文奖(2023)等多项AI领域国际奖项,以及30余次国际科研竞赛世界冠军。
吴祖煊
副院长 ⋅ 复旦大学
吴祖煊,复旦大学智能机器人与先进制造创新学院副院长、副教授、博士生导师,上海创智学院全时导师,入选国家级青年人才计划。2020年在美国马里兰大学获得博士学位,曾任Facebook人工智能研究院科学家。长期从事计算机视觉与深度学习等人工智能领域前沿研究,近年来发表TPAMI、IJCV、CVPR、NeurIPS等中国计算机学会A类国际期刊、会议长文五十余篇,多个成果被包括图灵奖得主在内的知名学者正面评价,谷歌学术总被引万余次。获2023年度国家自然科学二等奖、2022年度教育部自然科学一等奖、2022年度AI 2000多媒体领域最具影响力学者奖、2022年度ACM SIGMM中国新星奖等奖项。现任上海市智能信息处理重点实验室副主任,CVPR、NeurIPS等多个国际会议的领域主席或高级程序委员会委员。
李文
教授 ⋅ 电子科技大学
李文,电子科技大学教授,博士生导师,国家海外高层次人才计划入选者。主要研究方向为计算机视觉与迁移学习,专注于开放场景下的视觉模型泛化性难题,提出多个有影响力的跨领域的目标检测、语义分割等计算机视觉算法模型,在T-PAMI、IJCV、CVPR、ICCV、ECCV等在内的领域重要国际期刊和国际会议论文100余篇,Google Scholar的总引用次数12000余次,多次担任领域内重要会议领域主席(包括 CVPR、ECCV、ACM MM 、AAAI、WACV)和ACM权威综述ACM Computing Surveys编委(Associate Editor)以及领域内重要学术期刊和国际会议审稿人或程序委员会委员。带领团队荣获国内外多项人工智能竞赛奖项,研究成果获四川省科技进步一等奖等。
袁粒
助理教授 ⋅ 北京大学
袁粒,北京大学深圳研究生院助理教授、博士生导师、国家高层次青年人才,入选2022年国家优秀留学生奖(归国类)、2023年福布斯亚洲30U30等,主持国家科技创新2030重大项目课题和国自然基金等。 研究方向为多模态深度学习,代表性学术工作包括VOLO,T2T-ViT等深度神经网络框架,以第一/通讯作者在国际期刊和顶会上发表论文50余篇,包括Nature Computational Science、IEEE TPAMI/CVPR等,代表性一作论文单篇被引两千余次,代表性应用工作包括ChatExcel、Open-Sora Plan视频生成开源计划。

分论坛报告

基于思维链的图像生成
李鸿升 . 副教授 . 香港中文大学
报告摘要:卷基于思维链推理的大语言模型近年来获得了极大关注。如何将思维链应用在基于扩散模型和自回归模型的图像生成仍然有着较大的探索空间。本报告主要汇报主讲人团队在近期的一系列探索,使用思维链增强图像生成质量和语言跟随精度,这些方法在不同的基线模型均展示出优异的性能。
讲者简介:李鸿升博士,现任香港中文大学多媒体实验室副教授,上海交通大学、中国科学技术大学兼职博士生导师,曾任西安电子科技大学“华山学者”讲座教授。他于2006年获华东理工大学自动化学士学位,2012年于美国理海大学获得计算机科学博士学位。他在人工智能、计算机视觉、医学图像处理有着深厚的研究经验,在相关顶级期刊和会议上(TPAMI、CVPR、ICCV、ECCV、NeurlPS、ICLR、MICCAI、IPMI等)发表论文220余篇,谷歌学术引用超5.8万次。获得了2020年IEEE电路与系统协会杰出青年作者奖、2021年香港中文大学青年学者杰出研究成就奖、2022年-2024年全球前2%顶尖科学家、2022年-2024年AI 2000人工智能最具影响力学者提名奖等奖项。2016年带领团队参加ImageNet 2016国际挑战赛,赢得了视频物体检测项目第一名。他担任国际顶级学术会议NeurIPS 2021-2023 2025、CVPR 2023、ICCV 2023 2025、ICML 2023-2025、ACM MM 2024-2025领域主席,AAAI 2022高级程序委员,国际期刊IEEE Transactions on Circuits and Systems for Video Technology、Transactions on Machine Learning Research、Neurocomputing等的副编辑。
基于生成式视觉先验的三维内容生成:从物体、运动到场景的生成路径
盛律 副教授 ⋅ 北京航空航天大学
报告摘要:构建高精度、物理合理且可编辑的三维视觉内容是多媒体数字资产构建的重要内容,也是在真实三维数据稀缺瓶颈下实现具身智能“虚实融合”训练的重要手段。本次汇报将分享利用扩散模型先验构建高精度、可编辑三维视觉内容的系列工作,从三维物体的高精度生成、三维运动的可泛化生成、到三维场景的组合式高效生成,仅用少量条件就能构建具有逼真外观、几何准确和物理合理的可编辑三维内容。基于这些工作,进一步介绍面向精准具身感知任务的学习框架,借助高精度的三维物体和可编辑三维场景构造海量数据,有效提升具身智能体对复杂动态具身感知任务的学习效率。
讲者简介:盛律,北京航空航天大学“卓越百人”副教授,入选国家级青年人才、小米青年学者和斯坦福2024年全球前2%顶尖科学家排行榜单。主要研究方向为三维视觉、多模态大模型和具身智能。在IEEE TPAMI/IJCV以及CVPR/ICCV/NeurIPS/ICLR/ECCV等重要国际期刊和会议发表论文超过60篇,Google Scholar显示被引用数超7000次。组织ICML 2024 Multimodal Foundation Models Meet Embodied AI和ICCV 2021 SenseHuman等多个国际会议研讨会。现任ACM Computing Surveys副编辑,CVPR、ECCV和ACM Multimedia领域主席,以及多个领域顶会顶刊审稿人和程序委员。任CCF和CSIG多个专委会执行委员,VALSE执行领域主席。主持或参与多项国家自然科学基金、科技部重点研发计划和省部级重点研发计划项目。
视频生成与编辑
吴祖煊 副院长 ⋅ 复旦大学
报告摘要:随着电子设备和互联网技术的不断普及和成熟,视频正逐渐成为用户更加偏好的内容传播方式。这一趋势催生了对自动化生成与编辑视频内容的巨大需求,也推动了智能内容创作技术的快速发展。本报告聚焦于高质量视频内容的生成与编辑,主要包括两个方面:(1)视频内容生成:围绕高压缩比的视觉分词器设计与高效视频生成模型的训练方法,探索在资源受限条件下如何实现长时间、高保真的视频生成;(2)视频内容编辑:聚焦于可控视频生成技术,支持对人物、动作等多维因素进行精准操控,提升内容生成的可定制性与交互性。
讲者简介:吴祖煊,复旦大学智能机器人与先进制造创新学院副院长、副教授、博士生导师,上海创智学院全时导师,入选国家级青年人才计划。2020年在美国马里兰大学获得博士学位,曾任Facebook人工智能研究院科学家。长期从事计算机视觉与深度学习等人工智能领域前沿研究,近年来发表TPAMI、IJCV、CVPR、NeurIPS等中国计算机学会A类国际期刊、会议长文五十余篇,多个成果被包括图灵奖得主在内的知名学者正面评价,谷歌学术总被引万余次。获2023年度国家自然科学二等奖、2022年度教育部自然科学一等奖、2022年度AI 2000多媒体领域最具影响力学者奖、2022年度ACM SIGMM中国新星奖等奖项。现任上海市智能信息处理重点实验室副主任,CVPR、NeurIPS等多个国际会议的领域主席或高级程序委员会委员。
面向高质量视频生成的数据和方法研究
邰颖 副教授 ⋅ 南京大学
报告摘要:大模型时代,数据极为关键。而开源、高质量、大规模的视频数据以及对应的视频描述是稀缺的。本次分享首先介绍一个面向高质量视频生成的数据集OpenVid-1M (ICLR 2025):1) 一个高质量的百万级文生视频数据集,最高支持1080p视频生成;2)提出了一种多模态视频DiT模型结构(MVDiT);3)在视频生成、视频复原、视频插帧、3D/4D生成等多个相关任务中被使用。其次介绍一个实例级精细视频描述的方法InstanceCap (CVPR 2025):1)首个用于文本到视频生成的实例感知结构化描述方法;2)将全局视频转化为实例,提升针对局部实例的准确描述;3)构建了一个包含2.2万个视频的InstanceVid数据集,提高描述与视频之间的保真度。最后介绍一个基于预训练文生视频模型先验的真实世界视频超分框架STAR (ICCV 2025),进一步提升视频分辨率和画质效果。
讲者简介:邰颖,南京大学智能科学与技术学院副教授,博导。入选姑苏创新创业领军人才计划项目(2024),南京大学紫金学者(2023)。主持国家自然科学青年基金、江苏省自然科学青年基金、南京大学-中国移动联合研究院生成方向项目(150万/年)、南京大学AI4S项目。课题组与字节、腾讯、阿里、中国移动、VIVO、Liblib AI等国内知名公司合作紧密。曾任腾讯优图实验室专家研究员(T12)及研究组长。主要研究方向为生成式计算机视觉技术,包括多模态图像/视频视觉生成、以人为中心的视觉感知和生成、以及高保真图像/视频修复等。目前在模式识别和计算机视觉国际权威会议、期刊(CCF-A类/JCR一区论文)已发表论文70余篇。谷歌学术被引用逾14,000次,两篇代表性一作论文分别被引用逾2,700次、2,000次;授权专利40余项。带领团队获得NTIRE 2020&2021三项超分赛道全球竞赛冠军。研究成果获得2021年江苏省科学技术一等奖(第四完成人),2018年度中国图象图形学会优秀博士论文提名奖。担任ECCV 2022,WACV 2023-2025,FG 2023会议的领域主席,Image and Vision Computing期刊副主编,入选斯坦福大学评选的全球Top 2%科学家(终身影响力榜单)。
多模态视觉生成技术的前沿进展
穆亚东 长聘副教授 ⋅ 北京大学
报告摘要:多模态大模型是人工智能领域近期的研究热点之一,通过融合视觉、语言、动作等模态数据,正在向具身智能和通用智能方向演进。本报告重点探讨了其架构设计、核心要素及前沿应用场景,特别是讲者所负责的实验室在多模态生成式大模型方面的近期研究进展,包括视觉语言大模型LaVIT系列、金字塔流匹配模型pyramid-flow、三维数据和场景生成模型DiffGS和InstructLayout、以及在多模态tokenization、生成内容可控性方面的一些研究进展等。
讲者简介:穆亚东,北京大学长聘副教授、博雅青年学者、北京智源学者,新闻出版智能媒体技术重点实验室副主任,先后在北京大学获得理学学士和理学博士学位。曾在新加坡国立大学、美国哥伦比亚大学、华为香港诺亚方舟实验室、美国电话电报公司研究院(AT&T Labs)担任研究职位,主要研究领域为计算机视觉和机器人学,入选国家级青年人才计划,在国际主流会议和期刊发表论文130余篇,其中在CVPR等中国计算机学会论文推荐列表A类会议和T-PAMI等ACM/IEEE汇刊发表论文超过90篇,申请PCT、美国或中国专利40余项。获得陕西省自然科学一等奖、国际会议SIGIR最佳论文提名奖、北京大学京东方奖教金、杨王院士奖教金等。担任多媒体领域旗舰期刊IEEE Transactions on Multimedia编委,10余次担任人工智能领域核心会议(如CVPR、ICCV、ECCV)的组委会成员或领域主席。
多模态图像生成与质量评价
刘笑宏 副教授 ⋅ 上海交通大学
报告摘要:随着生成式人工智能的迅猛发展,多模态图像生成技术正成为计算机视觉与人工智能领域的重要研究方向。该技术通过融合来自文本、语义标签等多种模态的信息,实现对视觉内容的可控生成,广泛应用于内容创作、辅助设计等领域。然而,如何生成符合用户需求的高质量图像,仍是该领域亟待解决的核心问题之一。对于生成图像的质量评价不仅是衡量生成效果的重要手段,也可反过来指导生成模型的优化方向。而由于自然图像的评价指标通常无法全面捕捉生成图像的视觉感知与文本一致性质量,近年来基于多模态大模型的生成图像质量评价方法得到了快速发展。本报告围绕多模态图像生成与质量评价方法的技术演进与典型架构展开,并系统探讨两者之间的耦合关系与协同发展趋势,为图像生成与质量评价的双轮驱动提供参考。
讲者简介:刘笑宏,上海交通大学副教授,博士生导师。研究方向为计算机视觉、多媒体信息处理,现已在顶级国际会议与期刊上发表学术论文80余篇,其中CCF-A类或中科院一区论文40余篇。入选2022年上海市领军人才(海外)、2022年上海市浦江人才、2024年微软亚洲研究院铸星计划。主持国自然青年科学基金项目、参与国自然重点项目2项,并承担国内外多家高科技公司的技术研发项目,荣获华为“火花奖”。担任多媒体领域知名期刊ACM TOMM副主编、上海市计算机学会计算机视觉专委会副秘书长、中国图象图形学学会青年工作委员会委员。