学术新星论坛

会程安排

9 月 19 日 下午

分论坛主席

胡鹏
四川大学
胡鹏,四川大学计算机学院教授,博士生导师,国家级青年人才。主要研究方向为多模态学习与多媒体分析。已在Nature子刊、TPAMI、IJCV、TIP、CVPR、ICCV、NeurIPS、ICML、ICLR等国际期刊/会议上发表学术论文80余篇,包括多篇ESI高被引/热点论文。研究成果获得中国图象图形学学会(CSIG)自然科学一等奖、四川省自然科学二等奖、中国人工智能学会教学成果激励计划一类成果等。主持国家自然科学基金(面上、青年)项目、国家重点研发计划课题、四川省重点研发基金项目等。担任CSIG青工委副秘书长、VALSE执委会副主席等;担任NeurIPS、ICML、CVPR、ECCV、ACM MM等多个重要国际学术会议的领域主席;担任Pattern Recognition等期刊编委;担任TPAMI、IJCV、TIP、TKDE等多个国际重要SCI期刊审稿人。
阚美娜
中国科学院
阚美娜,中国科学院计算技术研究所,研究员。研究领域为计算机视觉与具身智能。相关成果在TPAMI、IJCV、CVPR、ICCV等相关领域主流国际期刊与会议上面发表论文60余篇,获得FG PaSC视频人脸识别竞赛冠军、ACM MM亲属关系识别竞赛冠军、CVPR面部关键点定位竞赛亚军、FCS杰出论文奖。此外,获中国计算机学会优秀博士学位论文奖、中国图象图形学学会石青云女科学家奖青年奖、北京市科技新星计划等。

分论坛报告

面向自动驾驶仿真的动态街景重建技术
彭思达 浙江大学
报告摘要:动态街景的高精度建模与重渲染可以为自动驾驶系统提供仿真环境,降低训练与测试的成本和时间。本人过去一年围绕该问题展开研究,针对现有方法动态表征难、重建质量差、渲染视角小、雷达仿真慢四个局限,提出了动态三维街景表征构建与先验学习系列工作,包括FreeTimeGS(CVPR 2025)、PromptDA(CVPR 2025)、StreetCrafter(CVPR 2025)、LiDAR-RT(CVPR 2025),大幅度提升了动态街景重建的效果。
讲者简介:彭思达,浙江大学软件学院“百人计划”研究员,博士生导师,研究方向为三维计算机视觉和计算机图形学。至今在TPAMI、CVPR、ICCV等期刊或会议发表六十余篇论文,谷歌学术引用5700余次,其中一篇一作论文获得CVPR最佳论文提名,成果获得GitHub数万次stars和2024年中国CCF图形开源软件奖;入选China3DV 2025年度杰出青年学者、斯坦福2024全球Top 2%科学家榜单、2024年中国计算机学会优博(国内计算机领域评选十人);被苹果公司评为2022 Apple Scholar(亚太地区唯一),被华为公司评为2024启真优秀青年学者。
面向知识图片的视觉生成模型
元玉慧 Canva中国研究院
报告摘要:在以生成技术为核心的信息时代,知识图片生成——即以知识信息为基石,实现商业与科学视觉内容的精确传达和高效创作——正成为沟通、说服及知识分析的核心驱动力。尽管现有图像生成模型在视觉真实感方面取得了显著进步,但在准确映射知识、精准传达语义信息,以及提供高度可控、可编辑的交互式创作体验等核心需求上,仍面临巨大挑战,未能完全满足“面向知识”的生成需求。 本报告聚焦于下一代图像生成模型的研究进展,特别是我们在面向知识的视觉内容创作方面取得的研究成果。我们重点介绍两个核心项目: GlyphByT5系列: 专注于解决精准视觉文本生成这一关键问题。该系列模型致力于将用户文本描述中的精确信息(包括数字、符号、特定术语等)高效、准确地转化为视觉文本元素,确保信息在转换过程中不失真。这对于科学图表、数据可视化和包含复杂文本标注的商业图像至关重要。 ART系列: 代表了我们最新的多图层图像生成研究。该项目旨在实现对生成图像的深度控制,允许用户以文本指令精确地控制图像的结构层级、元素布局和风格属性,从而生成高质量、多层次且高度可编辑的视觉内容。这种“像编辑文本一样编辑图像”的交互范式,将从根本上提升内容创作的灵活性和效率。 我们认为,精准的知识到视觉的映射与多图层可控生成是未来图像生成模型发展的关键方向。本报告将详细阐述GlyphByT5及ART项目的核心算法设计、数据集构建方法及实验验证策略,并探讨它们如何“理解”和“应用”商业与科学知识来生成既美观又信息丰富的视觉内容。我们相信,随着这些关键技术的不断发展和普及,面向知识图像生成将在未来一年迎来重要的范式转变,为科学传播、商业沟通和创意设计等领域带来革命性的影响。
讲者简介:元玉慧博士现任Canva中国研究院负责人,之前就职于微软亚洲研究院视觉计算组并担任高级研究员。他分别于2022年、2017年和2014年,在中国科学院计算技术研究所、北京大学和南京大学获得了博士、硕士和学士学位。目前,他主要负责组建研究团队开发商业图像、科学图像生成系统,以生成高质量商业内容(例如海报、宣传单、信息图、图表和幻灯片)。他近期的代表性工作包括:用于推理分割的LISA(CVPR 2024)、用于精准视觉文本呈现的Glyph-ByT5(ECCV 2024)、用于多层且可编辑图像生成的ART(CVPR 2025)以及用于扩散模型的人类偏好学习的SPO(CVPR 2025)。他在分割和目标检测方面的代表性工作还包括OCRNet(ECCV 2020)、OCNet(IJCV 2021)和H-DETR(CVPR 2023)。此外,他还担任多个顶级计算机视觉学术会议和期刊的审稿人,并曾担任多个领域的主席职务,例如ICCV 2025和MM2024/2025的领域主席等。
具体智能下的多模态人类行为建模与理解
侯瑞兵 中国科学院
报告摘要:随着人工智能不断迈向通用智能与具身智能,人类行为的理解与生成正成为多模态学习中的核心挑战之一。近年来,受益于大规模语言模型和多模态建模能力的飞跃发展,研究者开始探索如何统一处理人体姿态、动作、语言、图像乃至三维场景等异构模态,以实现更加自然和通用的人类行为建模。本报告将围绕“多模态语义对齐、动作建模与场景理解”等关键议题,系统梳理近年来在人类行为理解与生成领域的研究趋势与技术进展。重点将聚焦多模态表示学习、统一任务范式与跨模态生成机制等核心技术,并展望其在虚拟人、具身智能体、人机交互等应用场景中的前景与挑战。
讲者简介:侯瑞兵,中国科学院计算技术研究所副研究员,硕士生导师。研究领域为计算机视觉与机器学习,已在TPAMI、ICML、NeurIPS、CVPR等国际期刊/会议上发表CCF-A类论文10余篇,谷歌学术引用2000余次。作为项目负责人,承担了国家自然科学青年基金、博士后创新人才计划、中国科学院特别资助项目。先后获得:中国图形图像学优秀博士学位论文提名、中科院院长特别奖,中科院计算技术研究所所长特别奖(夏培肃奖)等奖励,北京市优秀毕业生等。
深度学习模型的严谨解释、缺陷表征定位与定向修复
裴红斌 西安交通大学
报告摘要:近年来,可解释人工智能已成为全球科技竞争的战略制高点,其重要性日益凸显。本项目聚焦于神经网络可解释性研究中的两大核心挑战——“解释方法缺乏严谨性保证”和“解释结果与性能优化脱节”,围绕神经网络的严谨解释、缺陷根因分析、性能优化等关键问题,开展以下三方面研究:(1)神经网络决策逻辑在特征交互层面的精准解构;(2)交互解释忠实性和全面性的证明;(3)交互解释指导下的神经网络缺陷溯源与性能优化。本项目创新性体现在:构建了基于交互概念的内部精准解构理论框架,突破传统解释方法依赖外部拟合或粗略分析的局限性,从数学层面保证了解释的严谨性;同时建立了交互概念能力分布与网络性能的量化关联理论,解决了传统方法中解释性指标与网络性能关联不明确、不可验证、难以定量的关键问题,实现了神经网络缺陷的精准定位与性能的定向优化。本项目将为构建可解释、可信赖的神经网络提供理论基础和实践指导,具有重要的科学意义和应用价值。
讲者简介:裴红斌,西安交通大学网络空间安全学院助理教授、陕西省高校优秀青年人才。研究方向为复杂网络人工智能安全,在IEEE TPAMI、ICML、ICLR等人工智能领域顶级刊物上发表论文30余篇,其中ICLR’20论文提出的几何图卷积网络Geom-GCN被誉为“异质图学习的奠基性工作”,单篇引用超过1500次。主持国自然青年基金、国家“博新计划”、腾讯AI Lab犀牛鸟基金等项目。研究成果应用于北京市副中心建设规划、中缅边境疟疾防控等实际场景。获得吉林省自然科学一等奖、吴文俊人工智能优秀博士论文提名奖等荣誉。
演化智能新范式:知识学习驱动的自进化昂贵优化方法
黎建宇 南开大学
报告摘要:在“人工智能+”时代,最优化与智能化已成为推动人类社会进步、发展新质生产力的关键力量,更是人工智能迈向更高层次的必然趋势。随着物联网、云计算、大模型、5G和区块链等前沿技术的蓬勃发展,众多优化问题愈发复杂,呈现出大规模、高动态、多峰值、强约束、多目标以及计算成本高昂等多重挑战,这对传统优化算法提出了前所未有的难题。进化计算与群体智能作为模拟自然界生物进化和群体动物智能行为的先进人工智能算法,凭借其行为的可观察、可感知、可认识、可解释和可调控等独特优势,近年来在知识发现、搜索优化和问题求解等领域得到了广泛应用。然而,面对候选方案评估成本高昂的复杂优化问题,传统进化计算方法在计算效率上仍显不足。本报告聚焦于新型的演化智能方法,深入探讨如何通过知识学习驱动进化计算的自进化,从而高效求解昂贵优化问题。报告将介绍近年来研究团队在小样本学习、多代理集成、元知识迁移等方向上取得的创新成果,这些方法为应对现代超复杂优化问题提供了全新的思路和高效途径,为人工智能领域迈向新的发展阶段起到了推动作用。
讲者简介:黎建宇,博士,南开大学引进教师,入选人工智能领域全球前2%顶尖科学家,CAAI优秀博士论文激励计划提名,南开大学人工智能学科振兴计划;主持国自然青年、天津市青年项目B类等项目多项;主要研究方向是人工智能、进化计算、群体智能和大模型,目前已发表学术论文50余篇,包括IEEE Transactions系列的国际高水平学术期刊论文19篇,ESI高被引论文3篇,《计算机学报》等中文核心期刊论文3篇;谷歌学术引用1800余次,H-index为19;获机器智能期刊最高被引论文奖,CAAI会刊《智能系统学报》优秀论文奖;授权国际发明专利1项。研究成果得到了国际同行的正面评价和应用推广。被包括美国科学促进会会士、欧洲科学院院士、加拿大皇家科学院院士等多国/地区院士、多位IEEE Transactions系列期刊的创始主编及现任主编、IEEE Fellow等著名学者评价为“首创(for the first time)”、“优秀的成果(excellent results)”、“更高效(more efficiently)”和“新兴的课题(emerging topic)”等;被YouTube(AI Trends)、Twitter(MIR_Journal)、腾讯新闻(智能科学汇)等媒体平台作为头条进行宣传和报道;被国内外学者广泛应用于芯片设计、生物医学和物流运输等众多领域的优化问题中,推动相关领域的发展。
面向三维点云处理的旋转等变四元数神经网络
沈雯 同济大学
报告摘要:大量研究表明,目前经典的面向三维点云分类的神经网络普遍存在旋转鲁棒性差的问题。解决这个问题的核心是,如何为三维点云构建一个可靠的、可解释的特征表达。因此,我们提出让神经网络在端对端的学习中自动地解构出对输入点云的旋转变换鲁棒的形状特征。经过严谨的推导发现,使用四元复数表示神经网络的中层特征,在特定的条件下,可以使得神经网络天然地支持对形状特征的解构。所提出的方法将经典的面向三维点云分类的神经网络的旋转鲁棒性最高提升了约230%。
讲者简介:沈雯,同济大学计算机科学与技术学院助理教授。她的研究主要集中于深度神经网络的可解释性,已发表20多篇高质量学术论文,涵盖了IEEE TPAMI、NeurIPS、ICML、CVPR、AAAI和IJCAI等CCF-A类期刊与会议。此外,沈雯主持了多个国家级科研项目,获得包括同济大学优秀博士学位论文奖和上海市计算机学会优秀博士学位论文提名奖等荣誉。
结构化三维理解与生成
顾家远 上海科技大学
报告摘要:近年来,单个物体的三维理解与生成技术取得了显著进展。然而,面向结构化三维内容的理解与生成依然面临诸多挑战。在场景层面,其难点在于理解物体间复杂的文化、功能与物理层面的关系;在部件层面,则受限于高质量数据的匮乏。本报告将聚焦场景级与部件级的三维理解与生成,重点分享我们近期的相关研究进展,包括场景重建CAST等工作。
讲者简介:顾家远,上海科技大学信息科学与技术学院助理教授、研究员、博士生导师。顾家远博士毕业于美国加州大学圣迭戈分校,师从苏昊教授。2018年本科毕业于北京大学信息科学技术学院智能科学系。他的研究方向为具身智能,聚焦于可泛化的机器人决策模型和面向具身智能的三维视觉,在计算机视觉、机器学习、机器人等国际顶会(如CVPR、NeurIPS、ICLR、CoRL)上均有发表。他参与的项目Open X-Embodiment获得了ICRA 2024的最佳论文奖,指导的项目CAST获得了SIGGRAPH 2025的最佳论文奖。他还曾在Facebook AI、Google DeepMind等科研机构实习。同时,他也担任相关领域会议的审稿人,并在RSS,ECCV,CVPR等学术会议上组织过相关的研讨会和教程。