报告摘要:随着三维视觉与大语言模型的融合发展,如何在三维空间中实现基于自然语言的场景理解与交互,正成为智能场景感知与生成的重要方向。相比传统固定词汇集合的定位与识别任务,开放词汇面临语义表达多样、空间定位精度要求高等挑战;而现有方法大多依赖资源密集型模型,难以兼顾表达能力与运行效率。本报告将介绍课题组围绕语言驱动的三维场景理解与编辑所进行的一系列探索,包括构建高效可渲染的语言嵌入三维表示,以及面向动态场景的语义引导式三维编辑框架,涵盖从静态到动态、从感知到生成的关键问题与解决思路。
讲者简介:汪淼,北京航空航天大学教授,博士生导师。主要从事可视媒体智能生成、混合现实沉浸交互方面的教学和科研工作。主持国家自然科学基金面上、青年等项目。发表学术论文50余篇,获IEEE VR 2025最佳论文奖、CAD/Graphics 2023最佳论文奖、CVMJ年度最佳论文提名等。曾获国家科技进步二等奖(排名9)、中国图象图形学学会高等教育教学成果激励计划特等类(排名2)。入选教育部青年长江学者、中国科协青托工程、小米青年学者。担任Fundamental Research、CAVW、图学学报等期刊编委/青年编委,以及IEEE VR、ISMAR、PG、CVM等国际会议程序委员。兼任中国计算机学会虚拟现实与可视化技术专委秘书长、秀湖会议学术秘书、中国仿真学会虚拟技术及应用专委副主任、中国图学学会国际联络工委秘书长等。