CSIG中国图象图形学会-青年委员风采-胡瑞珍
发布时间:2024-06-18 17:13:07 人气: 作者:小编
【青年委员风采】- 胡瑞珍
简介:胡瑞珍,深圳大学计算机与软件学院特聘教授,博士生导师,国家优秀青年科学基金、广东省杰出青年项目获得者。研究方向为计算机图形学,长期从事三维环境建模与交互方面的研究,发表ACM SIGGRAPH/TOG 论文二十余篇;入选中科协青年人才托举工程;荣获亚洲图形学协会青年学者奖、全国几何设计与计算青年学者奖;担任期刊IEEE TVCG、IEEE CG&A和Computers & Graphics等国际期刊编委;担任国际会议SGP 2024、CVM 2023和SMI 2020程序委员会主席,连续多年担任SIGGRAPH等大会程序委员会委员;担任中国计算机学会计算机辅助设计与图形学专委会常委、计算机图形学与混合现实在线平台(GAMES)线上活动运营负责人。
委员亮点工作介绍
计算机图形学对现实世界的数字化建模为提升机器感知和认知世界的能力起到了至关重要的作用。由于现实环境采样成本高、执行安全性低等限制,无人车、机器人等无人系统往往需要在虚拟数字环境中进行交互学习,实现智能演化,才能更好地服务于实际应用需求。因此,当前亟需构建一个高拟真的三维数字环境以支持智能体在环境中的自主交互学习,以加快提升机器的智能化水平。
胡瑞珍团队长期致力三维环境建模与交互方面的研究,提出了“基于关系表征的三维环境建模与交互”理论方法,探究空间关系表征学习机理,通过深入结合几何计算和人工智能技术,一方面,以物-物空间关系表征结合条件生成方法来引导环境建模,显著提升了建模效率,丰富了环境属性,得到的高拟真环境建模为交互提供完善学习环境;另一方面,以人-物空间关系表征结合强化学习方法来引导环境交互,提高了交互精度,提升了泛化能力,得到的细粒度环境交互又进一步增强了机器对三维环境的理解;二者有机结合、互相促进,共同推进了面向三维复杂环境的建模与交互技术发展。
智能三维环境建模
三维建模一直以来是计算机图形学研究的热点问题,然而,抽象复杂的用户需求与形式多样的数字内容之间的匹配鸿沟为三维环境建模过程带来了极大的困难和挑战。传统的纯手动建模可精确控制内容生成质量,但是步骤繁琐效率低下,而全自动生成式建模方法则往往产生一些不合理或不满足用户设计需求的几何内容。因此,如何建立起用户给定空间关系约束到三维环境模型的有效映射是需要解决的一个关键科学问题。胡瑞珍团队提出了一系列基于关系表征的三维环境建模方法,以“多层级+关系表征+条件生成”为核心思想,对用户在多层级(户型到场景再到物体)建模过程中的高层次需求与约束进行数学化、结构化描述,赋予用户意图以几何可解释性,建立起用户设计意图到几何信息间的有效映射,以物-物空间关系表征作为条件引导各层级环境对象生成,极大简化了用户建模过程,丰富了模型的几何、材质等多方面属性,增强了模型的结构完整性和多样性,提升了建模效率和精度。
智能三维环境交互
人类的日常活动是通过与周围环境中的三维物体进行交互实现的,因此,交互是三维数字世界构建进程中一个必不可缺的元素。在前期高拟真三维数字环境构建的基础上,胡瑞珍团队进一步对智能体与三维环境的交互进行深入探究,旨在仿真环境中进行交互学习,从而引导智能体对真实世界进行更好地探索。然而,交互对象繁杂和交互方式多样给交互分析与优化带了极大的困难,传统基于二维视觉的交互分析方法没有有效利用三维空间的几何信息,对交互的指导性弱、泛化性差。因此,如何对交互中涉及到的空间关系进行可泛化表征学习是需要解决的一个关键科学问题。胡瑞珍团队提出了一系列基于关系表征的三维环境交互解析与规划方法,以“多层级+关系表征+强化学习”为核心思想,准确提取了智能体与三维环境的空间关系表征,结合强化学习进行交互决策优化,建立了几何形态到交互行为的映射,刻画了同一物体的不同交互方式,优化了物体操控序列,实现了对多层级交互主体(从全身到手臂再到手抓)、多层级交互任务(从重建到操控到抓取)、多层级交互对象(从场景到物体再到部件)的全方位交互解析与规划,提高了交互效率,提升了交互精度,增强了泛化能力。
委员专访
问:请问您的研究领域包括哪些?最近进展如何?
胡瑞珍:我的研究领域主要集中在计算机图形学,特别是几何建模与优化。我的核心研究目标是构建逼真的数字环境,供智能体进行仿真训练。近年来,我的研究逐步扩展到具身智能领域,专注于生成和优化智能体与三维环境的交互行为。基于我的图形学背景,我研究的智能体即包含了虚拟角色也包含了实体机器人,相应地,成果涵盖了虚拟角色的全身或手部细节交互动画生成,以及机器人的全身导航、手臂和夹爪的精细操控规划。上面已经大概介绍了一些机器人操控方面的工作,这边再简单介绍下这两年在文本引导的虚拟角色动画生成方面的工作,例如,在去年一篇SIGGRAPH Asia论文中,我们提出了一种结合预训练语言模型的文本先验与三维场景动态感知的方法,生成具有高合理性和高可执行性的人体与环境交互行为序列,而在今年一篇SIGGRAPH论文中,我们又通过引入Local-to-Global的思想,通过将文本进行分解并对应到不同的身体部位,建立起局部语义与局部运动的匹配,实现对运动更精细的控制生成。
问:您对您未来的工作有什么展望?
胡瑞珍:展望未来,我打算进一步深化我目前的研究工作。在计算机图形学这一领域,我将继续深耕,特别是几何建模与处理——我的专业领域。过去,我在建模时主要关注几何形状和外观,但未来我计划将重点扩展到物理因素上,以实现更全面的仿真效果。同时,我也将继续探索具身智能领域更多有趣的研究点,包括对交互行为的通用化表征学习、整合结构化信息和物理约束的世界模型等,并期待这些研究能够为工业生产、国防安全等关键领域带来创新的应用。
问:在您这么多年的科研工作中,最令您难忘的事情有哪些?您能谈谈遇到过的困难以及是如何克服的吗?
胡瑞珍:我认为最具挑战性的部分在于探索新的研究领域。起初,我专注于三维形状分析,尤其是更高层次的语义分析,这涉及到分析和生成物体支持的交互方式。自然而然,这引导我将这些知识应用于指导机器人执行相应的交互任务。然而,机器人领域对我来说是一个全新的领域,我没有任何先前的经验,因此我投入了大量时间去探索和确定具体的研究方向。我带领一名本科生一起深入阅读相关文献,全面理解该领域的研究问题,以确定适合我们的研究方向。经过较为全面的调研,我们最终选择了物体重排任务,并将其具体化为货物装箱问题。在装箱过程中,我们追求的是尽可能紧凑的装载,这不仅需要优化装箱顺序,还要优化装箱位置。这本质上是一个关于物体空间关系的动态序列优化问题,恰好可以利用我在空间关系表征和优化求解方面的专长作为切入点,逐步攻克这一难题。通过这一过程,我的体会是,全面理解问题,发挥个人优势,找到合适的研究切入点,并持之以恒,是克服研究中困难的关键所在。
问:在您招收研究生时,一般会倾向于招收具备什么技能的学生?
胡瑞珍:我首先关注的是学生的内在驱动力和兴趣点,期望他们对所研究的领域有初步的了解,并展现出强烈的学习热情和不断探索自己认知边界的意愿。其次,我认为具备清晰的逻辑思维能力至关重要,在科研过程中,新知识的不断涌现要求我们能够迅速吸收并整合信息,拥有一个清晰的逻辑框架,能够帮助我们快速识别关键点,理解并串联不同研究工作之间的逻辑联系,从而更有效地发现问题并制定解决方案。此外,拥有开朗的性格和出色的沟通技巧同样重要,能积极主动地提问,学会从他人身上汲取知识,这些都是科研人员不可或缺的素质。