青年委员风采——马月昕

发布时间:2025-06-24 16:12:48 人气: 作者:小编

青年委员风采——马月昕(图1)

简介:马月昕,上海科技大学研究员、助理教授、博导,博士毕业于香港大学。主要研究方向为三维视觉、具身智能、自动驾驶。共发表相关领域顶会或顶刊论文80余篇,其中一作与通讯论文40余篇,包括Science Robotics、TPAMI、CVPR、ICCV、ECCV、SIGGRAPH等,谷歌学术引用5000余次。参与指导的论文获MICCAI 2024唯一最佳论文奖,ACM MM 2024最佳论文候选。曾获上海市海外高层次人才、上海市优秀教学成果(高等教育类)一等奖;曾获SemanticKITTI、NuScenes、Argoverse等多个国际自动驾驶挑战赛冠军和亚军;曾获China3DV 2025年度优秀青年学者


委员亮点工作介绍

青年委员风采——马月昕(图2)


  • 多模态三维场景感知基础模型


随着大语言模型与多模态大模型的蓬勃发展,人工智能在语言、图像、视频等领域已展现出强大的通识能力。然而,在三维感知领域,真实世界三维数据的采集与标注成本极高,难以在短期内积累与文本数据量级相当的训练数据,这严重制约了三维感知大模型的发展。此外,三维感知直接服务于自动驾驶、机器人等关键应用场景,对模型的精准度、高效性、泛化性及安全性提出了更高要求。为应对数据、模型与算力等方面的多重挑战,课题组深入开展三维感知通用模型研究。受视觉基础模型“分割一切模型(SAM)”在图像分割领域卓越泛化能力的启发,我们创新性地利用SAM嵌入的通用特征空间,对齐文本、图像与三维点云的特征表示,提出一种针对激光雷达的三维感知无监督域适应方法。基于该方法,我们进一步实现数据空间、特征空间与标注空间的全面对齐,成功将大语言模型的通识能力迁移至三维场景。最终,凭借单一模型与参数设置,在12个三维场景感知数据集上达到了当前最优性能(SOTA)。相关研究成果已发表于AAAI、CVPR、ECCV、NeurIPS等人工智能领域顶级学术会议,为多模态三维场景感知技术发展提供了重要理论支撑与实践经验。


  • 以人为中心的实时感知、重建、预测系统


精准高效的以人为中心的3D感知与重建技术,是推动具身智能、自动驾驶、社交机器人、辅助机器人及人机交互等领域发展的核心驱动力。尽管该领域已取得阶段性成果,但人体姿态的动态变化与多样性、大场景中行人尺寸小、多人密集遮挡,以及对高性能传感技术的依赖等问题,仍制约着技术的进一步突破。针对上述挑战,我们聚焦以人为中心的三维场景,开展系统性研究并取得多项创新性成果:提出首个面向以人为中心任务的通用人体表(CVPR),首个以人为中心的三维场景感知预训练模型(CVPR),首个基于激光雷达点云的大场景人体步态识别算法(MM 2024 best paper candidate),首个基于激光雷达的大场景多人动作捕捉实时算法(CVPR Highlight,ECCV Oral),以及首个三维场景下基于原始传感器信号的人体动作预测算法(MM Oral)。这些成果实现了对任意场景中人类行为的实时、鲁棒、精准表达与分析,并完成完整系统开发,已成功部署于多个实际应用场景。该研究极大提升了以人为中心的3D感知与动作捕捉技术的可扩展性和适用性,为机器人技术、自主系统及沉浸式娱乐等领域提供了关键技术支撑。


  • 类人具身智能应用


类人具身智能是人工智能领域的一个重要研究方向,旨在使智能体具备类似人类的身体感知、行动能力和认知方式,从而更好地与现实世界进行交互和适应。基于前期通用三维感知与重建的研究基础,课题组致力于利用多模态大模型的常识推理和人类行为的知识迁移,实现端到端类人具身智能的算法及应用。以五指灵巧手为例,对于通用具身智能机器人的发展而言,能够抓取任何物体的灵巧手至关重要。然而,由于灵巧手的自由度高,且物体种类繁多,以稳健的方式生成高质量、可用的抓取姿态是一项重大挑战。针对这一困境,课题组提出DexGrasp Anything方法,创新性地将物理约束融入基于扩散的生成模型训练与采样流程,在多项公开数据集上刷新性能纪录,达到行业领先水平。同时,团队构建全新灵巧抓取数据集,涵盖1.5万余种物体、超340万种抓取姿态,为通用灵巧抓取技术发展提供重要数据支撑。相关研究成果以IJCAI口头报告、CVPR亮点论文等形式发表,有潜力推动类人具身智能在实际应用场景中的技术突破。




委员专访


问:请向我们科普一下您研究领域相关的一项技术在应用中的具体体现。


课题组自主研发的基于激光雷达的三维感知与动捕系统成功,由于其具有高效、精准、鲁棒、范围大、具有隐私保护性等优良特性,适用于多种应用场景。目前已开发出完整的智慧体育系统,可以对运动员日常训练进行实时监测、分析、数字化记录,目前服务于上海体育大学国家队运动员日常训练。后续基于此,进一步进行AI Coach的应用开发,让大家在日常运动中都可以被智能化的教练进行专业指导,提升运动水平。
青年委员风采——马月昕(图3)
问:您对于图像图形领域的青年从业者有什么想说的吗?
在与学生、同行的交流中,“太卷了”成为高频热词。当下,新技术迭代呈爆发式增长,学术界与工业界均置身于这场激烈的知识竞速。从前沿理论的突破到应用技术的革新,每个个体、每个行业都需秉持“活到老、学到老”的理念,马不停蹄地更新知识体系、提升专业能力。而图像图形领域,作为人工智能深度渗透的前沿阵地,汇聚了海量人才与资源,竞争之激烈、创新迭代之快远超想象。但是,人不能只看一时,而要把眼光放长远、把生命拉长,瞬时烟花的激情怎比得过细水长流的浪漫。只要保持对工作认真负责的态度,摒弃无效忙碌的消耗,保持“有效工作时间”,学会思考,劳逸结合,就一定能在工作上收获成就感和幸福感。
问:在您招收研究生时,一般会倾向于招收具备什么技能的学生?
待人真诚、有自驱力、和对幸福感有追求的学生。欢迎大家加入ShanghaiTech 4DV Lab。
青年委员风采——马月昕(图4)