青年委员风采——武玉伟

发布时间:2025-07-16 16:45:20 人气: 作者:小编

青年委员风采——武玉伟(图1)

简介:武玉伟长聘副教授、特别研究员、博士生导师,中国图象图形学学会三维视觉专委会常务委员。2016年10月加入北京理工大学计算机学院。武玉伟主要从事计算机视觉和机器学习等领域的研究,在中国计算机学会(CCF)推荐A类期刊/会议或中科院JCR 1区期刊发表论文60余篇,出版教材2部;曾获中国人工智能学会优秀博士学位论文提名奖。作为负责人承担国家自然科学基金、企事业科研合作等项目10余项。培养或合作培养学生中有1位获得ACM 中国人工智能分会优秀博士学位论文奖,4位研究生获得北京理工大学校级优秀博士学位论文或优秀硕士学位论文。








委员亮点工作介绍

  • 黎曼几何自适应学习

黎曼流形中的学习算法可以建模数据的非欧结构,相比欧式神经网络具有更好的泛化能力。然而,真实数据的非欧结构多样且未知,如何确定适配的黎曼几何仍然是一个开放问题。近年来,团队进行了黎曼几何自适应学习的研究,如图1所示从优化、模型、数据三个角度,为黎曼流形学习方法构建适配的黎曼几何。(1)团队提出了利用隐式微分的黎曼元优化方法,设计黎曼循环神经网络来充当黎曼优化器,推导子空间自适应优化策略和黎曼隐式微分训练策略,以数据驱动的方式实现高效大尺度黎曼优化,探索与数据非欧结构相匹配的优化轨迹。(2)团队提出了几何感知的双曲距离度量以及双曲集合到集合距离度量方法,综合了双曲数据分布的全局结构和局部拓扑信息,能够动态适应不同的数据层次结构。(3)团队探索了曲率与双曲神经网络泛化性的关系,强调了曲率在双曲神经网络泛化能力中的作用,并提出了一种基于敏锐度感知的曲率学习方法,通过平滑损失提升泛化能力。(4)团队提出了一种面向开放环境的黎曼双特征增强方法,在双曲空间中同时为已知类别和未知类增强特征,利用神经常微分方程、元学习,特征增强损失上界等方式,提升增强数据的多样性和可靠性
青年委员风采——武玉伟(图2)
图1. 黎曼几何自适应学习示意图

  • 多模态智能体系统

多模态智能体系统作为人工智能领域的前沿技术,在自动化决策、人机交互以及复杂任务执行中发挥着越来越重要的作用。为提升多模态智能体的推理能力和训练效果,团队开展了基于视觉推理增强和高质量数据驱动的多模态智能体系统研究,主要思路是“推理机制优化+数据质量提升”,如图2所示。具体包括:(1)在推理层面,设计了智能体控制器(Controller)的视觉思维链(Visual Chain of Thought)机制,使智能体能够进行结构化的视觉推理;构建了反馈反思(Feedback-Reflection)机制,使智能体能够从执行结果中学习和自我改进;实现了高效的工具使用(Tool Usage)能力,扩展了智能体的操作边界。(2)在训练层面,构建了高质量的多模态智能体轨迹数据集和偏好数据集,为智能体提供了丰富的学习样本;对控制器进行了监督微调(Supervised Fine-Tuning)和直接偏好优化(Direct Preference Optimization)训练,显著提升了智能体在多模态任务中的表现,推动了多模态智能体系统的发展
青年委员风采——武玉伟(图3)
图2. 多模态智能体框架:推理与训练

  • 开放世界下知识引导的视觉语言理解

人工智能正从封闭世界迈向开放世界,在多任务学习、跨模态推理及真实环境适应等方面展现出广阔前景。为应对开放世界下的诸多挑战,团队围绕“知识引导”设计了多种算法框架。具体包括:(1)从基元的表示与组合两方面展开研究,实现对已知知识的重组利用,提高组合泛化能力。提出基元的语义等变性表示和替换一致性表示,以在样本层次标注下学习基元层次的表示,通过优化基元表示提高组合泛化能力;探索组合固有的多层次性和多源性,以在有限的训练数据下学习无限的组合形式,通过学习更多的组合形式提高组合泛化能力。在GQA、VQA-SPS v2、Charades-CG、ActivityNet-CG等多个任务的20个数据集上实现了领先性能。(2)研究自适应上下文知识嵌入的多模态大模型推理框架,以应对开放世界中存在的未知。该框架根据输入信息在互联网进行查询,并对查询结果进行筛选和过滤,在推理过程中将最新知识嵌入到上下文中,实现对未知概念的泛化,和GPT-4o、Gemini Pro等模型相比,实现了30%以上的性能超越;该框架基于精心设计的差异性覆盖匹配分数为输入信息构造示例样本,利用多模态大模型的“样例学习”能力,实现对未知场景的泛化,在GQA-ICCG、VQA v2等数据集上获得了领先性能。(3)聚焦真实世界数据不断涌现、组合近乎无穷的特性,构建了组合增量学习的新范式。该范式要求模型从一系列包含不同组合的任务中进行顺序学习,以持续渐进地提升组合泛化能力。为解决增量学习过程中的“组合知识遗忘”和“基元表示漂移”两大挑战,团队提出了一个伪重放框架,集成了视觉合成器与语言基元蒸馏两大核心模块。同时,团队还开发了一套标准化的基准构建流程,并推出了两个新评测基准,以定量评估。(4)提出了以记忆驱动的具身问答框架,主动探索未知环境并从中收集信息。该框架根据用户查询在记忆信息的驱动下进行探索规划,并实时更新记忆知识以理解开放世界中的信息,利用多模态大模型的长上下文能力将记忆现式注入推理过程,实现对开放世界的探索。该框架以最高的探索效率在复杂任务(涉及多区域中多个目标的任务)中获得了领先性能。
青年委员风采——武玉伟(图4)
图3. 视觉语言系统在开放世界中面临的挑战


委员专访

问:请问您的研究领域包括哪些?最近进展如何

武玉伟近年来,团队主要以非欧空间的表示学习为基础,重点关注语言驱动的视觉感知和复杂场景三维重建,并在具身智能平台(机器狗、人形机器人、无人机等)上应用验证。研究工作具体而言,可以分为四个方面:
(1)黎曼几何自适应学习的研究:通过机器学习技术实现黎曼流形的空间几何结构与数据几何结构自动适配,以应对真实环境中数据几何结构复杂多样的问题,实现了高效的黎曼流形学习。课题组从数据、模型、优化三个角度对黎曼几何自适应进行研究,数据层面,快速生成大量符合数据几何结构的训练数据;模型层面,获得与数据几何结构相匹配的骨干网络和分类器;在优化层面,基于数据几何结构挖掘优化轨迹,构建高效的黎曼优化器。
(2语言驱动的视觉感知:为应对开放世界下的诸多挑战,围绕“知识引导”设计了多种算法框架。从基元的表示与组合两方面实现对已知知识的重组利用,提高组合泛化能力;自适应上下文知识嵌入的多模态大模型推理框架,以应对开放世界中存在的未知;聚焦真实世界数据不断涌现、组合近乎无穷的特性,构建了组合增量学习的新范式。
(3多模态智能体反馈学习:从控制器、工具、记忆模型三个方面,赋予了智能体从与人和环境交互过程中,快速学习的能力。对于控制器,自动构建数据集,通过在数据集上微调,控制器具备了根据人类反馈,调整完善多模态输出的能力;对于工具,提出了智能体闭环学习框架,构建自动的推理、反思、学习过程,根据人类反馈,自动更新工具;构建了多模态记忆模块,可以在与人或环境交互过程中,更新、检索记忆,完成复杂长时任务。
(4)融合单目先验知识的双目深度估计:人类视觉系统依赖复杂的多线索融合机制,能够在不同情况下选择合适的深度线索,并综合分析融合多种单目深度线索与双目视差线索,从而实现稳定的深度感知能力。受人类视觉研究启发,融合单目先验知识的双目深度估计,探索合适的单目先验知识表示,并研究单目先验知识与外极几何约束的融合方式,从而提升模型在开放世界中的深度估计泛化能力。
问:对于希望进入图像图形领域的青年从业者,您希望他们加强哪些方面的技能培养?
武玉伟建议加强以下几方面技能培养:一是扎实的数学和编程基础,包括微积分、概率论、矩阵分析、最优化和主流编程语言如C++、Python的掌握;二是核心专业能力,涵盖计算机图形学、计算机视觉及AI相关知识;三是关注前沿技术动态,如AR/VR、交互式AI、智能体、世界模型等,不断学习新工具和方法;四是实际项目经验,通过参与开源项目,在PyTorch、Unity、OpenCV、Unreal等平台实战构建个人作品,并在GitHub展示成果,将理论应用于实践;五是培养持续学习和跨学科交流能力,关注领域顶级会议与最新研究动态,积极与同行交流分享。这样综合提升,能够为在图像图形领域的深入发展打下坚实基础。
问:您对您未来的工作有什么展望?
武玉伟:面向国家重大需求,保持高水平的科研产出,培养学生的道德品质和科研创新思维。我将从以下几方面开展研究。
(1)具身多模态感知:建立具身智能体多模态感知理论和方法,包括发现多模态机器感知数据空间分布规律,确立合适的多模态机器感知数据加工反馈机制,提高具身智能体感知的自适应、可解释、学习过程可控的能力,实现视觉、触觉、听觉等异构数据的几何结构对齐与信息融合。
(2)多模态智能体的理论与方法:搭建虚拟环境和真实环境中的多模态智能体,具备调用工具、记忆存储、解决开放环境中复杂任务的能力。具体地,从智能体基础理论、智能体架构、智能体学习范式、智能体知识迁移等方面开展研究。
(3)人面人形机器人自然交互:构建基于多模态情感识别和意图理解的人面人形机器人交互框架,建立情感特征表示学习、用户画像建模、上下文感知意图预测的联合优化模型,实现交互中的情境适应和实时互动;研究交互反馈闭环机制,赋予人面机器人在交互中情感表达的自主学习、持续提升和协同进化能力。
在您招收研究生时,一般会倾向于招收具备什么技能的学生?
武玉伟课题组的主要目标是在人工智能领域研究实际(最好)系统、完成实际(重要)任务、面对实际(艰难)挑战、解决实际(科学)问题。课题组期望同学们在研究生阶段做出高质量的科研成果。因此,我们选拔研究生的门槛值远高于学校的面试标准,课题组选拔研究生有三个环节,申请材料审查、面试、科研实践考察。有意加入课题组的同学必须具备扎实的数学基础、算法素养和过硬的编程能力、强烈的研究兴趣。具备独立思考问题和不怕困难的品质、明确的职业规划,知道自己想成为一个什么样的人。要有主动学习能力,能够主动沟通、快速回应、和导师共同进步、有效表达自己的想法,做到事事有回应、件件有落实。优秀的英语表达能力和ACM/ICPC竞赛获奖是加分项。具体可参考课题组主页中关于“详细招生信息”说明https://wu-yuwei-bit.github.io