青年委员风采——李镇
发布时间:2025-04-16 11:56:00 人气: 作者:小编

委员亮点工作介绍
灵活泛化且公平的联邦学习框架FlexFair
李镇团队提出了创新的联邦学习框架FlexFair,以应对人工智能(AI)在医学影像领域中因公平性与隐私问题带来的挑战。随着AI技术的广泛应用,不同人口群体间的医疗健康不平等成为焦点。FlexFair通过引入灵活的正则化项,结合人口平等、机会平等及准确性平等等多种公平性标准,力求在保护个体隐私的同时实现公平性。该框架在息肉分割、眼底血管分割、宫颈癌分割和皮肤疾病诊断四大应用中得到验证。其中,研究团队针对宫颈癌分割构建了一个包含四家医院678名患者的多中心数据集,大幅提升了模型在不同人群中的适用性。FlexFair为AI在医学影像领域的应用提供了一种兼顾公平和隐私保护的途径,推动了AI医疗技术向更加公正和个性化的方向迈进。文章发表于Nature Communications,并于2025年4月8日上线。
基于3D高斯表征的纯视觉自驾场景的自监督预训练范式
自动驾驶感知网络预训练旨在通过利用大量无标注的数据提升主干网络以及特征编码网络等的泛化能力,从而提升其在下游不同任务重的性能。为解决当前视觉为中心的自动驾驶算法在预训练阶段效率较低以及对深度监督依赖较强的问题。李镇团队提出了一种名为VisionPAD的全新自监督预训练范式,通过引入高效的3D高斯投影(3D Gaussian Splatting)技术,仅利用图像作为监督信息,实现了多视角重建,从而避免了依赖显式深度监督的不足。在方法上,VisionPAD设计了一种自监督的体素速度估计方法,通过将体素变换到相邻帧并监督渲染输出,模型能够有效地学习序列数据中的运动线索。此外,李镇团队还采用了一种多帧光度一致性策略,通过基于渲染深度和相对位姿将相邻帧投影到当前帧,利用纯图像监督增强了模型的几何感知能力。所提深度神经网络的架构图如下图所示,实验结果表明,VisionPAD在多个自动驾驶数据集上的3D目标检测、占用预测和地图分割任务中均取得了显著的性能提升,相较于现有最先进的预训练方法,展现出明显的优势。该工作的主要贡献包括:首次提出基于3D-GS解码器的视觉预训练范式,提升视觉算法性能;设计了自监督体素速度估计方法和光度一致性损失,融入运动信息并通过跨帧相对位姿学习3D几何;在多个下游任务上显著超越现有最优方法,验证了方法的有效性和通用性。该文章被CVPR2025接收,并在实际应用场景中被相关企业采用,验证了方案的可行性和鲁棒性。
增强大语言模型的三维感知在具身场景的应用
大型语言模型在二维图像领域取得了巨大成功,其在三维场景理解中的应用也成为一种新趋势,尤其在具身智能应用场景。三维和二维解析的一个关键区别是,三维场景中以自我为中心的观察者或本体的情况可能会发生变化,从而产生针对第一视角不同的描述(例如,“左”或“右”)。然而,目前基于LLMs的方法忽略了以自我为中心的视角,只是从全局视角使用数据集。为了解决这个问题,李镇团队提出了一种新方法,通过利用数据收集过程中的扫描轨迹并结合视觉语言模型生成高质量的文本描述和问答对来自动生成情境感知数据集。此外,李镇团队引入了一个情境基础模块来明确预测观察者视点的位置和方向,从而使LLMs能够在三维场景中为情境描述奠定基础。在几个公认基准上,我们的方法有效地增强了LLMs的3D态势感知,同时显著扩展了现有数据集并减少了人工工作量。该工作被CVPR2025接收。
委员专访
问:请问您的研究领域包括哪些?最近进展如何?
(1)多模态融合及知识蒸馏增强的三维视觉感知:针对于单一模态表现欠优的问题,如RGB图像在光线较低时纹理不清晰,激光雷达稀疏等问题,我们设计了简单且高效的基于多模态数据融合及知识蒸馏的一系列三维视觉感知增强算法,并在众多室外自驾场景(如大场景语义分割,语义占据)及室内具身场景(物体检测及定位)上验证了模型的有效性。
(2)显式推理及多模态大模型联合优化的增强三维视觉推理:针对现有三维视觉推理缺乏可解释性及可控性的问题,提出了拟人显式思维链及多模态大模型驱动的可视化编程联合优化策略,从而实现增强的三维视觉推理,保证了推理过程的可控性和可解释性,也规避了大模型数据幻觉和偏见带来的不公平性。
(3)多模态大模型驱动的开放场景下泛化鲁棒三维视觉感知及推理:针对于开放场景下三维视觉感知及推理缺乏泛化性及鲁棒性,提出了基于多模态大模型的增强的泛化感知,并利用多模态大模型强大的生成能力进行域外数据的高效可控生成,从而确保了开放场景下三维视觉感知及推理的鲁棒性和泛化性。
问:请向我们科普一下您研究领域相关的一项技术在应用中的具体体现。
我建议有志进入本领域的青年从业者从以下方面提升自己的综合能力。首先,夯实基础,如编程能力、数学能力和逻辑推理能力等,这为快速阅读文章及复现提供了基础。其次,提升软硬兼修的能力素养。现在我们优化图形图像处理算法时,尤其是进行具身智能相关研究时,不仅仅需要软件编程,也需要对于硬件平台(如服务器、显卡、带宽、嵌入式系统等)有基本概念,如DeepSeek的成功经验也激励我们需要具备软硬联合优化的能力,甚至具备底层硬件代码编写能力。再者,“纸上得来终觉浅,绝知此事要躬行”,要尽早加入到具体的科研项目中,亲自动手才能发现现有工作的问题并做出针对性的改进和设计。最后,选准方向,不宜好高骛远,也不宜随波逐流。建议可以关注具有重大科学和实际意义但尚未被很好解决的问题,如三维视觉驱动的蛋白设计、微纳具身机器人在药物投递领域的应用等,与不同交叉领域的专家学者交流,这样可以树立自己的独特的科研标签并真正解决实际问题。
从自身角度,我将进一步提升教师的职业道德修养,从教学和科研方面不断突破自己,紧跟科研趋势,并积极参加国内外学术活动,为相关领域学术组织贡献自己的力量。从人才培养方面,我将继续将基础科研与实际应用相结合,着重培养学生在三维视觉感知、自驾及医学大数据解析相关的国内外新理论、新技术、新范式,进一步为国内高校(如培养博士生魏军入职深圳大学担任助理教授)以及工业界(如华为,腾讯等头部企业)培养更多的优秀人才。同时,本人计划依托深圳市未来智联网络研究院平台进一步进行产学研孵化与探索,学以致用,用以引学,形成前沿探索与实际应用的闭环迭代。从科研方面,我将具体从以下两方面开展研究。
(1)世界模型驱动的开放场景泛化鲁棒三维感知推理:世界模型作为最新的研究热点,可以融合过往的世界知识以及环境的重建与理解,实现开放场景下泛化鲁棒公平的感知与推理,在自驾场景及具身智能场景具有广泛的应用场景。
(2)三维视觉驱动的医学大数据分析:李镇团队将进一步利用上述增强的三维感知与推理算法,结合交叉学科背景,进行公平泛化的医学大数据分析。例如,医学影像分析,大分子与小分子复合物三维结构解析及设计。
在招收研究生时,我会着重观察具备以下三个方面能力的学生:1. 兴趣。读研或者读博是一个艰辛的过程,因为我们面临的都是目前尚未有明确解决方案的难题,兴趣会让我们在找到问题的解决方案时倍感兴奋,甚至很有成就感,这也是我们克服枯燥科研过程的原始动力。2. 信息检索与归纳能力。所谓的科研,research,也就是re-search,我们需要反复调研前人和当下的研究成果,进行总结归纳并发现其中的不足,并进行针对性的探索和改进。3.有毅力且能坐得住的学生。科研之路,路漫漫其修远兮,需要我们有锲而不舍的精神,更需要我们花费大量的时间进行试错与探索,因此有毅力且能静心,坐的住是成功的必要条件。