CSIG中国图象图形学会-青年委员风采-朱磊

发布时间：2024-10-17 22:01:21 人气：作者：小编

简介：朱磊，香港科技大学广州机器人与自主系统学域的助理教授，以及香港科技大学电子与计算机工程学系的联署助理教授。剑桥大学博士后，2017年从香港中文大学计算机科学与工程系获得博士学位。主要的研究方向是计算机视觉、图像视频处理、医学图像、深度学习等。在人工智能领域的顶级会议和期刊IEEE TPAMI/ IJCV/ CVPR/ ICCV/ NeurIPS/ IEEE TMI等发表了100余篇左右的论文，其中CCF-A类会议和IEEE Transactions期刊80篇左右, 包括36篇IEEE TPAMI/ IJCV/ CVPR/ ICCV/ ECCV/ NeurIPS, Google Scholar引用数6300+。CVPR、ACM MM、IROS和MICCAI的口头或者热点会议论文和IEEE TPAMI/IEEE TMI等期刊高被引论文10余篇。主持和参与国家自然科学基金、广东省教育厅重点领域项目、南沙区重点领域科技计划项目、广州市科技项目、广州市青年拔尖人才项目、企业委托横向项目、香港UGC的教员发展计划 (FDS)项目等课题十余项。担任CVPR 2025、ICLR 2025、ECCV 2024、MICCAI 2024、MICCAI 2023、ACM MM 2022, 以及ACM MM 2021的Area Chair、The Visual Computer期刊的Associate Editor、 CGI 2023的Organization Chair、ACM SIGGRAPH VRCAI 2022 & 2024的Program Chair、中国图学学会可视化与认知计算专委会副秘书长、CSIG青工委委员、CCF VALSE EAC、MICS、CCF CAD/CG专委会委员等。

委员亮点工作介绍

基于深度学习的高分辨率图像生成

近年来，随着显示技术的飞速发展和专业领域对高质量视觉效果的需求，生成超高分辨率图像（如 4K 和 8K）成为文本生成图像（T2I）模型的核心研究方向之一。然而，现有的模型在处理高分辨率图像时，通常需要大量的计算资源，并面临着生成质量下降等问题。为应对这些挑战，本团队提出了一种基于低分辨率特征引导的高分辨率图像生成方法，其核心思想是通过小图特征来为大图生成提供结构和语义的引导，从而降低大图生成难度。具体而言，1）在低分辨率图像生成的过程中，提取最后一步的网络特征，将其作为高分辨率生成的语义引导。这种引导方式大大减少了生成大图的难度，使得网络能够更好地关注图像的细节生成，确保生成图像具有合理的语义结构和丰富的细节表现，同时显著降低了训练复杂度。2）为确保引导特征在不同分辨率下的稳定性，团队创新性地设计了尺度感知的归一化层，使网络能够自适应处理不同分辨率下的数值变化。这一设计使得模型能够灵活应对多种分辨率的图像生成需求，极大提高了模型的适应性和生成效率。所提超高清图像生成方法如图1所示，该方法不仅能够高效生成细节丰富的超高清图像，还在保持较高的计算效率对该领域的技术发展具有重要推动作用。

CSIG中国图象图形学会-青年委员风采-朱磊(图2)

图1. 基于低分辨率特征引导的超高清图像生成方法（发表于NeurIPS 2024）

复原智能体：通过多模式大型语言模型实现的自主图像恢复

图像修复领域面临着处理多种复合退化的挑战。传统方法主要针对单一退化类型，而真实场景中的图像往往同时存在多种退化问题。为应对这一挑战，All-in-one模型试图用单一框架处理多种退化，但面临任务范围受限和性能compromised的问题。它们难以处理训练集外的退化类型，在特定退化级别上的表现可能不如专门模型。而针对每一种退化任务使用专门的任务模型虽然可以针对性处理不同退化，但面临任务执行顺序和模型选择的挑战。固定或随机的执行顺序可能导致次优结果，为每个任务选择最佳模型也是一个复杂问题。

针对这些挑战，研究者提出了RestoreAgent，一种全新的图像恢复范式，其基于多模态大语言模型的自主图像修复系统，旨在为处理复杂真实场景下的图像退化问题提供一个更加智能、灵活，自动化的解决方案。RestoreAgent能够 (1) 自动识别图像中的退化类型，(2)为每张图像动态确定最佳修复任务序列和(3) 挑选最擅长处理输入退化特征的恢复模型，(4)并自主执行整个修复流程。系统利用多模态大语言模型的强大推理和泛化能力，实现了对复杂退化场景的智能分析和决策。RestoreAgent可快速集成新任务和模型，提高了灵活性和可扩展性。实验结果表明，该系统的决策能力显著优于现有方法和人类专家，在恢复多退化图像方面取得了卓越性能。

图2. 通过多模式大型语言模型实现的自主图像恢复智能体流程图（发表于NeurIPS 2024）

基于Mamba的三维医学图像分割

图3. 基于Mamba的医学图像分割网络流程图（发表于MICCAI 2024）

3D医学图像分割是医学图像分析中的一项关键任务，其目的是逐像素地识别高维医学图像数据集中的病变。更准确的3D分割结果可以为医生提供有价值的信息，从而帮助他们诊断疾病。传统的基于CNN的3D医学分割方法由于其固有的局部性，无法有效地建模高维3D医学图像中的全局依赖关系。而基于Transformer 的方法虽然能够很好的建模全局特征，提高了分割性能，但由于高维3D 医学图像中自注意力机制的二次复杂度，它们引入了显著的计算成本。为了克服长序列建模的挑战，我们团队首次利用Mamba，一种源自状态空间模型（SSM）的结构，旨在对3D医学图像分割中的多尺度长距离特征进行建模，其设计了一种全新的3D医学图像分割通用架构，并通过大量实验验证了所提出的网络的有效性。

委员专访

问：请问您的研究领域包括哪些？最近进展如何？

朱磊教授在香港科技大学（广州）建立了围绕感知理论和算法开发以及在医疗领域应用的研究团队。该团队的研究领域主要包括图像和视频等视觉内容的感知及其在医疗影像等领域的应用。目前聚焦视觉数据生成、低质量视觉内容增强、视觉内容的交互展开研究：

（1）数据生成：利用扩散模型的超高分辨率图像生成、医学图像数据的跨模态生成、医学诊断报告生成等。

（2）低质图像视觉内容的分析：通过不断提出新的方法提升低质图像和视频数据的复原、阴影和高光等复杂光照相关的分割和消除问题、以及基于深度学习的医学图像分割、检测、分类、以及临床的筛查、诊断以及预后分析等问题。

（3）图像和视频数据的交互：图像提示分割、交互式手语识别等问题。

针对以上三个方面，最近大家关注(a)如何利用大模型技术来提升结果、(b)如何提升真实恶劣天气的图像和视频数据的增强效果、(c)如何处理超高分辨率的低质数据复原和增强问题、以及(d)如何利用多模态数据进一步提升低质数据复原和增强的效果等问题。

问：对于希望进入图像图形领域的青年从业者，您希望他们加强那些方面的技能培养？

我建议有志于进入本领域的青年从业者从以下方面提升自己的综合能力：(1)加强计算机视觉、模式识别、计算摄影、深度学习等基础理论的学习，掌握基础知识是提高技能的关键。(2) 熟练地掌握编程语言和深度学习相关的算法，例如卷积神经网络、扩散模型、大模型等，可以提高处理图形图像的效率和精度。（3）多看并且追最新的论文，并且学会从”technical contributions”角度思考问题，提升论文的创新性。（4）积极参加“卡脖子”问题项目，通过与不同交叉领域的学者交流沟通，寻找新颖的想法。

问：在您招收研究生时，一般会倾向于招收具备什么技能的学生？

在招收博士研究生或者硕士研究生时，我会着重观察具备以下三个方面能力的学生：(1)主动学习能力。学习、读论文、做实验、总结等都需要主动，主动性学习是做学术研究的一个非常重要的素养。(2)独立思考能力。能够独立思考、提出问题并寻找解决方案，并且善于总结和归纳论文的”technical contributions”。（3）学习能力和适应能力：研究生阶段需要不断学习和适应新的知识和环境，具备较强的学习和适应能力可以更好地应对挑战。(4) 除了学生的教育背景和成绩以外，我也希望学生熟悉深度学习理论和具有一定代码能力。