CSIG中国图象图形学会-青年委员风采-朱磊
发布时间:2024-10-17 22:01:21 人气: 作者:小编

委员亮点工作介绍
基于深度学习的高分辨率图像生成
近年来,随着显示技术的飞速发展和专业领域对高质量视觉效果的需求,生成超高分辨率图像(如 4K 和 8K)成为文本生成图像(T2I)模型的核心研究方向之一。然而,现有的模型在处理高分辨率图像时,通常需要大量的计算资源,并面临着生成质量下降等问题。为应对这些挑战,本团队提出了一种基于低分辨率特征引导的高分辨率图像生成方法,其核心思想是通过小图特征来为大图生成提供结构和语义的引导,从而降低大图生成难度。具体而言,1)在低分辨率图像生成的过程中,提取最后一步的网络特征,将其作为高分辨率生成的语义引导。这种引导方式大大减少了生成大图的难度,使得网络能够更好地关注图像的细节生成,确保生成图像具有合理的语义结构和丰富的细节表现,同时显著降低了训练复杂度。2)为确保引导特征在不同分辨率下的稳定性,团队创新性地设计了尺度感知的归一化层,使网络能够自适应处理不同分辨率下的数值变化。这一设计使得模型能够灵活应对多种分辨率的图像生成需求,极大提高了模型的适应性和生成效率。所提超高清图像生成方法如图1所示,该方法不仅能够高效生成细节丰富的超高清图像,还在保持较高的计算效率对该领域的技术发展具有重要推动作用。
复原智能体:通过多模式大型语言模型实现的自主图像恢复
图像修复领域面临着处理多种复合退化的挑战。传统方法主要针对单一退化类型,而真实场景中的图像往往同时存在多种退化问题。为应对这一挑战,All-in-one模型试图用单一框架处理多种退化,但面临任务范围受限和性能compromised的问题。它们难以处理训练集外的退化类型,在特定退化级别上的表现可能不如专门模型。而针对每一种退化任务使用专门的任务模型虽然可以针对性处理不同退化,但面临任务执行顺序和模型选择的挑战。固定或随机的执行顺序可能导致次优结果,为每个任务选择最佳模型也是一个复杂问题。
针对这些挑战,研究者提出了RestoreAgent,一种全新的图像恢复范式,其基于多模态大语言模型的自主图像修复系统,旨在为处理复杂真实场景下的图像退化问题提供一个更加智能、灵活,自动化的解决方案。RestoreAgent能够 (1) 自动识别图像中的退化类型,(2)为每张图像动态确定最佳修复任务序列和(3) 挑选最擅长处理输入退化特征的恢复模型,(4)并自主执行整个修复流程。系统利用多模态大语言模型的强大推理和泛化能力,实现了对复杂退化场景的智能分析和决策。RestoreAgent可快速集成新任务和模型,提高了灵活性和可扩展性。实验结果表明,该系统的决策能力显著优于现有方法和人类专家,在恢复多退化图像方面取得了卓越性能。

基于Mamba的三维医学图像分割

委员专访
问:请问您的研究领域包括哪些?最近进展如何?
针对以上三个方面,最近大家关注(a)如何利用大模型技术来提升结果、(b)如何提升真实恶劣天气的图像和视频数据的增强效果、(c)如何处理超高分辨率的低质数据复原和增强问题、以及(d)如何利用多模态数据进一步提升低质数据复原和增强的效果等问题。
问:对于希望进入图像图形领域的青年从业者,您希望他们加强那些方面的技能培养?
我建议有志于进入本领域的青年从业者从以下方面提升自己的综合能力:(1)加强计算机视觉、模式识别、计算摄影、深度学习等基础理论的学习,掌握基础知识是提高技能的关键。(2) 熟练地掌握编程语言和深度学习相关的算法,例如卷积神经网络、扩散模型、大模型等,可以提高处理图形图像的效率和精度。(3)多看并且追最新的论文,并且学会从”technical contributions”角度思考问题,提升论文的创新性。(4)积极参加“卡脖子”问题项目,通过与不同交叉领域的学者交流沟通,寻找新颖的想法。
在招收博士研究生或者硕士研究生时,我会着重观察具备以下三个方面能力的学生:(1)主动学习能力。学习、读论文、做实验、总结等都需要主动,主动性学习是做学术研究的一个非常重要的素养。(2)独立思考能力。能够独立思考、提出问题并寻找解决方案,并且善于总结和归纳论文的”technical contributions”。(3)学习能力和适应能力:研究生阶段需要不断学习和适应新的知识和环境,具备较强的学习和适应能力可以更好地应对挑战。(4) 除了学生的教育背景和成绩以外,我也希望学生熟悉深度学习理论和具有一定代码能力。