CSIG中国图象图形学会-青年学者风采-潘金山
发布时间:2024-06-03 16:18:15 人气: 作者:小编
【青年学者风采】- 潘金山
1 学者基本情况:
工作单位 | 南京理工大学 |
职务 | 教授 |
研究方向 | 计算机视觉 |
2 学者简介
潘金山,南京理工大学计算机科学与工程学院教授、博士生导师。主要从事图像视频复原与增强等相关计算机视觉问题的研究。目前在国际权威期刊和会议上发表论文100余篇,其中IEEE TPAMI/IJCV 17篇。所发表论文在Google Scholar中被引用14000余次,H-因子49;研究成果受到新华社、南京日报、北青网等媒体报道;获国际权威学术竞赛冠军5次、中国人工智能学会优秀博士学位论文奖以及辽宁省优秀博士学位论文奖;入选2022、2023年度爱思唯尔中国高被引学者、全球前2%科学家、全球AI华人青年学者等;受邀担任IEEE TPAMI、CVIU等期刊的编委以及多次担任CVPR、ECCV、ICML、ICLR、NeurIPS等人工智能领域国际权威会议的领域主席;主持国家自然科学基金优秀青年科学基金项目、国家自然科学基金联合基金重点项目等。
3 学者亮点工作
图像视频复原与增强在于如何从退化图像视频中估计出高质量的清晰图像视频,这是一个经典的逆问题,有无数组满足退化模型的解,因而需要设计相应的刻画清晰图像特征的约束条件来解决这一问题。现有的基于手工设计的约束条件往往基于有限的观察或者特定的假设,不能很好地适用于不同场景类型的图像视频复原与增强。如何有效地建立清晰图像特征与退化图像特征的关联性,构建刻画不同场景类型的清晰图像视频特征表示方法是解决图像视频复原与增强问题的核心关键。为此,研究团队展开了以下研究工作:
(1)稀疏性结构特征建模方法
现有的刻画清晰图像视频特征的图像先验方法往往依赖于特定场景类型,不能有效地处理各种场景类型退化的图像视频复原与增强。针对这一问题,项目团队分析了退化图像与清晰图像的亮度和梯度的统计分布特征,发现了退化图像中零像素值和零梯度值的数量明显降低。进而揭示了运动模糊对图像亮度和梯度稀疏性的作用机理,在理论上证明了运动模糊导致图像中像素值为零的像素个数减少,提出了稀疏性亮度约束的度量准则为区分清晰图像与退化图像提供了理论依据。基于上述理论的图像视频复原方法在国际公开数据集上取得了当时最好的结果。根据Anat Levin等人提出的权威数据集上的评测结果,项目团队所提出的稀疏暗通道先验的方法在误差比率小于2 的情况下,成功率达到了100%。
(2)局部细节特征与非局部结构特征协同建模方法
清晰图像视频中含有丰富的细节与结构特征。结构往往对应着非局部特征,而细节对应局部特征。因此,如何有效地实现局部细节特征和非局部结构特征的协同建模是解决图像视频复原与增强问题的关键。为此,研究团队分析了卷积运算与Transformer 中自注意力机制在局部特征与非局部特征建模中的作用,阐明了自注意力机制与低通滤波器的等价性,提出了可学习的残差低通滤波网络实现非局部结构特征和局部细节特征的联合建模。进一步,研究团队分析了自注意力机制不能刻画高频信息的原理,发现了自注意力计算过程中并非所有的Token 都对特征聚合有用,提出了基于稀疏自注意力机制的图像去雨以及超分辨率方法,有效地解决了基于传统自注意力机制方法导致的细节丢失的问题,在图像视频复原与增强上取得了显著的结果(见图1)。
图1. 稀疏自注意力机制在图像超分辨率以及去雨问题上的应用。
(3)清晰特征空间与退化特征空间协同建模方法
图2. 非均匀多项式表示模型。其中增强图像由退化图像B为基底的多项式表达,多项式系数为可学习变量。
学者专访
1. 请问您的研究领域包括哪些?最近进展如何?
我目前主要从事图像视频复原与增强问题的研究,从底层退化原理、清晰图像特征表示以及模型求解三个层面展开了相关研究,具体体现在:(1)在退化因素特征建模与学习方面,揭示了噪声、离群点等退化因素在图像视频降质过程中的作用机制,提出了稳健的噪声建模与判别式学习方法,建立了先验知识与深度学习在退化因素建模中的协同关系,提出了先验知识与深度学习联合驱动的退化因素特征学习方法,突破了复杂场景下退化因素未知、退化因素耦合对复原图像视频质量的制约。(2)在清晰图像视频特征建模与学习方面,证明了退化因素(如运动模糊)会降低图像亮度和梯度的稀疏性,提出了稀疏性结构特征建模方法,突破了现有清晰图像特征建模方法依赖于特定场景类型的局限性,为区分清晰图像特征和退化图像特征提供了理论依据;分析了图像局部细节特征和图像非局部结构特征在清晰图像重构中的作用机理,提出了局部细节特征与非局部结构特征协同建模方法,解决了局部细节特征与非局部结构特征耦合导致的重要细节和结构难修复的挑战。(3)在高效轻量的图像视频复原与增强方面,分析了多变量耦合与非线性性质导致模型求解效率低的原因,提出了面向多变量、非凸非线性模型的高效半二次分裂优化方法,建立了半二次分裂优化方法和深度学习模型之间的关联性,提出了优化方法启发的轻量化深度学习图像视频复原模型,将模型推理速度提升了3 倍以上;构建了卷积运算、自注意力机制等常用算子在频域中的等价关系,提出了基于频域等价算子的高效复原方法,将Transformer 的空间和时间复杂度降从原有的O(N2)降为O(N)和O(NlogN)。
2. 请向我们科普一下您研究领域相关的一项技术在应用中的具体体现。
我们团队的研究成果获得图像视频复原与增强领域权威国际学术竞赛冠军5次,部分成果被应用于经典影像的修复,修复后的影像在相关单位进行了内部放映,取得了一致好评,受到新华社、北青网、南京日报等多家媒体的相关报道。我们也受到央视总台的邀请,介绍经典影像修复的技术方案。目前,研究团队正在与央视总台开展四大名著等经典影视的修复。
3. 请问如何在所在的研究领域里做出有影响力的工作,应该如何自我提升。
目前以深度学习为代表的人工智能技术对各个研究领域起到了巨大的推动作用,新技术的迭代速度非常快,论文数量呈现指数级的增长。这些新技术为我们的相关研究提供了有效的解决方法,同时也给这给我们的研究带来了挑战。在这样快速发展的时代,我们应该避免盲目的“跟随”以及频繁更换研究问题,要静下心来理解清楚我们要解决问题的本质以及核心挑战在哪,善于总结,从总结中探寻研究的规律,寻找解决问题的突破点。
4. 在您招收研究生时,一般会倾向于招收具备什么技能的学生?
研究生阶段的学习不同于本科生,我希望学生在读研究生之前认真思考下为什么要读研究生,对自己未来有什么样的大致规划。其次,研究生的学习阶段主要以科研为主,希望学生能够在科研上能够做到认真严谨、勤于总结、善于思考,主动解决各种问题。最后,学术研究过程大部分情况是枯燥无味的,会不时地碰到各种各样的挑战,希望学生能够有“科研虐我千百遍,我待科研如初恋”的情怀。