青年委员风采——高广谓
发布时间:2025-04-06 11:35:24 人气: 作者:小编

委员亮点工作介绍
高效轻量的单图超分辨率方法
单图像超分辨率(SISR)旨在从低分辨率(LR)图像中重建高分辨率(HR)图像,是计算机视觉中的基础任务。当前基于Transformer的SISR方法虽具备全局建模能力,但忽略了结合上下文信息动态调整特征提取的重要性。团队提出了一种轻量级的跨感受野聚焦推理网络(CFIN),通过混合CNN与Transformer架构,设计了CT Block模块,结合跨尺度信息聚合模块(CIAM)和跨感受野引导Transformer(CFGT),实现了高效的特征融合与上下文推理。具体创新包括:1)冗余信息过滤单元(RIFU)通过Gumbel-Softmax机制动态过滤冗余特征,保留对纹理恢复至关重要的信息;CIAM通过多尺度特征融合(包括原始空间与反卷积后的扩展空间),结合残差学习机制,增强局部特征表达能力,提升后续Transformer阶段的效率。2)上下文引导注意力(CGA)引入上下文引导最大卷积(CGM),通过动态调整卷积核权重,自适应选择关键上下文信息;CFGT整合不同感受野的CGA模块,通过跨尺度自注意力交互,实现长距离依赖建模与多尺度特征融合,增强全局重建能力。模型采用级联的CT Block结构,结合循环机制减少参数量,在卷积阶段与Transformer阶段之间平衡计算开销,实现模型轻量化(参数仅675K,计算量116.9G Multi-adds)。所提深度神经网络的架构图如图 1所示,在Set5、Set14、Urban100等基准数据集上优于主流轻量级模型(如IMDN、RFDN)及部分Transformer方法(如SwinIR、ESRT),PSNR/SSIM指标显著提升。此外,模型在真实场景数据集(RealSRv3、DRealSR)中展现了优异的纹理恢复能力,验证了其实际应用潜力。

高效轻量的图像语义分割方法
语义分割作为计算机视觉的核心任务,在自动驾驶、医疗影像等领域应用广泛。现有方法主要依赖深度卷积神经网络(CNN)和Transformer,但面临计算资源消耗大、推理速度慢等问题,尤其在轻量级场景下难以平衡精度与效率。传统CNN缺乏全局感知能力,而Transformer的高复杂度限制了实时性。团队提出层次感知特征融合模型(HAFormer),通过层次化局部特征提取、高效全局建模及智能特征融合,实现了轻量级语义分割任务中精度与速度的平衡(所提深度神经网络的架构图如图 2所示,)。具体创新包括:1)提出层次感知像素激励模块(HAPE),利用多尺度并行卷积结构,结合3×3、5×5、7×7等不同核尺寸与空洞卷积,自适应捕获多尺度局部特征;引入像素激励模块(PEM),通过内容感知的空间注意力机制增强关键区域特征,提升小目标识别能力,减少冗余计算。2)设计高效Transformer模块(ET),通过空间降维线性投影与特征分块策略,将传统Transformer的二次计算复杂度降低至线性,解决高分辨率输入的计算瓶颈;采用深度可分离卷积优化MLP层,去除固定位置编码,增强模型对多分辨率输入的适应性。在Cityscapes和CamVid测试集上分别达到74.2%和71.1% mIoU,单卡2080Ti GPU推理速度分别为105 FPS和118 FPS,显著优于ERFNet、SegFormer等对比模型。

委员专访
问:请问您的研究领域包括哪些?最近进展如何?
(1)针对视觉噪声对表征学习的干扰和影响,建立了刻画特征间关联特性的表示模型,研究了如何进行多层深度学习框架中每一层级中的鲁棒特征表示,同时设计了合理有效的特征组合方式,充分利用模型学习到的各层特征提高深度学习特征的鲁棒表示能力和鉴别能力。
(2)针对不同图像质量空间引起的语义鸿沟,提出了基于局部和全局表征的轻量化特征学习模型,建立了基于Transformer和注意力聚合单元的图像超分辨率重建模型,保持了不同图像空间之间的拓扑结构一致性,逐渐学习得到不同图像层级之间的关联特性,提供了具有足够分辨率和判别细节特性的有用信息。
(3)针对图像底层特征表示和高层语义标签之间的不一致性,建立了基于知识蒸馏和余弦距离度量的跨模态特征学习模型,尝试了联合高低质量图像进行深度低维判别特征学习,充分利用了多量测的差异性和一致性,探讨了图像底层特征表示和高层语义标签之间的一致保持理论。
问:对于希望进入图像图形领域的青年从业者,您希望他们加强那些方面的技能培养?
例如想在模式识别领域做出有影响力的工作,需以“问题驱动”为核心,将经典理论与前沿技术深度融合:首先夯实贝叶斯决策、特征空间拓扑分析等数学根基,同时掌握自监督学习、小样本泛化等新范式;聚焦开放环境下的真实挑战(如数据分布偏移、对抗样本鲁棒性),从医疗影像的病灶误诊、工业质检的缺陷漏检等痛点中提炼科学问题;通过“算法-硬件-场景”协同创新(如设计轻量化特征蒸馏架构适配边缘设备),构建可解释、可扩展的解决方案;更重要的是,建立“模式进化”思维——从识别静态模式转向动态模式生成(如结合因果推理预判系统退化趋势),让算法不仅理解“是什么”,更能预见“为什么”。持续用工业界的复杂性倒逼理论突破,用学术界的洞察力重塑行业标准,推动模式识别从“感知工具”向“认知引擎”跃迁。
惭愧,和很多优秀的老师相比,我的论文不是那么“高产”。但我始终坚信在读博期间我的导师杨健教授教导我们的话:“在做任何工作前,一定要多问自己几个问题:为什么要这么做、有没有理论依据?这么做的优势、逆势是什么?”在论文产出的全周期中,需构建“问题定位-认知突破-价值传递”的闭环:前期用逆向工程解构顶会顶刊论文的贡献基因,在传统方法的失效边界(如跨域数据偏差、计算复杂度瓶颈)中锚定高价值问题;中期以“外科手术式写作”构建认知势能差——通过可视化对比图形成降维打击,用数学建模揭示方法普适性,并预设审稿质疑设计自验证实验;后期实施精准投稿博弈,针对期刊会议的特性定制“理论深挖”或“场景突破”叙事线,同步构建开源代码生态提升学术能见度。更重要的是建立“失败驱动”机制,将每次拒稿转化为方法论校准的契机,让论文不仅是成果载体,更成为领域认知进化的推手。
在招收研究生时,更看重具备独立科研素养的候选人:拥有敏锐的学术嗅觉,能通过批判性阅读发现文献中的隐藏假设,从实验失败中提炼科学问题,建立跨领域关联;结构化思维能力,能将复杂问题拆解为可验证的子任务,用数学工具或物理建模重构理论框架;系统性解决问题的韧性,能在资源限制下创新实验设计,通过代码快速验证假设,精准溯源故障并迭代方案。同时需具备学术表达的手术刀——能用可视化与理论推演清晰阐明创新价值,将技术突破转化为领域认知的跃迁。这些能力共同构成研究者突破范式边界的核心动能。