青年委员风采——蒋铼

发布时间:2025-06-28 16:15:29 人气: 作者:小编

青年委员风采——蒋铼(图1)

简介:蒋铼,北京航空航天大学副教授, 中组部海外高层次人才,中国图象图形学学会青工委副秘书长、多媒体专委会成员。学士、博士毕业于北京航空航天大学,博士后期间工作于加拿大英属哥伦比亚大学。主要研究方向为视觉感知模型、多媒体计算、医学图像处理等。主持国家自然科学基金、启元国家实验室、国家互联网应急中心、华为、阿里等科研项目。在国际权威期刊和会议上发表论文40余篇,其中第一或通讯作者论文30余篇,包括TPAMI、IJCV、TIP、TMI等。谷歌学术引用2100余次,单篇最高引用300余次。入选中国科协青年人才托举工程、中组部海外博后引才专项、华为卓越青年学者等,获北京市/CSIG优秀博士学位论文、CVPR质量增强/ECCV立体匹配大赛冠军等多个荣誉。

委员亮点工作介绍


  • 基于超图神经网络的显著物体排序


显著物体排序旨在检测显著物体的基础上,预测每个物体的相对显著程度,从而实现物体显著程度的排序。为提升显著物体排序的精度和鲁棒性,蒋铼团队开展了基于超图神经网络的图像显著物体排序方法研究,主要思想是通过场景感知引导对显著物体的精准排序。具体创新包括以下方面。1)构建了大规模的显著物体排序数据库,并标注了物体分割掩膜、物体显著值和场景图;在此基础上,充分分析了数据库,并获得多个场景上下文与物体显著程度关联规律的发现点。2)提出基于场景感知的显著物体排序方法, 利用场景图生成过程中学习的上下文信息引导显著物体排序。具体地,设计初始图网络检测、分类和分割物体,进而构建融合了物体语义与几何特征的初始图表征;设计场景感知图模型高效学习物体间的语义关联并生成场景图;基于初始图表征和超图神经网络传递场景上下文信息,准确预测物体的显著程度。充分的实验表明:所提的基于超图神经网络的显著物体排序方法在三个显著物体排序数据库上均超过了十一种领先的对比方法,展示出较高的精度和泛化能力,推动了显著物体排序领域的发展。
青年委员风采——蒋铼(图2)
图1. 基于超图神经网络的显著物体排序方法


  • 基于可逆神经网络的压缩图像超分辨率重建


针对互联网图像因压缩存储导致的复杂退化问题,本研究提出了一种创新的压缩图像超分辨率方法。该方法的核心思想是通过可逆神经网络实现“降质-重建”的一体化建模,其关键技术突破包括:1)可逆降质建模与隐空间重建:该方法构建了一个双向可逆学习框架,通过数学可逆性将图像降质过程与超分辨率重建有机结合。正向过程将高频图像信息映射至隐空间,形成紧凑的潜在表示;逆向过程则从隐空间采样,结合学习到的降质先验进行高质量重建。这种隐空间建模方式确保了降质信息的完整保留,为重建过程提供了可靠的指导。2)编解码模拟模块:通过压缩条件提取器预测块分区模式,并利用位置编码生成像素级编解码条件。这些条件信息被嵌入到条件可逆神经网络的耦合层中,使模型能够精确模拟JPEG/HEVC等编解码器的压缩失真。该方法首次将可逆神经网络架构完整引入压缩图像超分辨率领域,通过严格的数学可逆性确保降解信息的完整保留,为图像恢复提供了可靠的先验知识。该方法不仅性能优越,而且具有明确的可解释性,为相关领域的研究提供了重要参考。
青年委员风采——蒋铼(图3)
图2. 基于可逆神经网络的“降质-重建”一体化模型


  • 多模态医学图像迁移学习诊断网络


在临床医学中,现有的肾病诊断方法主要依赖于传统的肾活检和临床指标,虽然免疫荧光图像因其易获取且成本低等特性在肾病诊断中得到了广泛应用,如何有效利用不完整模态信息进行准确诊断仍是一个难题。为此,蒋铼团队提出了一种定制化的多教师知识蒸馏框架,旨在通过从单模态教师网络中迁移知识,提升多模态学生网络的诊断性能。具体研究内容包括:1)设计了基于注意力机制的扩散网络,以注意力机制为基础,将条件扩散网络作为肾病诊断的主体结构。该网络通过学习全局、局部和模态注意力先验,提升了输入图像的特征提取能力。2)提出了自适应多模态融合模块,该模块结合医学先验、多模态特征和单模态特征,生成教师网络的重要性权重,确保学生网络能够从最相关的教师网络中迁移知识;通过结合医学提示、多模态提示和单模态提示,动态调整教师网络的权重,提升了知识蒸馏和诊断的效率。3)以基于注意力机制的条件扩散网络为基础,引入了扩散感知蒸馏损失,用于在扩散过程的每一步中迁移教师网络的模态信息。通过计算教师网络和学生网络在每一步的预测差异,确保学生网络能够逐步学习到教师网络的知识。实验结果表明,与现有方法相比,本项目方法在主要数据集和外部数据集上均表现出优异的诊断性能。此外,通过可视化分析发现,该方法能够更好地分离不同肾病的特征,验证了其有效性和泛化能力。
青年委员风采——蒋铼(图4)
图3. 多模态知识蒸馏方法结构示意图


委员专访


问:请问您的研究领域包括哪些?最近进展如何


蒋铼:近年来,团队的主要研究领域为基于视觉感知的智能图像/视频处理的理论、方法与应用研究,应用于计算机视觉、多媒体信号处理、医学影像分析等多个领域。研究工作按照具体场景,可分为以下三个方面:
(1)认知驱动下的视觉感知模型:针对传统观感知模型基于端到端深度学习方法存在泛化能力与可解释性差的瓶颈,研究人脑认知机理启发下的视觉感知模型;借鉴人脑神经信号的频域特性、高阶语义推理能力与多感官协同处理能力等,提出多个面向图像、视频、全景的视觉感知模型,应用场景包括自然、电商、无人机、监控、会议、体育转播等。
(2)感知质量优化下的多媒体计算:传统多媒体计算方法以信息重构为目标,性能遭遇“边际效应”;团队研究感知质量优化下的多媒体计算,通过高效感知模型发掘多媒体数据感知冗余,发掘图像关键区域,以感知重构为目标,提升多媒体处理效率。聚焦感知质量优化相关图像/视频任务,如质量评估、视频编码、质量增强、超分辨等。
(3)基于视觉感知的医学图像处理:响应国家与学校“医工交叉”的学科需求,将计算机视觉方法与临床医学有机融合。针对现有基于深度学习的医学图像处理方法可解释性不足导致鲁棒性差、难以实际应用的问题,团队通过模拟临床医生阅片流程,学习医学专家先验知识,构建基于视觉感知的医学图像处理框架,提出多个面向眼底、脑/心/牙/肺部CT/MRI、肾脏病理切片等影像模态的疾病检测、病灶分割、预后预测等医学模型。
问:您的团队大致由多少人组成?与图像图形相关的团队有多少人有哪些不同的职位划分?
蒋铼:在本人依托北航电子信息工程学院徐迈教授课题组,除负责人徐迈教授外,团队包括青年教师3人、博士后3人、博士/硕士研究生40余名。本人负责或联合指导的研究生12人,均进行图像图形相关相关方向的科学研究工作,其中感知模型方向3人、多媒体计算方向4人、医学方向5人、大模型方向1人。此外,积极为校内外本科生提供研究实习机会,发挥传帮带作用,形成共赢;对本科生而言,能够参与研究生的科研课题,进行学术入门,能够在本科阶段产出科研成果,帮助其保研与出国深造;对于研究生而言,通过讨论和辅导加深学术理解,同时助力课题推进,培养领导能力。
青年委员风采——蒋铼(图5)
问:对于希望进入图像图形领域的青年从业者,您希望他们加强哪些方面的技能培养?
蒋铼:待近年来,随着人工智能与计算机视觉领域的火热,越来越多的从业者涌入图像图形学领域,无论是工业界还是学术界,在该领域的竞争也变得越来越激烈。对于希望在将来进入该领域的从业者而言,既需扎实的理论基础,又强调实践能力。建议先广泛涉猎,再选择细分方向深耕,如三维视觉、AIGC、虚拟现实算等,并提醒自己练就终身学习的能力,时刻保持学术与技术前沿。避免“工具依赖”,正确对待开源社区,不能仅仅图像图形中的深度学习方法当做纯粹的工程问题或者玄学,需要深入理解原理,保持对学术前沿的敏感度,提升自身竞争力,同时更容易适应行业变革。
在您招收研究生时,一般会倾向于招收具备什么技能的学生?
蒋铼:由于不同学校、不同专业的培养方案不同,课题组招生不会特别注重在人工智能和图像基础方面的专业基础,往往更加注重学生以下方面的品质:1)主观能动性强,对自己的研究方向有足够的热爱,能够主动思考,学习前沿知识,对科研进度有自己的规划,会主动和老师同学讨论,寻求帮助;2)有一定的学习能力,比起现有专业知识基础,更重要的是拥有不断学习的能力,图像图形领域理论和技术更新迭代快,需要做到紧跟学术前沿,以及在工程实践中学习技能;3)稳定的心态,研究生,特别是博士生的学习是一个漫长的旅程,是一个向内探索的机会,需要将自己沉淀下来,以稳定的心态与情绪面对科研上的寂寞与挫折



青年委员风采——蒋铼(图6)