青年委员风采——刘笑宏
发布时间:2025-04-23 20:37:56 人气: 作者:小编

委员亮点工作介绍
美学二维码图像生成
在数字时代,二维码作为连接虚拟与现实世界的关键桥梁,被广泛应用于各类场景中。然而,传统的黑白二维码已逐渐难以满足用户日益增长的个性化需求,而现有方法在可定制性与可扫性之间始终面临难以兼顾的根本性挑战。随着扩散模型等图像生成模型的兴起,开启了高质量、语义一致图像生成新纪元。基于扩散模型,团队成功实现了既具有美学属性又具备可扫性的美学二维码,以替代现有视觉效果单调的黑白二维码。具体创新包括:1)提出二维码美学蓝图模块,该模块将二维码编码信息与指定图像融合后生成蓝图图像,用于控制稳定扩散模型的生成过程,以保持生成图像中的局部明暗关系;2)提出美学二维码可扫性提升模块,通过对潜空间变量进行优化,在逐步提升二维码可扫性的同时保持生成图像内容的美学性,以兼顾用户的个性化需求与作为二维码的实用性。团队在美学二维码方向的创新性研究全面推动了二维码在视觉呈现方式上的突破。图1中分别展示了由文本描述控制生成的美学二维码图像与由文本描述与人脸图像共同控制生成的美学二维码图像。
基于注意力的多尺度图像去雾网络
图像去雾旨在去除图像中的雾效应,有助于减轻由于环境条件导致的图像质量下降而对下游视觉分析任务产生的不利影响,在自动驾驶、智能监控系统中应用广泛。现有方法在物理模型的使用、预处理方法的选择、多尺度复原的建模上存在不足。为了解决这些问题,团队提出了端到端的网格去雾卷积网络GridDehazeNet,在去雾性能上获得极大提升。具体创新包括:1)采用可训练的预处理模块用于获取具有丰富多样性的特征输入;2)提出由注意力机制驱动的多尺度网格网络结构,有效缓解了传统多尺度方法中常见的信息瓶颈问题;3)提出的后处理模块则进一步减少了输出结果中的伪影现象。实验结果表明,所提方法在合成图像和真实图像上均取得了优异的去雾效果,并进一步解释了利用大气散射模型进行维度简化未必能在图像去雾中带来实质性收益,为后续图像去雾算法提供了新的技术思路。
图2. 所提出的GridDehazeNet整体框架
面向AIGC的视觉质量与语义对齐评价
随着生成式人工智能的快速发展,文生图与文生视频模型在内容创作、设计辅助等多个领域展现出巨大的应用潜力。然而,当前生成结果仍存在例如视觉质量不稳定、文本-视觉内容对齐不足等问题,限制了其在高可靠性场景中的落地应用。对视觉生成内容的质量评价主要依赖两个关键维度:视觉质量与语义对齐度。尽管现有模型在这两个评价维度上已取得显著进展,但这些模型的性能在很大程度上依赖于人工标注数据的规模与质量。为此,团队构建了一个面向文生视觉内容质量评价的数据集Q-Eval-100K,用于评价生成内容的视觉质量与语义对齐度。在上述两个评价维度上,该数据集目前是规模最大的公开数据集,共包括10万条样本(其中有6万张生成图像与4万段生成视频)以及96万条人工标注。在此基础上,团队提出了统一的质量评价大模型Q-Eval-Score,不仅能够同时对上述两个维度进行准确评价,还针对长文本提示词的对齐度进行了专门优化。实验结果表明,Q-Eval-Score在多个基准测试上展现出了强大的泛化能力,这充分体现了“规模定律”在视觉生成内容质量评价中的适用性,为构建泛化能力更强的评价大模型提供了重要依据。

委员专访
问:请问您的研究领域包括哪些?最近进展如何?
(1)针对图像生成过程中多重控制条件相互混叠的问题,深入剖析其内在冲突机制,设计并实现了多种控制条件解耦方法,从源头上降低控制干扰程度,以确保生成图像在结构、语义与风格等多个层面均符合预设的所有约束条件,提升了生成结果的可控性。
(2)针对生成式图像增强视觉感知与保真度难以兼顾的问题,从视觉感知机制与图像统计特性出发,提出了多种基于生成先验的图像增强方法,在提升主观视觉质量的同时尽可能控制图像细节与结构信息保持不变,实现了视觉感知与内容保真之间的平衡。
(3)针对图像质量评价的可解释性问题,基于多模态大模型中的强大语义理解与生成能力,通过构建视觉-语义对齐机制,使模型能够输出符合客观事实的评价理由,从而提升质量评价模型在实际应用中的可解释性,推动图像质量评价由“分数判断”向“语义解释”转变。
问:请向我们科普一下您研究领域相关的一项技术在应用中的具体体现。
对于希望进入图像图形领域的青年从业者,我建议重点加强以下几方面的技能培养。首先是扎实的数学基础,尤其是线性代数、概率统计、优化方法等核心知识,这些是理解图像处理与图形算法的基石。其次是编程与工程实现能力,包括熟练掌握 C++、Python 等语言,以及常用图形/图像处理库(如 OpenCV、OpenGL)与深度学习框架(如PyTorch)等。第三是跨领域的综合思维能力,包括图像图形算法在生物医学成像、化学分子建模、材料结构分析等多个交叉领域,进一步拓展研究视野。最后,科研素养和创新意识也不可忽视,包括独立思考、学术交流、与持续创新能力。
我未来的工作规划将从教学、科研和人才培养三个方面展开:
(1)在教学方面:我将紧跟计算机视觉的发展前沿,持续优化课程内容,特别是在机器学习、人工智能等相关授课中加入大模型等最新研究进展,注重理论与实践相结合,激发学生的科研兴趣与创新能力。
(2)在科研方面:我将继续系统性地研究生成式人工智能的理论基础与下游任务,进一步突破大模型在多模态生成、理解、质量评价问题中的应用边界,以应对对高可信内容生成日益增长的需求,进一步推动研究成果在实际应用场景中的落地与转化。
(3)在人才培养方面:我将以“价值引领,因材施教”为核心理念,培养学生树立正确的价值观与社会责任感,并倡导多样化发展路径,注重学生的跨学科能力与工程实践能力,鼓励学生从事高水平研究与产学研合作,培养具备国际视野与创新能力的复合型人才。
在招收研究生时,我更倾向于选择具备扎实学术基础和良好研究潜力的学生。具体而言,我通常会考察以下几方面的能力:首先,具备扎实的数学与编程基础,能够熟练使用主流的深度学习框架;其次,具备较强的问题分析与自主学习能力,能够在面对开放性科研问题时提出思路并主动探索;第三,具有良好的科研素养,包括文献阅读、写作表达与团队协作能力。此外,团队致力于前沿技术研究与实际应用结合,期待开展有深度、有影响力、有价值的科研工作。