CSIG中国图象图形学会-青年委员风采-王旗龙

发布时间:2024-03-28 10:03:55 人气: 作者:小编

【青年委员风采】- 王旗龙

CSIG中国图象图形学会-青年委员风采-王旗龙(图1)

简介:王旗龙,中国图象图形学学会青工委委员, 天津大学智能与计算学部英才副教授,博士生导师,主要研究方向包括深层神经网络架构设计与优化、多模态大模型、图像视频分析,长期围绕深度学习和概率机器学习高效结合开展研究,以期实现高泛化、强鲁棒的深层概率分布表征网络,已获得国家基金青年,面上项目,以及科技委基础创新项目等支持,与华为、百度等公司开展项目合作。在中科院1区期刊/CCF-A类会议发表学术论文40余篇,谷歌学术引用7800余次,单篇论文最高引用4200余次,获CVPR2020最具影响力论文。曾获2023年吴文俊人工智能优秀青年奖,2020年中国人工智能学会优秀博士论文、入选2018年度博士后创新人才支持计划,获2022年和2023年天津市科技进步二等奖(分别排名第一和第三),多次担任CVPR/IJCAI/AAAI会议领域主席(AC)和资深程序委员会委员(SPC)。


委员亮点工作介绍

  • 高维概率分布高效匹配与鲁棒估计

深度学习背景下的数据特征具有高维特性,对概率分布的匹配效率和参数估计的鲁棒性提出了更高的要求。为了高效合理的利用高斯分布建模,团队深入探究高斯分布所在空间形成的流形结构(高斯流形),通过完备的理论证明揭示了高斯流形本身具备一个李群结构,突破了黎曼流形的经典假设。在此基础上,提出两种基于李群同构的高效高斯嵌入策略,在严格保持高斯分布李群结构的同时将其映射到一个线性空间。提出的高斯嵌入策略给出了可解耦的高斯分布距离度量方法,为高斯流形分析及后续相关的统计建模技术提供了一种新的研究视角。针对如何在高维小样本条件下鲁棒估计高斯分布参数的问题,提出基于几何约束的正则化最大似然估计方法,利用冯纽曼矩阵散度约束预测协方差与先验矩阵(单位阵)具备相似的几何结构,从而避免预测协方差的病态性。同时,从理论上证明提出的正则化最大似然估计法具备一个高效的全局最优闭合解。结合深度特征,在材料、纹理、细粒度图像分类任务上的识别精度优于当时最佳方法5%~20%,展示了鲁棒高维高斯分布建模方法在计算机视觉应用中的潜力。

CSIG中国图象图形学会-青年委员风采-王旗龙(图2)

图1.高维概率分布高效匹配与鲁棒估计

  • 基于概率分布表征的深层神经网络

针对深度学习模型在处理数据不确定性时表现出的脆弱性和弱泛化性,以高斯分布作为切入点,将概率分布建模从全局表征和局部增强两方面与深层模型相结合,利用概率分布建模数据不确定性,提升深度模型的泛化性和鲁棒性。首先提出全局高斯分布嵌入网络,克服了高斯分布建模在深度学习架构下难优化的困境。为了提升模型效率,提出基于牛顿-舒尔茨迭代的近似算法,突破了原始模型优化过程中GPU-CPU交互瓶颈,实现了线性多GPU并行加速比。提出的方法从理论分析、统计信息增益、模型加速和模型压缩四个维度逐步结合了深层神经网络和高斯分布建模的优势,在细粒度、纹理等小规模(小样本)数据上的识别准确率(泛化性)比同类传统深层神经网络提升10%以上。针对现实数据通常存在长尾和多峰等复杂分布特性,进一步提出深层广义高斯分布嵌入网络和深层混合高斯分布嵌入网络,将全局广义高斯分布和混合高斯分布建模与深度模型相结合。相比深层高斯分布嵌入网络,深层广义高斯分布嵌入网络可以利用2/3的网络参数,取得更优的识别性能,同时深层混合高斯分布嵌入网络在更具挑战的低分辨率图像识别任务上显著提升识别精度。在全局高斯分布建模网络的基础上,提出基于高斯分布建模的视觉注意力机制,实现局部特征增强。针对大模型微调任务,结合全局特征分布建模和局部特征增强的思想,提出基于矩探针的高效参数微调方法。提出的方法相较经典的线性探针在下游任务上的微调性能平均提升9%以上。

CSIG中国图象图形学会-青年委员风采-王旗龙(图3)

图2.基于概率分布表征的深层神经网络

  • 基于深层概率分布表征网络优化行为分析的模型效率优化

针对概率分布表征在深层神经网络中的作用机制不清晰这一难题,从模型优化行为的角度探析全局概率分布表征对深度模型的影响,揭示了全局概率分布表征可以提升深层神经网络优化损失的利普希茨性和梯度计算的稳定性,表明了有效的后归一化旨在表达去相关与信息保护之间取得最佳平衡。基于上述分析,提出一种基于自适应特征预Dropout的概率分布建模归一化技术,实现了高效的表达去相关与信息保护自适应平衡,将归一化的计算复杂度从O(d3)降低到O(d),并取得更好的性能。对于局部概率分布表征网络,揭示了局部视觉注意力模型有效性的核心设计因素,并提出一种高效通道注意力模块,将注意力机制的参数量从O(d2)降低到O(log(d))。以经典的ResNet50(24.37M参数)模型为例,提出的方法仅引入80个参数在ImageNet-1K上得到了2%的识别精度提升,解决了注意力机制在计算效率和性能之间的矛盾。

CSIG中国图象图形学会-青年委员风采-王旗龙(图4)

图3. 基于深层概率分布表征网络优化行为分析的模型效率优化

委员专访

问:请问您的研究领域包括哪些?最近进展如何?

王旗龙团队一直围绕深层概率分布表征网络开展研究,针对深度学习与概率机器学习优势结合的难点问题,1)提出基于李群理论的高效测度和基于几何约束的鲁棒估计方法,克服深层架构下高维概率分布匹配效率低和参数估计稳定性差的难题。2)提出基于概率分布表征的深层神经网络模型,利用概率分布建模提升深度模型对数据不确定性的泛化性与鲁棒性。3)从模型优化角度揭示概率分布表征在深度模型中核心作用机制,进一步实现模型效率优化。从基础理论,模型方法和效率优化三个方面逐步探索一套深度学习和概率建模高效结合的学习理论和算法框架。具体而言,

(1) 高维概率分布高效匹配与鲁棒估计:针对深度框架下高维数据特征导致概率分布距离度量效率低的难题,以高斯分布为切入点,提出了基于李群理论的高维高斯流形分析框架,在此基础上设计了高效的高斯嵌入策略和可解耦的度量方法,克服了现有基于黎曼流形分析框架复杂度高和强耦合等限制。针对高维小样本条件下分布参数估计稳定性差的问题,提出了基于冯纽曼矩阵散度约束的最大似然估计方法,解决了现有正则化最大似然估计无闭合式最优解的难题,实现了高效、稳定的高斯分布鲁棒估计。

(2) 基于概率分布表征的深层神经网络:针对深度学习模型面对数据不确定性时表现出的脆弱性和弱泛化性,将概率分布建模嵌入到深层模型中作为特征表达与增强的手段,建立深层模型底层特征提取与高层任务决策的桥梁。以高斯分布作为基础,提出了基于全局概率分布表征和局部概率分布表征的深层神经网络,解决了概率分布建模在端到端深度学习框架下难求导、不稳定、效率低等优化难题,通过利用概率分布建模数据中潜在的不确定性,提升深度模型的泛化性和鲁棒性。

(3)基于深层概率分布表征网络优化行为分析的模型效率优化:针对深层概率分布表征网络工作机理及核心模块功能不清晰,从而导致高计算代价的核心模块无法被优化的难题,从深层概率分布表征对神经网络优化行为的影响作为出发点,通过理论证明和经验分析揭示了全局概率分布表征及其归一化技术对深层神经网络优化损失、梯度计算以及表达-泛化平衡性的影响,并提出一种高效的特征预Dropout技术,将归一化计算复杂度从O(d3)降低到O(d)。通过对局部概率分布表征神经网络的分析,揭示了影响局部视觉注意力机制性能的核心因素,并提出一种高效通道注意方法,将注意力机制的参数量从O(d2)降低到O(log(d))。

CSIG中国图象图形学会-青年委员风采-王旗龙(图5)


问:请向我们科普一下您研究领域相关的一项技术在应用中的具体体现。

王旗龙我的部分研究成果应用于自动驾驶环境感知数据智能分析与水利水电领域遥感影像智能解译。(1)针对智能驾驶领域对海量高质量标注数据的迫切需求以及传统人工标注的高成本、低质量问题,与中国汽车技术研究中心等企业合作,研究了面向智能驾驶场景下的低代价自动化视觉解析技术,以深层概率分布表征网络为核心开发了基于深层高阶表征的场景解析技术和基于先验知识的渐进式低代价驾驶场景感知数据解析技术,实现了精确、鲁棒的驾驶场景感知数据去重和场景划分,克服了高精度视觉解析模型依赖海量精确标注数据的技术瓶颈。相关成果获2022年天津市科学技术进步二等奖(第一完成人)。(2)针对传统水利水电工程勘测、监管领域人工效率低以及现有水利水电工程勘测监管数据规模小、标注精度差、目标复杂等挑战,与中水北方等企业合作研究了水利水电领域遥感影像智能解译关键技术,并实现持续优化。提出的结构化深度高阶表征是该项目目标检测与分割的技术核心,帮助该项目在噪声大、目标不显著等复杂情况下显著提升现有方法的检测精度。相关成果获2023年天津市科学技术进步二等奖(第三完成人)。

问:您对您未来的工作有什么展望?

王旗龙我希望未来可以从教学和科研方面不断突破自己。在教学方面,不断提升自身教学水平,注重培养学生的创新能力。在科研方面,围绕国家重大需求,针对视觉大模型和多模态大语言模型在复杂场景下的视觉理解与推理能力受限和计算代价大的问题,将前期研究的深层概率分布表征网络技术拓展至大模型领域,围绕概率分布表征大模型及其高效优化方法开展研究,包括(1)从模型高效微调角度,研究特征分布辅助的大模型高效微调方法,解决大模型微调性能与效率之间失衡的问题。(2)从视觉表征增强角度,研究视觉表征增强的多模态大语言模型,以低代价的方式为多模态大语言模型生成高质量的视觉表征。(3)从知识嵌入角度,研究视觉语言双向引导的多模态推理大模型,提升多模态大语言推理的鲁棒性和可解释性。增强大模型的视觉理解和推理能力,同时探索大模型的局部优化方法,减少大模型对高性能计算设备的依赖性,进一步推动大模型理论和应用的发展。


问:在您招收研究生时,一般会倾向于招收具备什么技能的学生?

王旗龙在招收研究生时,我更倾向于观察学生的性格品质:1.善良和纯粹。首先是愿意与他人分享、愿意帮助他人。多数科研想法是通过与其他学者多次相互讨论得出来的,与他人分享、相互协助通常可以建立更好的科研氛围,促进整个团队共同进步。2.坚持和主动。一个工作从初始想法到最终成型,其中过程多半是非常曲折的,需要在遇到困难时能够积极主动寻求解决方案,自己查找资料,动手实现,与老师同学讨论分析问题所在,并能一直有所坚持,善始善终。3.乐观向上。对科研和生活都是乐观向上的态度,具备调节情绪的能力。