CSIG中国图象图形学会-青年委员风采-吴庆耀
发布时间:2024-05-02 15:28:46 人气: 作者:小编
【青年委员风采】- 吴庆耀
1 委员基本情况:
姓名 | 吴庆耀 |
工作单位 | 华南理工大学 |
职务 | 教授 |
研究方向 | 少样本场景感知与理解、弱监督学习、迁移学习 |
2 委员简介:
吴庆耀,华南理工大学担任教授及博导,国家万人计划青年拔尖,广东省特支计划青年拔尖,现任大数据与智能机器人教育部重点实验室副主任,广州市机器人软件及复杂信息处理重点实验室主任,入选2022年及2023年美国斯坦福大学发布的全球前2%顶尖科学家榜单。担任Elsevier国际期刊Software Impacts 副主编、国际期刊 Mathematics 特邀副主编,同时担任 2021 年 IEEE 国际电子商务与工程会议(ICEBE)大会主席及2022年ICEBE程序主席。研究领域为计算机视觉,致力于少样本场景感知与理解、数据增强、弱监督学习、迁移学习等方向,已发表于CVPR、ICCV、IJCAI、AAAI和TKDE、TNNLS、TIP等CCF-A类会议和期刊50+篇,曾获得广东省科技进步二等奖和深圳市科技进步奖二等奖。
3 委员亮点工作
l 联合分割、检测、跟踪的Transformer统一框架
对于场景感知和理解任务,我们人类倾向于先快速定位前景对象,然后再关联相关的图像或几帧视频中的对象协同一起完成感知和理解等多种任务。在之前的研究中,我们发现许多研究集中在协同分割(CoS)、协同显着性检测(CoSD)和视频显着性对象检测(VSOD)上,以前的方法为这些相似的任务分别设计不同的网络,虽然这些方法能发现共现对象,但是不同任务间很难协同完成。因此,我们提出了一个Transformer网络框架关联相关的前景对象并对分割、检测、跟踪等任务进行统一建模。具体来说,我们首先引入一个转换器块,它将图像特征视为补丁令牌,然后通过自注意力机制捕获它们的远程依赖关系。 这可以帮助网络挖掘相关对象之间的补丁结构相似性。此外,我们提出了一个 MLP 内学习模块来生成自我掩码来增强网络以避免部分激活。对四个 CoS 基准(PASCAL、iCoseg、Internet 和 MSRC)、三个 CoSD 基准(Cosal2015、CoSOD3k 和 CocA)和四个 VSOD 基准(DAVIS16、FBMS、ViSal 和 SegV2)的大量实验表明,我们的方法 通过使用相同的网络架构,在三个不同的任务上,在准确性和速度上都优于其他最先进的技术,实时速度可以达到140FPS。
图1. 关联相关对象进行特征增强的效果图
l 基于空间语义协作裁剪网络的图像生成方法
移动互联网时代每天都有大量的用户生成内容(UGC)上传到互联网,并通过客户端(例如手机和PC)向全世界的人们展示。这需要裁剪算法在不同设备上以特定的宽高比生成美观的缩略图。 然而,现有的图像裁剪工作主要集中在地标或风景图像,未能对UGC中复杂背景的多对象之间的关系进行建模。 此外,以前的方法仅考虑裁剪图像的美观性,而忽略了内容完整性,而内容完整性对于 UGC 裁剪至关重要。 因此,我们提出了一个空间语义协作裁剪网络(S2CNet),用于任意用户生成的内容,并附带新的裁剪基准。 具体来说,我们首先挖掘潜在物体的视觉基因。 然后,建议的自适应注意力图将该任务重新定义为视觉节点上的信息关联过程。 底层的空间和语义关系最终通过可微分的消息传递集中到候选作物上,这有助于我们的网络有效地保持美观和内容完整性。对所提出的 UGCrop5K 和其他公共数据集进行的广泛实验证明了我们的方法相对于最先进的同行的优越性。
(a) (b)
图2(a)针对不同移动设备生成裁剪图像; 2(b)所提出的UGCrop5K数据集共有5000张不同场景不同纵横比的图像
l 基于上下文解耦增强的弱监督语义分割方法
弱监督语义分割(WSSS)和数据增强是近年来研究的热点,传统面向WSSS任务的数据增强方法通常采用几何变换、随机裁剪和颜色抖动等策略。 然而,仅仅增加相同的上下文语义数据并不能给网络区分物体带来太大的增益,例如,“飞机”的正确图像级分类可能不仅仅是由于物体本身的识别, 还有它的共现上下文,如“天空”,这将导致模型较少关注对象特征。为此,我们提出了一种上下文解耦增强(CDA)方法,来改变对象出现的固有上下文,从而驱动网络消除对象实例和上下文信息之间的依赖。为了验证所提出方法的有效性,在具有多种替代网络架构的 PASCAL VOC 2012 和 COCO 数据集上进行的大量实验表明,CDA 可以将各种流行的 WSSS 方法大幅提升到最先进水平。
图3. 所提出的CAM+Aug方法比传统CAM方法能更好感知对象
4 委员专访:
1. 请问您的研究领域包括哪些?最近进展如何?
我们团队最近的研究领域主要是面向少样本场景感知与理解的大模型技术,主要涵盖以下几个方面:
(1)大模型垂域应用:我们的研究着眼于在特定领域应用中,如何更有效地利用大型模型,以应对少样本场景、长尾场景的挑战;从零训练一个新的模型成本太高,因此团队致力于探索新型多专家网络架构、高质量数据选择和生成、以及高效微调和推理等多方面的技术,实现大模型在垂域的高效应用。
(2)大模型轻量化部署:如何将预训练好的大模型应用部署到实际应用也是当下亟待解决的问题。大模型参数量很大,消耗GPU资源十分的庞大,在推理阶段进行模型量化以及模型的轻量化参数重构,也是我们团队研究的课题之一;
(3)迁移学习:迁移学习是当前深度学习领域的热门话题,因为在数据驱动的时代,数据的重要性不言而喻。然而,某些领域由于隐私保护或数据合规等问题,数据的收集变得困难。因此,在确保数据隐私安全的前提下,如何通过迁移学习的方法将通用模型应用到不同领域,实现少样本甚至零样本学习,是一项具有挑战性的研究方向。
目前我们团队致力于研究上述课题,并且也在对应的人工智能和计算机学术顶级会议发表了一些paper,希望在接下来的几年,实现更多技术的突破,为业界带来好的成果和工具。
2. 您对您未来的工作有什么展望?
在未来的工作中,我将面向国家战略需求开展研究工作,积极参与国家重大科技项目,将论文写在祖国的大地上,将研究成果落实到实际中,为祖国的科技发展贡献力量。同时,我将在教书育人方面不断突破自己,目前我正在规划面向少样本场景理解的教材出版工作,并积极申请国家级教学改革项目,未来将继续致力于教学内容的创新,注重培养学生创新和批判精神。
3. 在您招收研究生时,一般会倾向于招收具备什么技能的学生?
在研究生招收过程中,我通常会偏向以下方面能力的考察: 1.主动思考能力:我重视学生的主动性和批判性思维能力。在学术研究中,主动思考、主动学习、以及在实践中总结经验是至关重要的素养,决定了他们在科研过程中的表现。2. 动手实验和批判思维能力:我也十分重视学生的动手实验和批判思维能力,他们应该能够积极快速进行实验验证,具备批判性分析思维,对正面/负面实验结果进行全面分析,这种能力影响着学生学习的顺利程度。