报告摘要:研究了局部卷积运算与全局注意力运算的互补性,将局部特征与全局特征耦合形成Conformer网络结构,显著增强小参数视觉模型表征能力。随后,探讨了局部卷积运算造成的自监督学习信息泄露问题,提出了Token Merging操作,突破卷积或局部运算的局部约束,形成高效分层Transformer表征(HiViT)与全预训练的Transformer 金字塔网络(iTPN)。在ImageNet分类任务上,iTPN-Base, iTPN-Large, iTPN-Huge 分别达到了88.0%,89.2%, 89.7%的Top-1分类精度。近期,探索了物理启发的热传导算子vheat与状态空间表征算子vMamba,实现了更高效的视觉表征,代码:github.com/pengzhiliang/Conformer,github.com/sunsmarterjie/iTPN, github.com/MzeroMiko/VMamba, Vheat.
讲者简介:叶齐祥,中国科学院大学特聘教授、国家杰出青年基金获得者、中科院卢嘉锡青年人才奖获得者、中国科学院优秀博士生导师、CVPR2023、NeurIPS2023-25、ICLR2024-25 Area Chairs、国际期刊IEEE TITS,IEEE TCSVT编委。主要进行视觉表征模型、成像与目标感知方向的研究,在CVPR, ICCV, NeurIPS等国际会议与TPAMI, TNNLS, TIP等期刊发表论文150余篇,学术引用20000次。承担了自然基金重点项目、开发的高精度目标感知方法支撑了华为、航天等单位的应用系统。曾获中国电子学会自然科学一等奖、国家技术发明二等奖。培养多名博士生获中科院院长奖、中国科学院百篇优秀博士论文、博士后创新人才计划支持等。