神经网络架构:Mamba等

会程安排

9 月 20 日 下午

分论坛主席

张平平
副教授 ⋅ 大连理工大学
张平平,大连理工大学未来技术学院/人工智能学院副教授,研究方向为计算机视觉。在人工智能领域的国际顶级会议和期刊(如CVPR/TPAMI等)上发表论文60余篇,目前谷歌学术引用6400余次。主持或参与国家重点研发课题、国家自然科学基金、省部级基金/开放课题等多项科研项目。目前为CSIG多媒体专委会、CCF视觉专委会等委员,担任多个国际顶级学术期刊和会议领域主席,国内盛会VALSE第6-8届执行领域主席。曾以第一完成人身份获得辽宁省自然科学二等奖,中国图象图形学会优秀博士论文、辽宁省优秀博士论文,大连市高层次人才项目“青年才俊”、大连理工大学星海人才培育计划“星海骨干”等。
王兴刚
教授 ⋅ 华中科技大学
王兴刚,华中科技大学电信学院教授博导,国家“万人计划”青年拔尖人才,现任Image and Vision Computing期刊(Elsevier, IF 4.2)共同主编;主要从事计算机视觉、多模态基础模型、视觉表征学习等领域研究,在IEEE TPAMI、IJCV、CVPR、ICCV、NeurIPS等顶级期刊会议发表学术论文60余篇,谷歌学术引用4万余次,其中一作/通讯1000+引用论文6篇,入选Elsevier中国高被引学者、斯坦福前2%科学家,中国科协青年人才托举工程;获湖北青年五四奖章、CSIG青年科学家奖、吴文俊人工智能优秀青年奖、CVMJ 2021年度最佳论文奖、MIR期刊年度最高引用论文奖、湖北省自然科学二等奖等。
王奕森
助理教授 ⋅ 北京大学
王奕森,北京大学助理教授,博士生导师。主要研究方向为机器学习理论和算法,目前重点关注大模型的理论、安全等。已发表机器学习三大顶会ICML/NeurIPS/ICLR文章60余篇,多篇被选为Oral或Spotlight,获ECML 2021最佳机器学习论文奖、ICML 2024 Workshop最佳论文奖、ICML 2021 Workshop最佳论文银奖等。谷歌学术引用1.1万余次。主持科技创新2030新一代人工智能重大项目课题等项目,担任NeurIPS Senior Area Chair。

分论坛报告

视觉表征模型的结构与算子设计
叶齐祥 特聘教授 ⋅ 中国科学院大学
报告摘要:研究了局部卷积运算与全局注意力运算的互补性,将局部特征与全局特征耦合形成Conformer网络结构,显著增强小参数视觉模型表征能力。随后,探讨了局部卷积运算造成的自监督学习信息泄露问题,提出了Token Merging操作,突破卷积或局部运算的局部约束,形成高效分层Transformer表征(HiViT)与全预训练的Transformer 金字塔网络(iTPN)。在ImageNet分类任务上,iTPN-Base, iTPN-Large, iTPN-Huge 分别达到了88.0%,89.2%, 89.7%的Top-1分类精度。近期,探索了物理启发的热传导算子vheat与状态空间表征算子vMamba,实现了更高效的视觉表征,代码:github.com/pengzhiliang/Conformer,github.com/sunsmarterjie/iTPN, github.com/MzeroMiko/VMamba, Vheat.
讲者简介:叶齐祥,中国科学院大学特聘教授、国家杰出青年基金获得者、中科院卢嘉锡青年人才奖获得者、中国科学院优秀博士生导师、CVPR2023、NeurIPS2023-25、ICLR2024-25 Area Chairs、国际期刊IEEE TITS,IEEE TCSVT编委。主要进行视觉表征模型、成像与目标感知方向的研究,在CVPR, ICCV, NeurIPS等国际会议与TPAMI, TNNLS, TIP等期刊发表论文150余篇,学术引用20000次。承担了自然基金重点项目、开发的高精度目标感知方法支撑了华为、航天等单位的应用系统。曾获中国电子学会自然科学一等奖、国家技术发明二等奖。培养多名博士生获中科院院长奖、中国科学院百篇优秀博士论文、博士后创新人才计划支持等。
脉冲域中的注意力机制再思考:SpikeFormer架构的挑战与构建大规模脉冲模型的路径探索
顾实 长聘副教授 ⋅ 浙江大学
报告摘要:脉冲神经网络(Spiking Neural Networks, SNNs)因其生物可解释性与高能效特性,在构建下一代智能系统中展现出独特潜力。然而,如何将当前主流深度学习中的注意力机制引入以稀疏和时序驱动为特征的脉冲计算框架,仍面临诸多挑战。本报告聚焦“脉冲注意力”这一前沿方向,以SpikeFormer类架构为核心,探讨其在表达能力、时空复杂度和可扩展性等方面的关键问题。我们将深入分析如何在脉冲通信范式下重构注意力机制、如何权衡Transformer模块与SNN的结构适配。结合近期在时间编码、能效优化和脉冲训练技术上的进展,报告还将提出当前方法的主要瓶颈与未来发展路径,旨在推动面向基础模型构建的脉冲网络体系研究,桥接神经科学机制与现代AI系统之间的关键断层。
讲者简介:顾实,浙江大学计算机科学与技术学院、脑机智能全国重点实验室长聘副教授,博士生导师,国家青年特聘专家(2017),入选福布斯中国“30岁以下30人“榜单。美国宾夕法尼亚大学(University of Pennsylvania)应用数学与计算科学专业博士,清华大学数理基础科学专业学士。研究方向为类脑智能与脑网络,论文发表于Nature Communications,Science Advances,PNAS,NeurIPS,ICML,ICLR等国际期刊或会议上,担任ICML、NeurIPS等会议的领域主席(Area Chair)和Nature、Science等期刊的审稿人。更多信息请参考:https://guslab.org。
基于状态空间模型等技术的视觉复原和理解
朱磊 助理教授 ⋅ 香港科技大学(广州)
报告摘要:近来状态空间模型技术(特别是Mamba)在计算机视觉相关任务取得较好的结果。在这次报告中,我们首先介绍我们组基于状态空间模型技术的图像/视频的复原和分割等视觉理解的工作,然后介绍我们提出的基于Mamba的医学图像分析的方法(包括SegMamba, Vivim)。
讲者简介:朱磊,香港科技大学(广州)的助理教授,以及香港科技大学电子与计算机工程学系的联署助理教授。2017年从香港中文大学获得博士学位,之后在剑桥大学从事博士后研究。主要的研究方向是底层视觉、视觉生成、视觉复原和理解、医学图像、深度学习等。在IEEE TPAMI / IJCV / CVPR / ICCV / IEEE TMI等发表了100篇左右的论文,其中CCF-A类和IEEE Transactions期刊90余篇, 包括40+篇的IEEE TAPMI / IJCV / CVPR / ICCV / ECCV / NeurIPS。Google Scholar引用8500 余次。受邀担任IJCAI的SPC, 以及CVPR 2025、ICLR 2025、ECCV 2024、ACM MM 2021 & 2022 & 2025、MICCAI 2023 & 2024 & 2025的Area Chair。
面向底层视觉增强任务的状态空间模型
戴涛 助理教授 ⋅ 深圳大学
报告摘要:图像复原是底层视觉任务的一项关键任务,旨在从退化的输入中恢复高质量的图像。当前主流架构模型,如卷积神经网络(CNNs)、Transformer等,尽管得到了广泛研究,并取得了令人瞩目的成果。然而,当前主流架构在底层视觉任务仍面临挑战,比如CNN在捕获长期依赖性方面存在局限性,Transformer对于图像输入存在二次复杂性的计算挑战。为了应对这些挑战,我们探索了具有线性复杂度的状态空间模型Mamba在底层视觉增强任务应用,展现了其在解决全局感受野与计算效率之间的矛盾方面所具有的潜力。
讲者简介:戴涛,博士,深圳大学助理教授,特聘副研究员。近年来主要从事计算机视觉领域的研究,特别是在底层视觉增强等研究课题进行了深入研究。目前在计算机视觉顶会CVPR/ICCV/ECCV,人工智能顶级会议ICML/NeurIPS/ICLR/AAAI,以及IEEE TPAMI等CCF:A类会议/期刊累计发表论文50余篇。近年来先后主持了国家自然基金、国家重点研发计划子课题、广东省自然基金和深圳市基础研究、 腾讯“犀牛鸟”青年教师科研基金等项目。戴涛与腾讯、美团、华为、平安、OPPO等知名企业保持紧密合作。
RWKV下一代序列建模架构
侯皓文 副研究员 ⋅ 人工智能与数字经济广东省实验室(深圳)
报告摘要:本次报告主要围绕RWKV模型展开,内容涵盖其核心机制、发展历程以及最新的多模态应用。我们将介绍传统RNN与Transformer架构的局限性,并提出一种新型神经网络架构——RWKV,展示其在语言建模、序列建模及多模态任务中所具备的性能、效率与可扩展性。
讲者简介:侯皓文博士现任人工智能与数字经济广东省实验室(深圳)副研究员。2017年毕业于新加坡国立大学并获得博士学位,同年加入腾讯,担任应用研究员,主要从事搜索、自然语言处理与多模态领域的研究与应用。目前,侯博士的研究聚焦于新一代大语言模型(LLM)架构的开发,尤其专注于RWKV系列模型,包括线性注意力架构(RWKV-4/5/6/7)、混合注意力架构(RWKV-X),以及基于创新架构的视觉语言模型(VisualRWKV)。该新型架构融合了Transformer在训练阶段的并行高效性与RNN在推理阶段的高效性,被视为未来通用人工智能(AGI)系统的潜在基础架构之一。