报告摘要:Transformer作为语言、视觉、多模态基础模型已经取得了巨大的成功,然而,Transformer 的计算复杂度会随着输入序列的长度呈二次方的增长。如何探究低复杂多模态基础模型是一个核心问题。本次报告将汇报我们基于 mamba-2 、 gated linear attention等线性架构开展的一些研究工作,探索如何采用这些新型的低复杂网络来实现计算高效、表征能力强的视觉理解、内容生成、多模态理解模型。
讲者简介:王兴刚,华中科技大学电信学院教授博导,国家“万人计划”青年拔尖人才,现任Image and Vision Computing期刊(Elsevier, IF 4.2)共同主编;主要从事计算机视觉、多模态基础模型、视觉表征学习等领域研究,在IEEE TPAMI、IJCV、CVPR、ICCV、NeurIPS等顶级期刊会议发表学术论文60余篇,谷歌学术引用4万余次,其中一作/通讯1000+引用论文6篇,入选Elsevier中国高被引学者、斯坦福前2%科学家,中国科协青年人才托举工程;获湖北青年五四奖章、CSIG青年科学家奖、吴文俊人工智能优秀青年奖、CVMJ 2021年度最佳论文奖、MIR期刊年度最高引用论文奖、湖北省自然科学二等奖等。