报告摘要:本报告聚焦于视觉与语言大模型在跨模态理解与生成中的最新进展与挑战。随着模型规模和能力的不断提升,它们在长视频理解、视觉叙事建模以及多模态生成方面展现出前所未有的潜力。特别是在处理复杂情境和长时序数据时,视觉与语言大模型能够捕捉跨场景、跨镜头的语义关联,从而推动事件推理与情节理解的深入发展。同时,基于剧情驱动的生成方法也正在探索如何在虚拟场景中实现动作与语言的协同生成,展现出多模态交互的全新可能性。在此过程中,开放词汇与少样本学习成为增强模型泛化能力和跨任务迁移能力的关键路径。展望未来,视觉与语言大模型将在统一多模态表征、跨模态推理以及生成式交互等方面发挥重要作用,为构建更加智能、灵活和可解释的人工智能系统奠定基础。
讲者简介:常晓军,中国科学技术大学讲席教授,国家级高层次人才,中国科学院海外引进杰出人才,民盟盟员,澳大利亚研究理事会青年研究奖获得者。主要从事多模态大模型、计算机视觉和绿色人工智能及其在社会公益方面的应用。主持包括澳大利亚研究理事会科研基金、澳大利亚研究理事会企业联合基金(Linkage Program)等国家级项目十余项。相关科研成果发表在T-PAMI、IJCV等国际顶级期刊和CCF A类会议上150多篇,论文的Google Scholar引用次数两万多次,其中21篇入选ESI高被引/热点论文。2019年至2024年连续入选科睿唯安高被引学者。担任IEEE TCSVT、IEEE TNNLS、ACM TOMM等国际顶级期刊的副主编和CCF A类会议的领域主席(Area Chair)。