多模态大模型

会程安排

9 月 19 日 上午

分论坛主席

徐天阳
副教授 ⋅ 江南大学
徐天阳,江南大学副教授,博导,青年至善学者。研究方向为多模态分析、视频理解,发表期刊与会议论文80余篇,包括CCF-A/IEEE会刊50余篇,其中IEEE TPAMI/IJCV 8篇,谷歌学术引用5600余次,获中国图象图形学学会优秀博士学位论文奖,获CVPR/ICCV/ECCV等计算机视觉国际学术会议举办相关学术竞赛(VOT、MMVRAC、Anti-UAV、AI City Challenge、Perception Test Challenge)冠亚军10余项,入选斯坦福大学全球前2%顶尖科学家年度榜单。
吴小俊
教授 ⋅ 江南大学
吴小俊, IAPR Fellow、AAIA Fellow、AIIA Fellow,江南大学二级教授、至善教授、研究生院院长、Josef Kittler人工智能研究院院长、教育部装发创新团队负责人、科技部中英人工智能联合实验室主任、教育部/江苏省人工智能国际合作联合实验室主任、教育部新世纪优秀人才、江苏省333工程第一层次人才。现任IEEE智慧城市指导委员会委员、多本国际期刊主编或编委、教育部计算机类教学指导委员会委员、中国人工智能学会模式识别专委会副主任、中国图像图形学会理事和江苏省人工智能学会副理事长等职。
宋井宽
教授 ⋅ 同济大学
宋井宽,同济大学计算机学院教授,国家“青年特聘专家”,国家杰出青年科学基金获得者。主要研究方向为多模态、具身智能。在多媒体、计算机视觉、人工智能等领域的重要会议和期刊发表论文180余篇,谷歌学术引用17000余次。担任国际SCI期刊IEEE TMM、ACM TOMM等编委,担任多个期刊的评审和多个国际顶级会议(MM'18-'24, IJCAI'18-'24)的领域主席。主持自然科学基金委重点、科技部重点研发课题等多项国家级项目。
雷印杰
教授 ⋅ 四川大学
雷印杰,教授,国家级青年人才、四川省杰青、四川省千人计划特聘专家,主要研究方向为“多模态认知计算”。近年来,主持了包括国家自然科学联合重点项目、国家重点研发计划课题、国防基础科研重点项目、四川省杰出青年科学基金等三十余项国家级、省部级及企业委托科研项目。在人工智能等领域的国内外顶级学术会议和期刊上发表学术论文80余篇,包括 CVPR、ICCV、ECCV(均为CCF-A类人工智能顶级国际会议),EMNLP(自然语言处理顶级国际会议),IEEE TPAMI、TIP、TNNLS、TMM(均为中科院一区)等,并申请了三十余项国家发明专利。先后担任 CVPR、ICCV、ACM MM、ECCV、AAAI、WACV 等人工智能领域国际知名学术会议的领域主席(AC)、高级程序委员会委员(SPC)以及程序委员会委员(PC)。

分论坛报告

古籍图像的视觉-语言理解:从文字修复到大语言模型
金连文 教授 ⋅ 华南理工大学
报告摘要:近年来,大语言模型(LLMs)等AIGC技术取得了突破性进展,在包括OCR领域在内的许多垂直行业得到广泛应用。本报告将介绍我们团队近年来基于AIGC的古籍文档图像数字化修复、古典学智能问答大模型等方面的一些研究进展,包括基于扩散模型与LMM的古籍残缺文字修复技术、面向古籍文档理解与古典学的垂域大模型的增量预训练、数据构建、多模态指令微调等方法,并对AGI时代的OCR及古籍数字人文研究进行讨论和展望。
讲者简介:金连文,男,华南理工大学二级教授,兼任中国图象图形学学会(CSIG)常务理事、广东省图象图形学会理事长、广东省高校音视频图文智能信息处理工程研究中心主任等职。主要研究领域为文字识别、文档图像理解、计算机视觉、人工智能与多模态大模型等,在重要学术期刊及国际会议上发表论文300余篇(其中SCI一区 + CCF A类论文100余篇),Google Scholar论文被引用数18000余次,H-Index 72。2006年入选教育部“新世纪优秀人才”计划,近年来入选斯坦福大学&爱思唯尔“全球前2%顶尖科学家榜单”、爱思唯尔“高被引学者”,2024年入选IAPR Fellow。获省部级科技奖5项(其中一等奖2项,二等奖3项);荣获CSIG、CAAI、CIE等全国学会科技进步二等奖3项;指导学生参加CVPR、ICDAR、ICPR、PRCV等国际国内知名会议上的学术竞赛并荣获冠军20余次。
视觉与语言大模型:从跨模态理解到生成与推理
常晓军 教授 ⋅ 中国科学技术大学
报告摘要:本报告聚焦于视觉与语言大模型在跨模态理解与生成中的最新进展与挑战。随着模型规模和能力的不断提升,它们在长视频理解、视觉叙事建模以及多模态生成方面展现出前所未有的潜力。特别是在处理复杂情境和长时序数据时,视觉与语言大模型能够捕捉跨场景、跨镜头的语义关联,从而推动事件推理与情节理解的深入发展。同时,基于剧情驱动的生成方法也正在探索如何在虚拟场景中实现动作与语言的协同生成,展现出多模态交互的全新可能性。在此过程中,开放词汇与少样本学习成为增强模型泛化能力和跨任务迁移能力的关键路径。展望未来,视觉与语言大模型将在统一多模态表征、跨模态推理以及生成式交互等方面发挥重要作用,为构建更加智能、灵活和可解释的人工智能系统奠定基础。
讲者简介:常晓军,中国科学技术大学讲席教授,国家级高层次人才,中国科学院海外引进杰出人才,民盟盟员,澳大利亚研究理事会青年研究奖获得者。主要从事多模态大模型、计算机视觉和绿色人工智能及其在社会公益方面的应用。主持包括澳大利亚研究理事会科研基金、澳大利亚研究理事会企业联合基金(Linkage Program)等国家级项目十余项。相关科研成果发表在T-PAMI、IJCV等国际顶级期刊和CCF A类会议上150多篇,论文的Google Scholar引用次数两万多次,其中21篇入选ESI高被引/热点论文。2019年至2024年连续入选科睿唯安高被引学者。担任IEEE TCSVT、IEEE TNNLS、ACM TOMM等国际顶级期刊的副主编和CCF A类会议的领域主席(Area Chair)。
物理启发机器学习
朱军 教授 ⋅ 清华大学
报告摘要:近年来,生成式人工智能在文本、图像、视频、3D、音频等内容生成方面取得突破性进展,体现了以“大数据+大模型+大算力”为主要学习范式的巨大潜力,但也存在生成内容不符合物理规律、难以解决具有复杂机理的科学问题难等挑战。物理启发机器学习旨在学习过程中充分考虑物理机理,构建灵活高效的学习模型与算法。该报告将介绍物理启发机器学习的前沿进展,主要包括物理启发扩散模型及高效算法、物理启发神经网络及神经算子等相关内容,并展示在高动态与高一致性视频生成、科学问题求解等方面的应用实践。
讲者简介:朱军,清华大学计算机系博世人工智能冠名教授、IEEE/AAAlFellow、清华大学人工智能研究院副院长,曾任卡内基梅隆大学兼职教授。主要从事机器学习研究,发表CCFA类会议/期刊论文百余篇;担任国际著名期刊IEEETPAMI的副主编以及ICML、NeurIPS、ICLR等(资深)领域主席20余次;曾获中国青年科技奖、陈嘉庚青年科学奖、中国科协求是杰出青年奖、科学探索奖、ICLR国际会议杰出论文奖等,入选国家级高层次人才计划。研发Vidu、ProlificDreamer、DPM-Solver等多模态生成模型和高效算法。
多模态大语言模型研究与展望
傅朝友 研究员 ⋅ 南京大学
报告摘要:近年来,多模态大语言模型因其强大的泛化和推理能力,受到了国内外学者以及工业界的广泛关注。本报告将简要回顾多模态大语言模型的发展历程,并围绕多模态大语言模型的数据、评测、架构、训练和应用等方面展开阐述,探讨多模态大语言模型中存在的问题以及未来的发展方向。
讲者简介:傅朝友,南京大学智能科学与技术学院研究员、助理教授、博导,入选中国科协青年人才托举工程。2022年博士毕业于中国科学院自动化研究所;2022-2024年通过“技术大咖-T10”计划加入腾讯担任高级研究员;2024年加入南京大学。研究方向为多模态智能,已发表论文20余篇,谷歌学术引用4600次,作为Owner的开源项目累计获得2万余次GitHub Stars,担任CCF-AI执行委员。代表性工作包括VITA多模态大模型系列(一作VITA-1.0&-1.5,通讯Long-VITA、VITA-Audio,3千GitHub Stars),MME多模态评测基准系列(一作MME&Video-MME,引用千余次)和Awesome-MLLM多模态社区(Owner,1万余次GitHub Stars)等。曾获中科院院长特别奖、IEEE Biometrics Council最佳博士学位论文、世界人工智能大会WAIC云帆奖·明日之星、北京市优秀博士学位论文、中科院优秀博士学位论文、小米青年学者-科技创新奖、南京大学紫金学者、CVPR-2023杰出审稿人等。
书生·万象多模态大模型的技术演进与应用探索
王文海 香港中文大学
报告摘要:随着大语言模型的兴起,多态大模型也取得了显著进步,推动了复杂的视觉语言对话和交互,弥合了文本与视觉信息之间的鸿沟。本报告将首先探讨图文多模态大模型的基本原理和技术,探索如何利用开源套件构建强大的多模态大模型,研究如何通过渐进式策略扩展开源多模态模型的性能边界,以缩小开源模型与商业闭源模型在多模态理解方面的能力差距。其次,将探讨多模态大模型在Al Agent 中的应用,利用多模态大模型提升 Al Agent 的多模态交互能力。
讲者简介:王文海,南京大学博士,香港中文大学博士后,曾任上海人工智能实验室青年科学家,“书生”系列视觉和多模态基础模型核心开发者。研究成果获得了总共超3万次引用,单篇最高引用超5000次。研究成果分别入选CVPR 2023最佳论文,世界人工智能大会青年优秀论文奖,CVMJ 2022最佳论文提名奖。入选CSIG优博提名,世界人工智能大会云帆奖。担任CSIG VI编委,IJCAI 2021的高级程序委员会委员,CVPR 2025 AC。