视觉语言模型

会程安排

9 月 21 日 上午

分论坛主席

尹建华
副教授 ⋅ 山东大学
尹建华,山东大学计算机科学与技术学院智能媒体研究中心, 副教授,博士生导师。 2015年-2016年赴美国伊利诺伊大学香槟分校(UIUC)数据和信息系统研究实验室交流, 2017年从清华大学数据库组博士毕业。 主要研究兴趣为数据挖掘与机器学习,特别是大语言模型、聚类算法、推荐系统等方向。
张淼
教授 ⋅ 哈尔滨工业大学(深圳)
张淼,哈尔滨工业大学(深圳)教授,博士生导师,国家级青年人才,院长助理。曾就职于丹麦奥尔堡大学计算机学院助理教授,澳大利亚莫纳什大学研究员,博士毕业于澳大利亚悉尼科技大学。主要从事高效的机器学习和人工智能方向,涉及领域包括高效深度学习,多模态学习,机器学习,计算机视觉等。发表CCF A类会议或期刊论文30余篇,如IEEE TPAMI,ICML,NeurIPS,CVPR等。目前担任IEEE TCSVT Associate Editor。
唐彦嵩
副教授 ⋅ 清华大学深圳国际研究生院
唐彦嵩,清华大学深圳国际研究生院副教授、博士生导师。分别在清华大学自动化系获得工学学士和博士学位,并于英国牛津大学从事博士后工作。主要从事具身智能、计算机视觉、模式识别等领域的相关工作,以第一/通讯作者发表TPAMI等IEEE汇刊和CVPR等CCF-A类会议论文30余篇,主持广东省杰青、国家重点研发计划课题、中国科协青托等项目,获2024年公安部科学技术奖一等奖、2024年广东省科学技术奖(科技进步)二等奖和国际顶会竞赛冠军3项,担任CVPR、FG等国际会议领域主席、国际期刊JVCI编委以及中国人工智能学会模式识别专业委员会(CAAI-PR)常务委员兼副秘书长等学术职务。
朱霖潮
研究员 ⋅ 浙江大学
朱霖潮,浙江大学计算机科学与技术学院百人计划研究员、博士生导师,入选国家级青年人才项目,获首届谷歌学术研究奖、斯坦福全球前2%顶尖科学家等荣誉。曾在澳大利亚悉尼科技大学担任助理教授。主要研究方向为科学智能、智能仿真、人工智能通用基础模型等。曾获美国国家标准总局TRECVID LOC等8项国际竞赛冠军。担任NeurIPS、ECCV、CVPR等国际会议领域主席,并多次在国际会议上组织专题研讨会。

分论坛报告

细粒度视频-文本跨模态语义对齐与建模
胡建芳 副教授 ⋅ 中山大学
报告摘要:由于缺乏细粒度视频-文本标注的训练数据,现有多模态模型在细粒度的跨模态语义对齐方面往往表现不甚理想,导致其在细节视频信息理解和生成方面往往出现理解错误或者生成不符合细节语义的视频内容。本次报告将介绍课题组近期在跨模态细粒度语义对齐方面的研究工作,包括细粒度视频-文本语义对齐,长时视频-长文本语义对齐和语音-运动/动作语义对齐。并结合基于文本描述的视频定位、视频内容分割和运动生成等多模态任务介绍细粒度语义对齐建模的性能效果。最后,介绍课题组近期收集的基于文本叙述的视频细粒度分割(指代分割)和长文本长视频理解数据集。
讲者简介:胡建芳,中山大学副教授,博士生导师。主要从事视频特征学习理论及应用研究,在多模态视频理解及生成方面取得了一系列理论和应用成果,在国际顶级会议和权威期刊等发表学术论文近70篇,包括以第一作者身份在国际人工智能顶级期刊IEEE TPAMI发表长文3篇。主持广东省杰出青年基金(2022)项目和两项国家自然科学基金面上(2020和2025)等项目十余项,曾获广东省自然科学奖二等奖,中国图象图形学会优秀博士学位论文奖,多次参加视频理解领域的国际学术竞赛获第一名或第二名。
多模态驱动的个体动作与群体行为生成
刘武 教授 ⋅ 中国科学技术大学
报告摘要:多模态生成大模型的迅速发展,为实现物理世界的数字孪生提供了全新路径。本报告旨在探讨如何基于多模态生成技术,构建从微观个体行为到宏观社会动态的高保真模拟生成框架。在个体层面,重点介绍如何通过文本、音频、视觉等多模态信息引导,生成更多样、自然、精准的虚拟人动作视频,从而显著提升交互数字人的外观表现力与行为拟真度。在宏观层面,将阐述如何基于多模态大模型实现对大规模用户社交行为的层次化模拟,构建动态演化的复杂社交网络,支持高效信息传播与深度认知行为分析,并在经济调控、舆论演化、认知决策等关键场景中开展应用验证。
讲者简介:刘武,中国科学技术大学特任教授,入选国家级青年人才计划。在重要国际会议和期刊上发表论文100余篇,曾获得IEEE T-MM、IEEE MM和IEEE ICME等最佳论文奖,以及CAAI 吴文俊人工智能科技进步特等奖、天津市科技进步特等奖、ACM 中国新星奖、中科院优秀博士论文奖、中科院院长特别奖等,入选了《麻省理工科技评论》亚太区“35岁以下科技创新35人”,北京市科技新星计划,中关村论坛-AI100青年先锋,并担任了IEEE T-MM和Pattern Recognition Associate Editor,IEEE ICME 2022和ACM MM Asia 2021技术委员会主席,2025年中国多媒体大会组织委员会主席,IET Fellow评审委员会委员等。
受限资源下的轻量化多模态学习
余宙 教授 ⋅ 杭州电子科技大学
报告摘要:多模态学习旨在学习模型以连接来自不同模态(如视觉、语言、听觉)的数据,并在此基础上进行协同理解和推理。得益于大模型技术的迅速发展,多模态大模型的研究受到工业界和学术界的广泛关注,各大科技公司的代表性多模态大模型产品如GPT-4o、Gemini。这些多模态大模型的依赖海量数据和高昂算力训练得到,大部分中小企业和高校都难以负担其训练和推理开销。本报告聚焦受限资源下的轻量化多模态学习,并围绕“轻量级模型”和“模型轻量化”这两条研究思路分享团队在相关领域的一些尝试和思考。
讲者简介:余宙,杭州电子科技大学计算机学院教授,博士生导师,计算机学院副院长、国家级青年人才。研究方向是多模态理解与推理、多模态预训练与大模型,发表T-PAMI、T-IP、CVPR、ICCV、MM等高水平论文50余篇,总引用5000余次,获浙江省自然科学一等奖(排2)、ACM杭州新星奖等荣誉。
多模态视觉推理与理解能力增强技术报告
蒋超亚 研究员 ⋅ 山东大学
报告摘要:随着OpenAI的o1模型和DeepSeek R1等推理型模型的出现,大语言模型实现了复杂问题求解能力的质的飞跃。然而,当前多模态大模型在视觉推理与理解能力方面仍面临诸多挑战。本报告分析回顾发现,多模态视觉推理与理解能力的主要瓶颈体现在两个方面:一方面,现有多模态推理过度依赖以文本为中心的处理机制,即先将视觉信息转化为文本描述,再基于文本进行推理。这种转化过程不可避免地导致空间关系等关键视觉特征的丢失,同时容易产生视觉幻觉问题。另一方面,多模态大模型对多模态上下文输入的理解与分析能力仍显不足,特别是在处理复杂的图文交互场景时表现欠佳。针对上述挑战,本报告将重点介绍三项关键的能力增强技术:一. 符号化偏好学习策略:介绍了针对多模态大模型在In-context learning任务中对输入上下文理解不足问题的解决方案。该策略通过符号化偏好学习机制,有效增强大模型对多模态示例的理解能力。二. 图文交错推理模型VLM-R³:介绍了支持图文交错推理的多模态大模型VLM-R³的设计原理与实现方法。该模型通过优化图像与文本的交互机制,显著提升多模态推理效果。三. 视觉理解与推理解耦策略:介绍了针对多模态大模型长思维链中幻觉问题的解决方案。该策略通过将视觉理解与推理过程解耦,由文本大模型负责逻辑推理,视觉大模型负责视觉感知,进而有效降低推理链中的幻觉现象。
讲者简介:蒋超亚,山东大学控制科学工程学院研究员,山东省泰山学者青年专家。主要从事多模态大模型的高效训练推理技术研究及其在能源领域的应用,研究方向包括多模态大模型推理能力增强,多模态大语言模型训练推理加速等。在人工智能领域CCF-A类会议和期刊发表一作论文数十篇,研究成果得到了同行和业界的高度认可。得到首届国家自然科学基金青年学生基础研究项目(博士研究生)及中国电子学会-腾讯博士科研激励计划的资助,获得北京市科技进步一等奖,北京大学校长奖等多项奖励。参与开发国内首个多模态信访大模型;参与国内开源多模态大模型mPLUG-owl和北京大学代码底座大模型CodeShell 7b的训练开发。
AI鉴真工作分享
兰钧 蚂蚁集团
报告摘要:随着AIGC技术的快速发展,生成内容的质量越来越高,不管是生成的逼真效果还是生成内容的可控性都越来越好,同时各AIGC产品的爆发也使得AIGC的应用门槛越来越低,大家可以方便高效地利用AIGC技术做很多事情。但AIGC技术的滥用同时也会带来很多风险,像虚假信息传播风险、人脸安全风险、虚假商品风险等,针对这些风险我们希望从AI鉴真技术角度进行识别和治理。该报告会从数据集建设、小模型识别、大模型识别等方向介绍我们团队在AI鉴真方向上的工作。
讲者简介:兰钧,当前就职于蚂蚁集团担任高级算法专家负责内容安全视觉算法工作,主要从事计算机视觉和多模态方向研究,用于解决真实场景安全问题。兰钧2014年本科毕业于天津大学,2017年硕士毕业于上海交通大学,曾获得Kaggle Grandmaster(最高全球排名12)和CVPR FGVC(2020,2021)、CVPR Face Anti-spoofing(2024)、ICCV VQualA(2025)等多项国际竞赛冠军。