报告摘要:随着OpenAI的o1模型和DeepSeek R1等推理型模型的出现,大语言模型实现了复杂问题求解能力的质的飞跃。然而,当前多模态大模型在视觉推理与理解能力方面仍面临诸多挑战。本报告分析回顾发现,多模态视觉推理与理解能力的主要瓶颈体现在两个方面:一方面,现有多模态推理过度依赖以文本为中心的处理机制,即先将视觉信息转化为文本描述,再基于文本进行推理。这种转化过程不可避免地导致空间关系等关键视觉特征的丢失,同时容易产生视觉幻觉问题。另一方面,多模态大模型对多模态上下文输入的理解与分析能力仍显不足,特别是在处理复杂的图文交互场景时表现欠佳。针对上述挑战,本报告将重点介绍三项关键的能力增强技术:一. 符号化偏好学习策略:介绍了针对多模态大模型在In-context learning任务中对输入上下文理解不足问题的解决方案。该策略通过符号化偏好学习机制,有效增强大模型对多模态示例的理解能力。二. 图文交错推理模型VLM-R³:介绍了支持图文交错推理的多模态大模型VLM-R³的设计原理与实现方法。该模型通过优化图像与文本的交互机制,显著提升多模态推理效果。三. 视觉理解与推理解耦策略:介绍了针对多模态大模型长思维链中幻觉问题的解决方案。该策略通过将视觉理解与推理过程解耦,由文本大模型负责逻辑推理,视觉大模型负责视觉感知,进而有效降低推理链中的幻觉现象。
讲者简介:蒋超亚,山东大学控制科学工程学院研究员,山东省泰山学者青年专家。主要从事多模态大模型的高效训练推理技术研究及其在能源领域的应用,研究方向包括多模态大模型推理能力增强,多模态大语言模型训练推理加速等。在人工智能领域CCF-A类会议和期刊发表一作论文数十篇,研究成果得到了同行和业界的高度认可。得到首届国家自然科学基金青年学生基础研究项目(博士研究生)及中国电子学会-腾讯博士科研激励计划的资助,获得北京市科技进步一等奖,北京大学校长奖等多项奖励。参与开发国内首个多模态信访大模型;参与国内开源多模态大模型mPLUG-owl和北京大学代码底座大模型CodeShell 7b的训练开发。