报告摘要:在计算机视觉和多模态研究领域,SAM(分割一切模型)和 LLaVA 是两项具有代表性的成果,分别用于场景理解和视觉语言建模。SAM 能以交互方式将各类图像分割为与类别无关的掩码,还支持 “分割一切” 模式;LLaVA 则搭建起视觉嵌入与大型语言模型之间的桥梁,并提供了出色的开源代码库。在本次研究报告中,我将介绍自己团队在 SAM 和 LLaVA 基础上开展的几项研究工作,内容分为感知和视觉语言理解(多模态学习)两个部分。
第一部分将介绍三项工作:为兼顾效率与语义学习,我们提出了 RAP-SAM—— 这是一种新型实时分割模型,可一次性完成全景分割、视频分割和类 SAM 分割任务;为突破识别能力的局限,我们设计了一个简洁的框架,名为 “开放词汇 SAM”(Open-Vocabulary SAM),能够对超过 2.2 万个概念的每个掩码进行分割和标注;为将 SAM 的功能扩展到通用感知领域,我们提出了 OMG-Seg,这是首个能在单个模型中实现十多种不同分割任务的分割模型。
第二部分将介绍 OMG-LLaVA、Sa2VA 和 DenseWorld。第一项工作 OMG-LLaVA 是一个通用多模态大型语言模型,将图像级、对象级和像素级的感知、推理与对话能力整合到一个端到端模型中;Sa2VA 则将 SAM-2 与类 LLaVA 的视觉语言模型(VLM)系统相结合,可一次性完成交互式图像和视频理解任务,包括目标定位、分割和开放式问答等;为填补密集分割与密集细节描述之间的空白,我们提出了 DenseWorld,这是首个包含 100 万条真实世界详细带定位描述的数据集。所有相关代码、模型和数据集均已向社区公开。
讲者简介:李祥泰博士目前担任字节跳动新加坡公司的研究科学家。他此前在南洋理工大学多媒体实验室(MMLab@NTU)担任博士后研究员,师从Chen Change Loy教授。他在北京大学获得博士学位,师从童云海教授。他的主要研究领域包括多模态学习和视频理解,在计算机视觉领域的顶级国际会议和期刊(如 CVPR、ICCV、ECCV、PAMI、IJCV、AAAI)上发表了多篇第一作者论文。他担任众多顶级会议和期刊的审稿人,还在 2025 年的国际学习表征会议(ICLR)、国际机器学习会议(ICML)、国际计算机视觉大会(ICCV)、美国人工智能协会年会(AAAI)、冬季计算机视觉应用会议(WACV)、神经信息处理系统大会(NeurIPS)中担任领域主席。