图像视频分割论坛

会程安排

9 月 21 日 上午

分论坛主席

卢宪凯
研究员 ⋅ 山东大学
卢宪凯,山东大学软件学院研究员,博士生导师。主要从事视频目标分析、多模态大模型研究。主持和参与多项课题研究包括国家重点研发计划、国家自然科学基金青年项目、山东省自然科学优秀青年基金、山东省重点研发计划等。在IEEE TPAMI、IEEE TIP、IEEE TCSVT、IEEE Proceedings、CVPR、ICCV、Neurips、ECCV等国际高水平期刊和顶级会议上发表学术论文40余篇(其中ESI高被引论文3篇),国际专利2项。 担任模式识别SCI期刊IEEE TMM、Pattern Recognition客座编委,2024年入选全球前2%顶尖科学家榜单。
丁恒辉
青年研究员 ⋅ 复旦大学
丁恒辉,复旦大学青年研究员,博导,国家海外高层次青年人才,上海市海外高层次青年人才,上海市计算机学会副秘书长。2016年于西安交通大学获学士学位,2020年于新加坡南洋理工大学获博士学位。曾在TikTok AI Lab、MMLab@NTU、ETH Zurich担任研究员/博士后。主要从事计算机视觉、多模态、场景理解、AIGC等研究。过去5年内共发表论文100多篇,包括90多篇CCF-A类论文和10多篇CCF-B类论文。担任IEEE TIP期刊编委、Visual Intelligence期刊编委,担任多个国际顶级会议的Area Chair或Senior Area Chair,如CVPR、NeurIPS、ICML、ICLR、AAAI、ACM MM等。
刘念
教授 ⋅ 西北工业大学
刘念,国家级青年人才(海外),即将加入西北工业大学自动化学院任教授。曾任阿联酋起源人工智能研究院高级副研究员和默罕默德.本.扎耶德人工智能大学研究科学家。分别于2012年和2020年于西北工业大学自动化学院获得学士和博士学位。研究方向为人工智能、计算机视觉、显著性检测、小样本学习、多模态AI等。在国际顶级期刊和学术会议(如IEEE TPAMI、ICML、NeurIPS、CVPR、ICCV、ECCV、AAAI等)发表学术论文60余篇,谷歌学术引用7000余次。入选斯坦福“全球前2%顶尖科学家”榜单和科睿唯安“全球高被引科学家”名单。曾获中国图象图形学学会优博奖。
魏云超
教授 ⋅ 北京交通大学
魏云超,北京交通大学教授,计算机学院副院长,教育部长江学者。目前主要研究方向包括面向非完美数据的视觉感知、多模态数据分析、生成式人工智能等。曾在NUS、UIUC、UTS从事研究工作。入选MIT TR35 China、百度全球高潜力华人青年学者、《澳大利亚人》TOP 40 Rising Star;获世界互联网大会领先科技奖(2023)、教育部高等学校自然科学奖一等奖(2022)、中国图象图形学学会科技技术奖一等奖(2019)、澳大利亚研究委员会青年研究奖(2019)、IBM C3SR最佳研究奖(2019)、计算机视觉世界杯ImageNet目标检测冠军(2014)及多项CVPR竞赛冠军;发表TPAMI、CVPR等顶级期刊/会议论文100多篇,Google引用超21000次。

分论坛报告

基于大模型的眼科影像人工智能诊断
陈新建 教授 ⋅ 苏州大学
报告摘要:本次报告将探讨大模型技术在眼科影像人工智能诊断中的前沿应用与革命性潜力。传统AI模型在泛化能力和多任务处理上存在局限,而视觉大模型(VLM)等技术的出现,为统一处理眼底彩照、OCT等多模态影像提供了新范式。报告将重点介绍课题组利用大模型在糖尿病视网膜病变、青光眼等疾病的筛查、病灶分析等任务的进展,并分析其面临的挑战与未来展望。
讲者简介:陈新建,苏州大学二级教授、博导,国家重点研发计划项目首席科学家,苏州大学医学影像处理与分析实验室主任。主持国家重点研发计划变革性技术专项项目,973青年科学家项目(首席科学家),国家自然科学基金委优青、联合重点、面上项目、江苏省自然科学基金重点项目等。主要研究方向为医疗人工智能,特别对眼科人工智能进行了系统深入的研究,包括眼科成像设备研发、眼科影像人工智能诊断及其临床应用。担任医学领域顶级期刊IEEE Transactions on Medical Imaging、IEEE Journal of Translational Engineering in Health and Medicine等副主编,IEEE高级会员,中国生物医学工程青年委员会副主任委员。截至目前共发表180多篇SCI期刊论文;申请中国发明专利130余项(70余项已获授权),申请国际PCT专利6项。所开发的眼科医学影像处理分析软件,全自动人工智能OCT设备,人工智能干眼诊断仪,人工智能视力筛查仪等均批国家NMPA医疗器械二类证6张,其中人工智能OCT在全国爱眼日6月6日被中央卫视报导,上述产品已在800+医院正式临床应用,服务人数超80万。获得中国国家科学技术进步二等奖1项,吴文俊人工智能技术发明一等奖1项(排名第一),江苏省科技进步奖二等奖1项(排名第一),江西省科技进步奖二等奖1项(排名第一)等。
从统一像素分割到统一像素多模态大型语言理解
李祥泰 研究科学家 ⋅ 字节跳动
报告摘要:在计算机视觉和多模态研究领域,SAM(分割一切模型)和 LLaVA 是两项具有代表性的成果,分别用于场景理解和视觉语言建模。SAM 能以交互方式将各类图像分割为与类别无关的掩码,还支持 “分割一切” 模式;LLaVA 则搭建起视觉嵌入与大型语言模型之间的桥梁,并提供了出色的开源代码库。在本次研究报告中,我将介绍自己团队在 SAM 和 LLaVA 基础上开展的几项研究工作,内容分为感知和视觉语言理解(多模态学习)两个部分。
第一部分将介绍三项工作:为兼顾效率与语义学习,我们提出了 RAP-SAM—— 这是一种新型实时分割模型,可一次性完成全景分割、视频分割和类 SAM 分割任务;为突破识别能力的局限,我们设计了一个简洁的框架,名为 “开放词汇 SAM”(Open-Vocabulary SAM),能够对超过 2.2 万个概念的每个掩码进行分割和标注;为将 SAM 的功能扩展到通用感知领域,我们提出了 OMG-Seg,这是首个能在单个模型中实现十多种不同分割任务的分割模型。
第二部分将介绍 OMG-LLaVA、Sa2VA 和 DenseWorld。第一项工作 OMG-LLaVA 是一个通用多模态大型语言模型,将图像级、对象级和像素级的感知、推理与对话能力整合到一个端到端模型中;Sa2VA 则将 SAM-2 与类 LLaVA 的视觉语言模型(VLM)系统相结合,可一次性完成交互式图像和视频理解任务,包括目标定位、分割和开放式问答等;为填补密集分割与密集细节描述之间的空白,我们提出了 DenseWorld,这是首个包含 100 万条真实世界详细带定位描述的数据集。所有相关代码、模型和数据集均已向社区公开。
讲者简介:李祥泰博士目前担任字节跳动新加坡公司的研究科学家。他此前在南洋理工大学多媒体实验室(MMLab@NTU)担任博士后研究员,师从Chen Change Loy教授。他在北京大学获得博士学位,师从童云海教授。他的主要研究领域包括多模态学习和视频理解,在计算机视觉领域的顶级国际会议和期刊(如 CVPR、ICCV、ECCV、PAMI、IJCV、AAAI)上发表了多篇第一作者论文。他担任众多顶级会议和期刊的审稿人,还在 2025 年的国际学习表征会议(ICLR)、国际机器学习会议(ICML)、国际计算机视觉大会(ICCV)、美国人工智能协会年会(AAAI)、冬季计算机视觉应用会议(WACV)、神经信息处理系统大会(NeurIPS)中担任领域主席。
面向低空具身智能体的多模态感知与自主决策
俞俊 教授 ⋅ 哈尔滨工业大学(深圳)
报告摘要:近年来,多模态模型的快速发展显著推动了具身智能体在感知理解、动作规划与自主决策等方面的能力提升。作为典型应用形态,低空自主智能无人机在低空经济快速发展的背景下受到广泛关注。然而,其在复杂环境中的感知精度、自主导航与控制决策能力仍面临诸多挑战。为提升系统的智能化水平,学术界与产业界围绕多模态感知、自主决策等关键技术持续开展深入研究。报告将系统梳理低空具身智能的最新研究进展,并探讨未来的发展趋势与关键技术路径。
讲者简介:俞俊,国家杰出青年基金获得者,现任哈尔滨工业大学(深圳)智能科学与工程学院院长、二级教授、博导。浙江大学计算机学院本科、博士,新加坡南洋理工大学博后。曾分别入选国家优青与青年长江等人才计划。主持基金委重点项目、科技部重点研发项目、省杰青人才项目等。致力于图像处理与分析、多模态内容理解的研究。发表IEEE/ACM Trans及CCF A类论文百余篇,授权国家发明型专利30余项,谷歌引用2.3万余次。任IEEE TMM、TCSVT、Pattern Recognition等汇刊编委。曾以第一作者获IEEE TMM, TIP, TCYB等期刊的最佳论文奖,获省自然科学一等奖 2021(排名第一)。成果在人民日报、阿里等落地。
面向复杂天气的可泛化点云分割研究
胡平 教授 ⋅ 电子科技大学
报告摘要:激光雷达(LiDAR)语义分割技术在自动驾驶与智能感知等领域具有重要应用价值,但在雨、雾、雪等恶劣天气条件下,现有方法常面临性能显著下降的挑战。当前研究多依赖数据增强或模拟手段来提升模型泛化能力,但仍存在适应性差、训练成本高等问题。本次报告将介绍我们团队在鲁棒激光雷达语义分割方向的最新研究进展。我们提出一种新颖的建模框架,通过对点云中几何与反射特征的合理解耦与协同融合,在无需复杂数据增强的前提下,实现了更强的鲁棒性与跨场景泛化能力。报告将围绕该方法的核心思想、实验验证及未来应用潜力展开分享,期待为复杂环境下的3D感知研究提供新的思路与启发。
讲者简介:胡平,电子科技大学计算机科学与工程学院教授,国家级青年人才,四川省特聘专家。主要研究方向为复杂场景的感知与理解,在 TPAMI、CVPR 等国际顶级期刊与会议发表论文 50 余篇。担任 Pattern Recognition、ACM Computing Surveys 等期刊编委,以及 CVPR、NeurIPS、ACM MM、ICML、IJCAI 等会议领域主席。
小样本3D点云语义分割
刘云 教授 ⋅ 南开大学
报告摘要:本次报告将围绕小样本三维点云语义分割(Few-Shot 3D Point Cloud Semantic Segmentation, FS-PCS)展开,探讨当前问题设置中存在的两个主要问题:前景泄漏和稀疏点分布,揭示了引入一个标准化的FS-PCS设置的重要性。其次,还将介绍一种新颖的FS-PCS模型:与以往主要通过优化Support特征来增强Prototypes的特征优化方法不同,我们的方法是基于相关性优化的(Correlation Optimization),即优化语义类别与特征的相关性。另外,本次报告还将探讨多模态信息对于FS-PCS的辅助意义,在不增加模型推理成本的前提下,重点讨论如何在模型训练中用文本、2D图像等多模态信息来增强3D点云在小样本问题中的表征能力。此外,针对通用小样本三维点云分割(Generalized Few-Shot 3D Point Cloud Segmentation, GFS-PCS)往往受限于小样本提供的稀疏知识的问题,本次报告介绍了一个名为GFS-VL的GFS-PCS框架,该框架利用三维视觉-语言模型(3D Vision-Language Models, 3D VLMs)在新类别泛化方面的出色能力,结合了来自3D VLMs的密集但噪声较大的伪标签与精确但稀疏的小样本,以最大化两者的优势,并引入了两个具有多样化新类别的测试基准,用于全面评估模型的泛化能力。除此之外,还将简要介绍我们将相关性优化应用于视频分割方面的工作,以及如何利用Mamba 状态空间模型以进一步提升视频分割效果。
讲者简介:刘云,南开大学计算机学院教授,博导,国家级青年人才。分别于2016年和2020年从南开大学获得本科和博士学位,曾在瑞士苏黎世联邦理工学院担任博士后,曾任新加坡科技研究局高级研究员。主要研究方向为人工智能、计算机视觉、多模态学习、基础大模型、医学图像分析等。在CCF A类 / SCI一区刊物上发表学术论文数十篇,含IEEE TPAMI论文14篇、ESI热点论文两篇、ESI高被引论文8篇。论文谷歌学术引用9000余次,单篇一作最高引用1400余次。研究成果被应用于北京推想科技、日本KDDI、北京金风科技、SuperAnnotate、航天三院等公司/单位。曾获得天津市优秀博士学位论文奖、吴文俊人工智能自然科学奖二等奖,连续多年入选斯坦福全球前2%顶尖科学家榜单。