博士生论坛

会程安排

9 月 19 日 上午

分论坛主席

贾潇
教授 ⋅ 山东大学
贾潇,山东大学控制科学与工程学院教授、博士生导师。入选国家级高层次青年人才,山东大学杰出中青年学者(第一层次),山东省泰山学者青年专家,山东省优秀青年科学基金项目(海外),承担国家和省部级自然科学基金多项。山东大学自动化系本科,香港中文大学电子工程系博士,美国斯坦福大学博士后。依托机器智能与系统控制教育部重点实验室、人工智能与系统控制研究所开展研究工作,主要研究方向包括机器学习、多模态智能感知、视觉-语言大模型、智能医疗系统等。在PIEEE、EU、TASE、ICRA、IROS、MICCAI等国际学术期刊及会议上发表论文40余篇。
杨鹏
副教授 ⋅ 华中科技大学
杨鹏,华中科技大学电信学院副教授,主要从事多媒体通信、虚拟现实、视频分析等方向研究;撰写出版全英文专著一部,在IEEE TMC、TCSVT、ACM MM等高水平学术期刊和会议发表第一作者/通信作者论文30余篇,获“最佳论文奖”3次;论文累计被引5200余次;主持国家自然科学基金、湖北省自然科学基金、华中科技大学自主创新基金等项目。任中国图象图形学学会青年工作委员会副秘书长,入选中国科协青年人才托举工程,连续三年入选斯坦福大学“全球前2%顶尖科学家年度榜单”(2022-2024),指导学生获2024年挑战杯“揭榜挂帅”专项赛全国一等奖。

分论坛报告

数据为中心的图像标签协同优化
宋子帆 同济大学
报告摘要:当前深度学习研究多聚焦于模型优化,而静态、次优的训练数据本身同样为性能瓶颈。本报告聚焦于一种以数据为中心的学习范式:通过协同优化视觉输入与监督信号,突破静态数据集的局限,引导模型进行更高效、更鲁棒的学习。该范式主要通过两种技术路径实现:(1) 基于解析优化的微扰学习:通过构建关于数据扰动的可微分目标函数,以解析优化的方式,计算微小且精准的图像与标签扰动量对其进行针对性修正;(2) 基于生成式合成的内容编辑:基于扩散模型与大语言模型,依据属性参考对图像内容和文本描述进行一致性编辑,生成大量风格统一、内容多样的定制化训练样本对。本报告旨在系统阐述“数据为中心的协同优化”作为一种通用的性能增强策略的有效性,为拓展视觉模型泛化能力提供研究思路与实践方向。
讲者简介:宋子帆,同济大学博士生,师从赵才荣教授,本科毕业于同济大学。曾在上海人工智能实验室、微软亚洲研究院等机构实习。在NeurIPS、ICML、AAAI等国际期刊会议发表一作论文4篇,主要研究方向为多模态学习、大模型微调。
面向医学图像分割的自适应方法研究:从专用模型到通用模型
林娴 华中科技大学
报告摘要:医学图像分割作为计算机辅助诊断系统的核心技术,旨在对医学成像数据中的重要器官、组织、病灶等进行像素级标识。根据应用场景与目标,医学图像分割模型可以分为专用模型和通用模型,二者分别面临数据特性与任务需求层面的挑战:一方面,由于医学图像数据普遍存在样本分布特征趋同、图像信噪比低以及目标形态复杂多变等特性,专用模型易出现感知冗余严重、注意力崩塌及形态感知失真等问题;另一方面,受限于医学图像任务的高专业性及目标特征的强相似性,通用模型在单模态应用中过于依赖人工提示,在多模态应用中则面临多目标并行分割的目标区分难题。本报告围绕上述挑战,针对性地介绍面向专用模型的结构自适应方法与面向通用模型的任务自适应方法,旨在突破数据特性与任务需求的瓶颈,提升智能医学图像分割模型的精度与临床适配能力。
讲者简介:林娴,华中科技大学博士生,师从喻莉教授。研究方向为智能医学影像分析、高效Transformer、多模态基础模型等。以第一作者在TMI/JBHI/MICCAI等国际顶级期刊会议中发表论文7篇。主持中央高校基础科研基金项目1项。担任TMI/TIP/MICCAI等国际期刊会议审稿人。曾获MICS学生竞赛全国一等奖、MICCAI杰出审稿人提名等。
面向可信与高效的图结构数据机器学习方法研究
苏骏炜 香港大学
报告摘要:图结构数据在社交网络、药物发现、芯片设计等领域广泛存在,传统图论方法难以处理其复杂性和动态性,而基于图神经网络(GNN)的图学习方法则能有效捕捉节点之间的依赖关系。然而,现有的GNN方法在泛化性、动态适应性及生成性能方面仍存在不足,影响了其在关键领域中的可信性与高效性。针对这些问题,本研究聚焦于提升GNN的理论理解与实际性能,并在以下方面取得重要进展:首先,通过构建静态与动态图学习的数学框架,系统性地揭示了GNN的学习动力学特性与泛化性能之间的关系;其次,创新性地提出了图生成模型的非渐近收敛分析方法,为提升生成稳定性提供了理论保障。这些成果不仅深化了对GNN的理论认识,也为实际应用提供了可靠的方法指导。
讲者简介:苏骏炜,香港大学计算机科学博士候选人,获香港政府博士奖学金。拥有多伦多大学计算机科学硕士学位及英属哥伦比亚大学计算机工程与纯数学学士学位。研究方向为图学习算法,理论与系统,聚焦图神经网络(GNN)、持续学习、优化理论及生成模型。他已发表论文20余篇,其中多篇以第一或通讯作者身份发表于ICML、ICLR、KDD、EuroSys、VLDB、AAAI和ECCV等国际会议。担任NeurIPS、ICML、ICLR、KDD等会议及TNET、TKDE、TNNLS等期刊审稿人。
面向开放场景的视频分割
方豪 山东大学
报告摘要:视频分割技术在开放场景下面临两类核心挑战:词汇空间的开放性(如未知类别分割)与语义理解的开放性(如文本指代分割)。本报告聚焦我们发表的两项视频分割研究,分别从统一嵌入对齐与视频任务解耦角度,提出了适应性解决方案。在开放词汇视频实例分割任务中,现有方法因视觉语言模型(VLM)与分割模型的域差距,难以泛化新类别。我们通过轻量级统一嵌入对齐模块,融合VLM与视频级实例查询特征,弥合模型间表征差异。针对文本指代视频分割任务,传统方法将文本信息直接注入视频分割模型,导致训练成本高。我们将任务解耦为视频实例分割与运动表达理解,利用预训练的视频实例分割模型初始化运动查询,大幅降低优化难度。此外,本报告还将分享我们在两届视频分割竞赛的冠军方案,探索视觉基础模型和多模态大模型在视频分割上的应用。
讲者简介:方豪,山东大学在读博士生,导师为丛润民教授,研究方向为图像/视频分割。在CVPR, ECCV, ACM MM等国际会议和期刊发表多篇论文。获得CVPR 2025像素级视频理解竞赛冠军,ECCV 2024大规模视频目标分割竞赛冠军。
面向具身智能的模型与数据评测框架
李春一 上海交通大学&南洋理工大大学
报告摘要:具身智能近年来发展迅猛,但评测逐渐成为制约其上限的“隐形天花板”:一方面,具身模型支持的硬件形态、操作系统接口、传感器配置千差万别,行业缺乏统一的评测协议,难以横向比较算法优劣;另一方面,具身数据普遍存在抖动、噪声、重复等问题,选择适合目标任务的高质量数据,已是开发者每天都要面对的难题。为填补具身智能领域“模型-数据”协同评估的空白,本团队依托国家标准,提出了一套全栈式评测框架,覆盖“感知-认知-决策-执行”四大维度,形成可复现、可扩展的行业基准。该框架已上线大司南-具身评测平台,提供在线评测、排行榜与报告自动生成,助力产学研快速验证算法、提升数据质量、加速产品迭代
讲者简介:李春一,上海交通大学&南洋理工大学联授博士生,上海人工智能实验室评测专项组成员,师从翟广涛教授与林维斯教授,主要研究方向为具身感知,多模态大模型。以第一作者发表TIP, CVPR, ICCV等中科院一区期刊/CCF-A类论文7篇,被引1500余次,单篇被引百余次。曾首次提出面向具身智能的质量评估,与首个大模型图像压缩框架,获CVPR满分论文。相关技术贡献于国家标准工作组,国家重点研发计划各一项。
大语言模型压缩中结构化剪枝方法研究
杨茗喆 中国科学技术大学
报告摘要:大语言模型(LLMs)在各类人工智能应用中引发了革命性的变革。然而,其数十亿级的参数规模给实际部署带来了巨大挑战。结构化剪枝作为一种对硬件友好的压缩技术,受到了广泛关注。尽管如此,现有文献通常仅针对 LLM 中的单一结构进行剪枝。我们观察到,LLM 的不同结构单元在推理开销和功能上存在差异。因此,单独剪枝某一结构单元常常导致性能与效率之间的失衡。此外,现有工作大多采用预设的固定剪枝比例。由于 LLM 各模块的重要性可能存在差异,理想的做法应是根据其在模型中的角色,按需分配剪枝负载。为解决上述两个问题,我们提出了一种面向多个 LLM 模块、具有动态剪枝比例的剪枝方法。具体而言,我们发现,LLM 的内在特性可以用于指导判断模块重要性,从而实现按需分配剪枝负载,即决定剪哪些模块以及剪多少。该过程通过量化LLM内部的复杂交互关系实现。我们在多个任务和不同类型的 LLM 上进行大量实验,实验结果表明该方法在性能与效率之间实现了更优的平衡。
讲者简介:杨茗喆,中国科学技术大学一年级博士生,导师为常晓军讲席教授。本科就读于山东大学,期间获得全国大学生电子设计竞赛全国一等奖、学业一等奖学金1次、山东大学优秀毕业生。后推荐免试保研至中国科学技术大学电子工程与信息科学系攻读工学博士学位(硕博连读学制)。硕博连读期间获得硕士一等奖学金2次、博士一等奖学金1次。硕士期间研究方向为雷达信号处理;博士期间研究方向包括大语言模型的高效推理与压缩。以第一作者在国际顶级人工智能会议ICML2025上发表论文1篇,在EI国际会议上发表论文1篇,以第三作者向国际顶级期刊 TPAMI 投稿论文1篇。
面向开放世界提示学习的一致评估与优化
华聪 中国科学院计算技术研究所
报告摘要:视觉-语言模型的提示学习以极低的训练成本实现了对新任务的快速适应。在实际开放世界场景中,模型不仅需要区分样本是否来自已知领域(基类),还需准确分类未知领域(新类)的样本。现有评价指标在检测能力、分类性能与领域分布鲁棒性三方面难以兼顾,导致模型能力评测与实际需求存在不一致。本报告围绕“开放世界提示学习”任务,提出一种统一评测与优化范式:OpenworldAUC指标及其优化框架。该指标通过样本对比的方式,将“领域检测”与“类别分类”统一到一个评测标准下,并通过基于门控机制的混合提示策略,实现对多任务目标的分而治之优化,有效解决多任务冲突与泛化难题。理论分析与开放世界基准实验验证了该方法在复杂领域分布下的稳定性与优越性能。本报告旨在分享“开放世界提示学习”评测与优化体系上的探索与思考,助力视觉-语言模型向更通用、更鲁棒的方向演进。
讲者简介:华聪,中国科学院计算技术研究所博士生,师从黄庆明教授和许倩倩研究员。主要研究方向为多模态学习、大模型微调等。目前在国际会议ICML发表一作论文2篇,获得CVPR国际竞赛冠军2项。担任ICML/NeurIPS/ICLR/TCSVT/TNNLS等会议和期刊审稿人。
样本自适应的智能图像压缩方法
匡浩玮 北京大学
报告摘要:端到端图像压缩技术致力于通过神经网络参数建模图像信号的复杂分布来消除冗余,但现有离线训练方法存在明显局限——其估计的分布仅能反映通用图像特征,无法适配单张图像的个性化特征。为解决这一问题,在线优化技术应运而生,旨在通过在编码过程中调整压缩模型的信号分布估计,使其更加适配特定图像的真实统计特性,实现更好的压缩性能。本报告介绍了一种跨粒度的在线优化策略,从统计分布与局部结构双重维度切入:在统计分布层面,构建了一个数据依赖的变换策略以在线学习特定图像的分布,并引入自适应量化参数动态调整机制防止信息坍缩;在局部结构层面,设计了掩模选择性补偿模块,实现低码率条件下结构特征的稀疏编码。这种全局与局部分布的协同优化,使压缩过程中的信号分布更贴近真实图像统计特性,从而进一步提升端到端图像压缩的性能。
讲者简介:匡浩玮,北京大学王选计算机研究所三年级博士生,导师为郭宗明研究员与刘家瑛教授,主要研究方向为智能图像压缩与增强技术。在ICCV/ACM MM/TOMM等国际高水平期刊与会议上以第一作者身份发表多篇论文,并作为核心成员参与参与IEEE DCSC FVC (Future Video Coding)标准组相关工作,参与开发全球首个端到端图像压缩国际标准IEEE Standard 1857.11-2024。
面向多失真场景的人脸质量优化技术
刘铁 北京航空航天大学
报告摘要:近年来,视频已逐渐成为互联网核心业务,其中大多数视频包含人脸,是视频中的感兴趣区域,与人类视觉感知紧密相关。然而,海量人脸视频受到环境和带宽等限制,会在传输过程中引入块效应等多种失真,极大影响用户的观看体验。因此,亟需研究面向多失真场景的人脸质量优化技术。本报告从人脸质量优化的背景和现状出发,进而介绍在质量优化方面的研究进展,包括人脸语义先验的挖掘和语义嵌入的人脸质量优化技术,最后介绍质量优化对于改善用户体验、机器视觉任务等方向的未来展望。
讲者简介:刘铁,北京航空航天大学电子信息工程学院在读博士生,师从徐迈教授和李胜曦教授,主要研究方向为视频语义表征、评价及优化等关键视觉技术研究,在IEEE TPAMI、TCSVT、ACM MM等期刊会议上发表学术论文11篇,在ISO、IEC国际标准组织贡献提案3项,授权国内外专利2项,另有2项专利已受理,获得国家奖学金、北航优秀研究生等。
基于多智能体的科学发现系统
袁家康 复旦大学
报告摘要:随着大模型的发展及各类AI辅助科研工具的出现,科学研究范式正在经历从完全人类驱动到AI自动化的深刻变革。多智能体系统通过真实的任务拆解和角色分工,使复杂项目的实现和执行成为可能,展现出强大的任务规划、协同推理和持续学习能力。本次报告将围绕Dolphin和InternAgent,探讨如何利用多智能体系统开发具备领域理解与创新能力的科学发现系统,并通过有效的协作机制提升系统在假设生成、代码实现、方案设计和实验验证等方面的准确性与可信度,实现复杂科学问题的自主探索与全流程闭环自主研究。
讲者简介:袁家康,复旦大学三年级博士生,师从陈涛老师。他的研究兴趣涵盖多模态大模型,多智能体系统以及3D视觉。他在计算机视觉顶级期刊和会议如CVPR、ICCV、ECCV、NeurIPS、IEEE TPAMI上发表论文十余篇,其中一作/共一8篇,他担任多个顶级会议和期刊的审稿人。获得国家奖学金等,参与项目Github Star累计1.5K余次。