报告摘要:模型参数测试时自适应(Test-Time Adaptation, TTA)是提升视频模型在未知场景下鲁棒性与泛化能力的重要途径。然而,在动态视频理解中,TTA仍面临以下三大挑战:1)运动建模不足:视频特有的时空关联性被忽视;2)模态利用单一:音频等伴随信息未得到充分挖掘;3)优化效率低下:传统方法收敛速度较慢、适应过程耗时较长。为此,我们提出了应对方案:1)动态感知增强:设计基于快慢采样的特征对齐机制,通过跨速率的交互建模捕捉运动线索,提升模型对动态场景的自适应能力;2)跨模态协同进化:构建音频辅助的视频TTA框架,利用预训练音频模型与大语言模型进行语义映射,实现音视频联合优化;3)高效优化引擎:提出基于学习的测试时元梯度优化器,通过历史信息的压缩、记忆与重用在保证准确度的同时降低计算开销,实现快速、稳定的在线自适应。
讲者简介:曾润浩,博士,深圳北理莫斯科大学长聘副教授,北理工博导。广东省重大人才工程青年拔尖人才,深圳市科技创新人才,深圳市鹏城孔雀人才,广东潮博智库专家。研究领域为计算机视觉、多模态数据分析,核心方向包括视频动作识别、情绪识别等,在IEEE TPAMI、IEEE TIP、CVPR等国际顶级期刊和会议发表论文20余篇,谷歌学术总引2000余次,单篇最高引600余次。所提出的视频时序动作分析方法在THUMOS14权威基准连续14个月排名全球第一。近三年主持国家自然科学基金项目、广东省教育厅重点领域项目等纵向科研项目7项。获中国图象图形学学会优博提名奖,IEEE计算机学会杰出组织奖,成果入选CVPR 2024最佳论文候选。受邀担任NeurIPS、CVPR等人工智能领域顶级会议和TPAMI、TIP等权威期刊的程序委员会委员和审稿人。担任国际会议2024 IEEE SmartIoT本地主席、2023 CSIG青年科学家会议论坛主席,CSIG多媒体专委会委员,广东图象图形学会计算机视觉专委会委员