第十八届中国图象图形学学会青年科学家会议–图像视频处理与理解专题

报告嘉宾

张兆翔
中科院自动化研究所

报告题目：视频场景理解：从2D感知到4D融合

讲者简介：博士，研究员，博士生导师，中国科学院自动化研究所研究员，中国科学院大学岗位教授，中国科学院脑科学与智能技术卓越创新中心骨干，香港理工大学兼职教授。入选“教育部CJ学者奖励计划”、“国家万人计划青年拔尖人才”。研究兴趣包括：模式识别、计算机视觉与深度学习，具体研究方向包括：视觉认知计算、类脑学习和面向开放环境的视觉感知与理解，在本领域国际主流期刊与会议上发表论文200余篇，近五年来在IEEE T-PAMI、IJCV、JMLR、IEEE T-IP、IEEE T-NN等顶级期刊与CVPR、ICCV、ECCV、NIPS、AAAI、IJCAI等顶级会议发表论文100余篇，授权专利20余项，承担了国家自然科学基金重点项目、国家自然科学基金企业联合重点项目、国家重点研发项目、总装备部重点项目等多项国家级科研项目，是IEEE高级会员，VALSE常务AC，中国计算机学会CCF杰出会员、中国人工智能学会CAAI杰出会员、中国人工智能学会CAAI副秘书长，是或曾是IEEE T-CSVT、Patten Recognition、NeuroComputing编委，担任CVPR、ICCV、AAAI、IJCAI、ACM MM、ICPR、ACCV等国际会议的领域主席。

报告摘要：视觉场景感知是计算机视觉与模式识别领域的经典问题，对于探索场景表征于认知激励具有重要的意义，在机器人、自动驾驶、遥感分析等领域具有广泛的应用价值。当前，以物体检测为代表的视觉场景感知方法往往依托深度学习的方法，通过提取环境数据中的表征信息和模式特征，实现对场景的有效分析、认知与表达。传统的视觉目标检测以2D图像数据为研究基础，完成静态2D图像上的检测任务。而近年来，随着3D采集技术的迅速发展， 3D点云数据不断普及，实现由2D图像到3D点云，由3D静态数据到4D时序动态数据的演变，为多维环境感知带来了新的挑战和机遇。而如何从大量的3D点云数据和4D时序数据中获取有用的信息，更好的实现场景理解，是目前计算机视觉研究的重要内容。本报告从2D视觉场景检测技术出发，探讨基于3D空间信息以及4D时空信息的视觉场景感知方案，构建通用的2D目标检测框架、高效3D目标检测方案以及无监督的4D目标检测框架等。

曹汛南京大学

报告题目：计算摄像的奇妙之旅

讲者简介：主要从事计算摄像学的交叉领域研究，提出了棱镜-掩模调制的光谱视频成像方法(PMVIS)并研制了系列光谱相机装置，被国际上广泛报道为光谱视频成像的三种代表性技术之一，光谱融合的关键技术被写入M.I.T.最新出版教材<Computational Imaging, 2022>。研究成果成功应用于安全侦察、工业检测等重点行业领域，因“光谱视觉预警技术在监控化工介质泄漏、保障安全生产的重要贡献”获第26届中国青年五四奖章。近年来在Nature子刊、信号处理（IEEE SPM、T-PAMI）等交叉领域发表论文37篇，授权国内外发明专利51项，受邀撰写Springer视觉大百科全书《多光谱/高光谱成像》章节。担任 IEEE T-CSVT、IEEE SPL 期刊编委、CVPR 领域(计算摄像)主席。

报告摘要：视觉占据了人类和客观世界交互总信息量的80%左右，从公元前400年墨子描述“小孔成像”到哈勃望远镜、显微镜/显纳镜，再到现在数以十亿计的手机摄像头和车载摄像头，超越人眼的视觉信息获取和处理能力，一直是人类孜孜以求的目标，形成了一系列璀璨夺目的变革式技术。计算摄像学是视觉信息获取的前沿交叉方向，旨在综合运用电子、计算机/人工智能、光学等多学科知识，拓展全新成像理论与方法，构建新型成像技术及装置，实现“看得更远、看得更清、看得更广”等目标。本报告从多维度视觉信息获取的国内外前沿向大家呈现计算摄像的奇妙之旅。

范晓鹏
哈尔滨工业大学

报告题目：信源信道联合编码——从图像到任务

讲者简介：哈工大计算学部长聘教授、博导、智能接口与人机交互研究中心主任、人工智能专业负责人、国家重点研发计划首席。先后入选长江学者、新世纪优秀人才、哈工大拔尖人才、微软铸星计划、哈工大百人计划等。2009年于香港科技大学电子工程系获博士学位。2013年获IEEE标准杰出贡献奖。2022年获电子学会创新团队奖。目前主要研究兴趣包括数字媒体技术、人工智能等，发表国际期刊和会议论文150余篇，获发明专利20余项，十余项技术被国际/国内标准采纳，作为副主编及主要起草人之一，制定了IEEE视频编码标准《IEEE 1857.2》。主持国家重点研发计划项目、国家自然科学基金重点项目等国家级项目5项。2017年作为程序主席主办CCF推荐会议PCM2017。2022年起担任中国计算机产业协会元宇宙专委会副会长、上海市元宇宙产业发展专家委员会委员等。

报告摘要：图像视频已占互联网流量的90%，且仍在不断增长。随着视频编码技术进步以及标准迭代，视频压缩效率不断提升。然而经过压缩的视频对于比特错误比较敏感，如何提升无线传输条件下视频抗噪能力，是目前仍然需要解决的问题。本报告将首先回顾传统信源信道联合编码、数模混合视频通信等技术，然后介绍新兴的为视频编码带来较大效率提升的AI技术，包括基于深度学习的视频编码、基于深度学习的多任务编码等，并探讨这些技术应用于信源信道联合编码的新思路和新途径。

刘家瑛北京大学

报告题目：暗光影像增强计算

讲者简介：博士，北京大学王选计算机研究所副教授，博士生导师，教育部青年长江学者，北京大学博雅青年学者，研究领域为智能媒体计算与视觉理解。累计发表IEEE汇刊与CCF A类论文80余篇，其中ESI高被引论文2篇，谷歌学术引用9500余次，获得授权国家发明专利70余项。担任APSIPA杰出讲者，IEEE/CSIG/CCF高级会员，IEEE CASS-MSA/VSPC技术委员会委员，CSIG多媒体专委会秘书长。担任多个顶级期刊编委，及多个国际会议程序委员会主席/领域主席。获教育部科技进步二等奖、CSIG石青云青年女科学家奖、北京大学首届教学卓越奖、王选青年学者奖，IEEE ICME 2020最佳论文奖等。

报告摘要：在低光照场景下进行图像/视频拍摄会导致一系列的视觉降质问题，例如暗光、欠曝、低对比度以及强噪声等。这些视觉降质既对人眼主观视觉体验造成干扰，又对计算机视觉应用构成影响。我们的工作试图系统性地探究低光照增强方法在两类情境中面临的挑战，以及如何通过暗光照增强提升两类应用的可用性和鲁棒性。通过以暗光环境下重建和检测的Benchmark为切入点，探讨底层视觉增强与高层视觉感知之间的联合关系，以期进一步提升智能影像计算性能。

邓伟洪
北京邮电大学

报告题目：视觉识别：从可用走向可信

讲者简介：北京邮电大学鸿雁人才特聘教授，网络空间安全学院副院长，研究方向为计算机视觉与模式识别、可信人工智能、情感计算、多模态学习。近年来主持国家重点研发计划课题、国家自然科学基金等项目30余项，与华为、中兴通讯、滴滴出行、阿里巴巴、腾讯、中国移动、佳能信息技术公司等企业开展广泛的技术合作，在IEEE TPAMI、IJCV、TIP、 ICCV、CVPR等国际期刊和会议上发表论文100多篇，累计被引用万余次，曾担任ACM MM、ECCV、IJCAI、ICME、ICPR等会议的领域主席，入选北京市优秀博士学位论文、北京市科技新星、教育部新世纪优秀人才、教育部青年长江学者、Elsevier中国高被引学者等。

报告摘要：海量标注数据和深度学习技术推动了视觉识别的广泛应用，现有模型在数据集上的性能已经超越人眼。然而，在真实世界中，训练和测试的环境差异、地区差异、伪造和对抗攻击等挑战导致大部分视觉识别应用的稳定性仍不理想，甚至造成种族偏见等伦理问题和伪造人脸等安全问题等。同时，隐私保护和数据安全也引起了人们的广泛担忧。本报告将从数据集建设、深度学习算法和性能评价等角度，汇报近期在以下方面的研究进展：1）高精度识别模型的自主学习；2）识别鲁棒性及SL/CA/CPLFW数据集；2）安全及隐私保护和TALFW数据集；3）识别公平性及RFW数据集；4）连续空间细粒度情感识别及RAF-ML/RAF-AU数据集。