CSIG中国图象图形学会-青年委员风采-张盛平

发布时间:2024-05-29 10:51:43 人气: 作者:小编

【青年委员风采】- 张盛平

CSIG中国图象图形学会-青年委员风采-张盛平(图1)

简介:张盛平,哈尔滨工业大学长聘教授、青年科学家工作室学术带头人,鹏城国家实验室访问教授。美国布朗大学博士后、香港浸会大学博士后、美国加州大学伯克利分校访问学者。入选国家级青年人才计划、山东省泰山学者青年专家、哈尔滨工业大学青年拔尖人才计划(副教授、教授)、人社部香江学者人才计划。主要研究方向为计算机视觉和机器学习等。主持国家自然科学基金4项、华为公司项目10余项。研究成果获黑龙江省自然科学二等奖(2019年、2015年)、军队科学技术进步二等奖(2017年)、河南省科技进步二等奖(2023年)。发表学术论文80余篇(包括PNAS、IEEE T-PAMI、IJCV、ICML、CVPR、ICCV和SIGGRAPH等)。


委员亮点工作介绍

  • 基于3D高斯的实时可驱动数字化身建模

实现从单目视频中建模实时可驱动的数字化身主要面临两个挑战:如何高效表达数字化身以及如何学习驱动信号与人体外观的映射关系。基于此,团队提出了基于3D高斯的实时可驱动数字化身建模方法,将静态3D高斯扩展为可驱动的3D高斯,并进一步通过神经网络学习驱动信号与人体外观的隐射关系。1)提出了一种基于线性混合蒙皮的可驱动3D高斯表达,将3D高斯与人体模板结合,能够高效表达人体和人脸的驱动过程,实现了数字化身的实时驱动。2)将驱动信号分为衣物驱动信号和表情驱动信号,分别控制数字化身的衣物外观变化和表情变化,并利用卷积神经网络和多层感知机学习二者的隐射关系,实现高真实感的数字化身驱动。


CSIG中国图象图形学会-青年委员风采-张盛平(图2)
图1. 基于3D高斯的实时可驱动数字化身建模


  • 基于频域扩散与时空注意力的低光照视频增强

针对现有低光照视频增强方法难以处理亮度与清晰度的联合退化、易产生运动模糊与闪烁伪影等时序不一致的问题,团队提出了基于频域扩散与时空注意力的低光照视频增强方法,1)利用频域特性与自然图像生成先验,有效解耦亮度与清晰度的联合退化,以零样本学习的方式实现图像亮度与清晰度的同步增强。提出了傅里叶先验引导的扩散采样方法,从预训练的扩散模型中提取符合人类视觉感知的亮度先验,使输入图像的亮度分布逐步符合自然图像的亮度分布。设计了空域与频域交替优化策略,逐步优化输入图像的相位,为扩散采样过程提供了结构清晰、内容一致的引导信息。2)利用时空联合注意力机制捕获视频帧内与帧间的长距离依赖,实现动态低光照场景的时空关联建模,缓解了现有方法处理动态场景时产生的闪烁、伪影等现象,在提高视频亮度的同时保持了时序上的稳定。此外,提出了无参考的可逆一致性损失函数和双向去噪损失函数,在无需真值标签的情况下实现了高质量的内容重建、噪声去除以及时序一致性保持。


CSIG中国图象图形学会-青年委员风采-张盛平(图3)
图2. 基于频域扩散与时空注意力的低光照视频增强


  • 事件相机数据感知的高速、高动态视频恢复

针对高速、高动态场景下,传统可见光相机面临运动模糊和动态范围有限的问题,借助事件相机数据不仅包含精确到微秒级的时间信息,还包括每一个像素点的亮度变化动态,团队提出了事件数据感知的运动模糊消除与高动态范围重建框架。1)通过设计时空特征聚合去模糊网络,隐式地融合不同时空尺度的事件数据,在保持视觉保真度的同时,对高速运动场景进行去模糊,并显著提升重建视频的清晰度。2)设计双流事件融合视频重建网络,利用长时事件数据流所包含的低频信息重建图像色彩,利用短时事件数据流所包含的高频信息重建纹理,实现高速、高动态视频亮度重建。最后,利用递归融合网络结合两个模型的清晰视频和亮度信息,得到高空间分辨率、高色彩动态的清晰视频。


CSIG中国图象图形学会-青年委员风采-张盛平(图4)
图3. 时间相机数据感知的高速、高动态视频恢复

委员专访

问:请问您的研究领域包括哪些?最近进展如何?

张盛平我目前的研究领域主要集中在三个方面:(1)3D视觉,包括三维场景的重建和渲染、三维数字人的建模、驱动与交互。在三维物体重建和补全,我们提出了多视立体匹配方法和新的基于网络的点云补全方法,相关工作Pix2vox和GRNet分别发表在ICCV2019和ECCV 2020,Google学术引用均达300余次。在数字人建模与驱动方面,我们提出基于可泛化3D高斯的实时新视点合成方法,基于3D高斯的实时可驱动人头和全身数字化身建模方法,相关工作发表于CVPR 2024和SIGGRAPH2024,部分成果应用于全息通信系统中。(2)事件相机,提出了基于时空隐式表达的事件运动去模糊方法,相关工作发表于ICML 2024。提出的长短时双流事件融合网络方法,参加CVPR 2024 PBDL workshop组织的 Highspeed HDR Video Reconstruction from Events 比赛,取得了第一名的好成绩。部分成果有望应用于下一代智能手机的融合摄影。(3)图像编辑和增强,在自然人像抠图方面,提出基于长距离特征传播机制的抠图方法,显著提升了高分辨率图像上的抠图精度。此外,首次针对抠图网络的上下文聚合机制系统分析,并为后续抠图网络的设计提供了指导。相关工作发表于ACM MM和ICML 2024,已有国外公司联系商用。在视频增强方面,提出基于频域扩散与时空注意力的低光照视频增强方法,相关工作发表于CVPR 2024,未来将应用于交通港口监控视频增强。


问:您的团队大致由多少人组成?与图像图形相关的团队有多少人?

张盛平我团队目前有教师5名,包括教授1名、副教授1名和讲师3名,其中国家级青年人才1人,哈工大青年拔尖人才2人。此外,还有1名博士生即将留校,另有2名博士生已经通过学校的春雁英才计划(毕业后留校)。除教师外,团队现有博士研究生10人、硕士研究生15人。团队所有成员均从事与图像图形相关的工作。我所在的计算机学院正在大力招聘优秀人才,也欢迎计算机视觉、机器学习相关方向的优秀人才应聘。


问:您对您未来的工作有什么展望?

张盛平人工智能的发展日新月异,新技术的迭代速度非常快,对我们在高校从事科学研究的老师和学生而言,机会变多了,挑战也变多了。如何在高校算力有限的情况下开展前沿的学术研究,如何将研究成果面向实际应用进行转化,是我未来几年关注的重点。在研究方向的规划上,尽量选择具有实际应用价值且有技术瓶颈的研究课题。更重要的是,多与国内大的企业合作,从企业中拿到真实的需求,并且借助企业的计算资源和数据,做出有影响力的工作。


问:在您招收研究生时,一般会倾向于招收具备什么技能的学生?

张盛平我在招收研究生时,第一看重的是学生的人品和性格,其次才是能力。我希望招收诚实、守信、有责任心、积极主动、阳光向上、易相处的学生。研究生阶段需要导师和学生有良好的交流和协作,好的人品和性格,能让交流和协作变得更轻松和高效。另外,读研是一个漫长的过程,会遇到不少困难和压力,积极的生活态度,也是战胜困难的重要法宝。我觉得能力是可以靠后天培养的,因此我在招收研究生时,如果发现学生的能力可能并不是特别突出,但只要是性格足够好,态度足够端正,我也会很乐意招收,并且在后面的培养环节,我会有针对性的锻炼学生的能力。我相信,只要学生和导师同心协力,一定会取得圆满的结果。