青年委员风采——贾旭

发布时间:2025-10-22 22:20:55 人气: 作者:小编

青年委员风采——贾旭(图1)

简介:贾旭,中国图象图形学学会会员,大连理工大学未来技术学院/人工智能学院副教授,入选国家级青年人才,大连市高端人才,比利时荷语鲁汶大学博士,从事计算机视觉与生成式人工智能领域的研究。在CCF-A类期刊和会议长文发表学术论文50余篇,Google学术引用11000余次,已申请和授权国内外发明专利20余项,成果获包括诺贝尔奖等权威学者正面评价,入选全球前2%顶尖科学家。主持3项国家级项目或重点项目子课题,研究成果获得CCF自然科学二等奖(序1)、华为“难题揭榜”火花奖、以及CVPR 形状恢复挑战赛冠军等多项学术奖励。多次担任ICLR、AAAI、ACM MM等AI和CV领域重要学术会议的领域主席和高级程序委员会委员。


委员亮点工作介绍

  • 基于奖励模型优化负嵌入的图像质量提升

在文生图任务中,负向文本已被证明是提高图像生成质量的简单且有效的方法。通常负向文本是研究人员借助经验手工挑选的,需要不断试错才能寻找到较好组合。但人工定义的搜索空间不完整,无法覆盖负向词组合,且带有主观倾向性,可能会导致退化的生成效果。为了提升图像美学质量,贾旭团队提出通过奖励引导学习负嵌入的端到端框架。具体创新包括:1)提出了训练时的推理方法,即在训练过程中按照推理过程,迭代去噪推理出干净的图像,利用预训练好的奖励模型,直接对图像计算奖励得分,然后进行梯度下降优化负向文本嵌入;2)为了引入负向文本嵌入,将无分类器引导整合进训练过程中,打破了CFG仅在推理阶段应用的局限,从而实现了有效的负嵌入学习;3)提出了一个可选操作,针对全局负嵌入自适应微调,以生成针对特定提示的自适应负嵌入。所提出的训练架构如图1所示,该方法学到的负嵌入在提高人类偏好对齐度方面具有显著优势,并且比空文本和手工构造的负嵌入更为有效。此外,学习到的负嵌入能够在相同的文本嵌入空间中展示强大的泛化能力。例如,使用相同的CLIP文本编码器,学到的负嵌入可以无缝转移到可控生成任务ControlNet及其他文生视频任务中,带来一致的性能提升。
青年委员风采——贾旭(图2)
图1. 基于奖励模型优化负嵌入的文生图框架

  • 可生成电影级视频的3D感知和可控框架

在计算机视觉和人工智能领域,文本到视频生成技术取得了飞速发展,能够让专业人士和新手仅凭文本描述即可创造出引人入胜的视频。为进一步提升视频创作的自由度和精准度,贾旭团队对可控文本到视频生成进行了深入研究,提出了具有3D感知能力的可控生成框架。该框架旨在赋予用户媲美专业电影导演的控制能力,包括对场景内物体、相机运动和每一帧画面的精确控制。其主要创新在于两阶段工作流和数据标注方法:首先提出了一个两阶段交互式工作流,第一阶段用户可在3D空间中直观地放置物体边界框并定义相机运动,构建3D感知控制信号,这类似于电影制作人布景的过程;第二阶段利用这些控制信号来指导文本到视频扩散模型生成用户意图的视频内容。其次,设计了语义布局注入模块和相机适配器,前者能够将3D空间布局与语义信息进行集成,后者则通过明确注入相机姿势来解决物体运动和相机运动之间的歧义,实现解耦控制。最后,为克服缺乏带有3D边界框和相机轨迹标注的大规模视频数据集的挑战,团队开发了一个自动化的数据标注流程,能够从真实世界视频中提取所需的数据,为模型的训练提供了关键数据。通过全面的定性和定量实验,该方法在可控文本到视频生成方面显著优于现有方法,并能实现突出的3D感知生成效果,成功实现了对场景布局、物体运动、类别以及相机运动的精确同时控制。
青年委员风采——贾旭(图3)
青年委员风采——贾旭(图4)
图2. 可生成电影级视频的3D感知和可控框架

  • 视觉语言模型物理先验引导的真实物理视频生成

视频生成模型在生成高真实感视频方面取得了显著进展,但由于缺乏对物理规律的内在理解,往往难以生成物理规律上合理的视频,导致动态效果和事件序列出现错误。针对这一挑战,贾旭团队提出了一个新颖两阶段图像到视频生成框架,旨在通过明确引入物理先验来解决该问题,该方法的核心思想是:“视觉语言模型理解+扩散模型合成”。具体创新包括:1)在第一阶段,利用视觉语言模型作为粗粒度运动规划器,结合思维链和物理感知推理,引导视觉语言模型分步骤地分析物理法则、推断物体间的相互作用,并最终在图像空间中预测出近似真实世界物理动态的粗略运动轨迹。2)在第二阶段,通过噪声扭曲将视觉语言模型预测的运动轨迹转化为结构化噪声,将运动先验注入视频扩散模型中。并在在推理过程中为运动轨迹添加噪声,赋予VDM更大的自由度,从而在遵循物理规律的同时生成更精细、自然的运动细节。该框架在多个物理视频生成基准测试中进行了广泛的实验验证,结果表明,所提出的方法能够有效生成符合物理规律的视频内容,其性能显著优于现有的其他方法。
青年委员风采——贾旭(图5)
图3. 视觉语言模型物理先验引导的真实物理视频生成框架

委员专访

问:请问您的研究领域包括哪些?最近进展如何?

近年来,团队的研究领域主要包括视觉内容的生成与增强,以及基于多模态融合的视觉感知。研究工作具体而言,可以分为三个方面:

(1)可控视觉内容生成:针对当前视觉内容生成技术大多依赖于单一、笼统的文本提示词,导致对生成内容的物体布局、身份一致性、时空连续性等关键属性缺乏精细化、结构化的控制,使得模型难以满足数字创意、产品设计等专业领域需求的挑战,团队从主体身份定制化、时空布局可控、物理交互合理性等方面入手提出相应的基于多种条件的可控生成模型,提升了视觉内容生成的灵活性、一致性和合理性。

(2)数据高效的画质增强:针对画质增强任务中采集对齐配对数据较为困难,成本高、效率低且难配准的挑战,以及合成数据存在与真实数据之间的分布差异,使得合成数据上训练的模型难以应用到实际场景中的问题,团队从图像建模的第一性原理出发,充分挖掘图像 内在先验信息,提出了自监督与半监督图像增强模型训练框架,缓解了实际应用中高质量配对样本不足情况下进行高效准确视觉内容增强的挑战。

(3)动态视觉感知:针对传统相机在高速运动和高动态范围场景下普遍存在运动模糊和曝光失效等问题,导致感知系统性能严重下降甚至失效的挑战,团队融合当前主流基于帧图像的同步、密集型视觉算法与事件相机输出的异步、稀疏数据,提出了时间感知注意力机制,多阶段融合框架和双层长短记忆汇聚网络等模型,实现了两种异构数据的优势互补,有效克服了传统视觉在极端复杂场景下的信息获取困难,显著提升了动态目标感知与场景理解的鲁棒性和精度。

青年委员风采——贾旭(图6)
问:您对您未来的工作有什么展望?
未来我将进一步提升自己的教师职业道德修养和科研教学能力。在人才培养方面,将继续加强思政建设,巩固理论基础,丰富技术前沿,以产业实践案例和项目制教学引导学生主动学习,并引入生成式人工智能促进数字课程建设,对传统人工智能课程进行教学改革,积极申请国家级教学改革项目。在科研方面,我将延续之前的研究思路,具体从以下两方面开展研究:
(1)交互式动态视觉内容生成:当前的视觉内容生成模型大多集中于根据文本描述生成静态图像或短视频,缺乏对物理世界动态规律和因果关系的深层理解。我将以构建生成式世界模型为出发点,研究能够从大规模视频数据中学习世界动态演化规律的模型,并探索其在自动驾驶和具身智能中的应用。
(2)人工智能赋能交叉学科:随着数据驱动的科研范式成为主流,人工智能技术在加速传统学科的科学发现上展现出巨大潜力。我将探索利用生成式AI在具体科学领域的交叉应用,例如,将生成模型用于新材料的分子结构设计,致力于解决特定领域的数据分析与建模瓶颈。
问:在您招收研究生时,一般会倾向于招收具备什么技能的学生?
在招收研究生时,我会着重考察学生以下几方面的能力和素质:
(1)主动学习能力:我们这个领域发展速度飞快,学生需要一方面需要形成扎实的基础,另一方面需要跟进前沿的方法,因此主动学习的能力非常重要,要主动查阅文献,主动思考问题,主动编程实验,主动总结规律。
(2)坚韧的意志和敢于挑战的精神:科研探索之路并非一帆风顺,想不到创新的idea、实验结果不达预期等都是常态。因此,我希望学生具备强大的心理素质和百折不挠的精神,能够坦然面对挫折,从失败中汲取教训并快速调整方向,将困难视为成长的必经之路,而不是退缩的理由。
(3)良好的表达与沟通能力:人工智能领域的科研成果往往是协作的产物,绝不能闭门造车。学生需要能够清晰、有条理地向团队成员和其他研究者阐述自己的想法、研究进展和遇到的困惑。无论是日常讨论、组会报告,还是最终的论文撰写,出色的沟通表达可以有效地推进研究、传播成果。