报告摘要:在以生成技术为核心的信息时代,知识图片生成——即以知识信息为基石,实现商业与科学视觉内容的精确传达和高效创作——正成为沟通、说服及知识分析的核心驱动力。尽管现有图像生成模型在视觉真实感方面取得了显著进步,但在准确映射知识、精准传达语义信息,以及提供高度可控、可编辑的交互式创作体验等核心需求上,仍面临巨大挑战,未能完全满足“面向知识”的生成需求。 本报告聚焦于下一代图像生成模型的研究进展,特别是我们在面向知识的视觉内容创作方面取得的研究成果。我们重点介绍两个核心项目: GlyphByT5系列: 专注于解决精准视觉文本生成这一关键问题。该系列模型致力于将用户文本描述中的精确信息(包括数字、符号、特定术语等)高效、准确地转化为视觉文本元素,确保信息在转换过程中不失真。这对于科学图表、数据可视化和包含复杂文本标注的商业图像至关重要。 ART系列: 代表了我们最新的多图层图像生成研究。该项目旨在实现对生成图像的深度控制,允许用户以文本指令精确地控制图像的结构层级、元素布局和风格属性,从而生成高质量、多层次且高度可编辑的视觉内容。这种“像编辑文本一样编辑图像”的交互范式,将从根本上提升内容创作的灵活性和效率。 我们认为,精准的知识到视觉的映射与多图层可控生成是未来图像生成模型发展的关键方向。本报告将详细阐述GlyphByT5及ART项目的核心算法设计、数据集构建方法及实验验证策略,并探讨它们如何“理解”和“应用”商业与科学知识来生成既美观又信息丰富的视觉内容。我们相信,随着这些关键技术的不断发展和普及,面向知识图像生成将在未来一年迎来重要的范式转变,为科学传播、商业沟通和创意设计等领域带来革命性的影响。
讲者简介:元玉慧博士现任Canva中国研究院负责人,之前就职于微软亚洲研究院视觉计算组并担任高级研究员。他分别于2022年、2017年和2014年,在中国科学院计算技术研究所、北京大学和南京大学获得了博士、硕士和学士学位。目前,他主要负责组建研究团队开发商业图像、科学图像生成系统,以生成高质量商业内容(例如海报、宣传单、信息图、图表和幻灯片)。他近期的代表性工作包括:用于推理分割的LISA(CVPR 2024)、用于精准视觉文本呈现的Glyph-ByT5(ECCV 2024)、用于多层且可编辑图像生成的ART(CVPR 2025)以及用于扩散模型的人类偏好学习的SPO(CVPR 2025)。他在分割和目标检测方面的代表性工作还包括OCRNet(ECCV 2020)、OCNet(IJCV 2021)和H-DETR(CVPR 2023)。此外,他还担任多个顶级计算机视觉学术会议和期刊的审稿人,并曾担任多个领域的主席职务,例如ICCV 2025和MM2024/2025的领域主席等。