报告摘要:在电商场景中,图像生成不仅要保证视觉真实性,还需满足对服装、姿态与属性的多维控制。近年来,基于扩散模型的可控生成方法发展迅速,为虚拟试衣、个性化展示和大规模商品内容生产提供了新的解决思路。本报告将围绕“电商可控生成”展开,介绍我们提出的统一条件框架:其核心在于融合服饰外观、人体姿态与属性特征,并通过特征级与图像级建模、跨模态注意力与属性自适应注入机制,实现服装结构、颜色、Logo 等细粒度因素的解耦控制。实验结果表明,该方法在多项公开数据集和主观评测中均取得优异表现,为电商平台在多 SKU、跨场景和多风格条件下的规模化内容生成提供了有效技术支撑。
讲者简介:沈飞,南京理工大学博士(导师:唐金辉教授),现为新加坡国立大学 NExT++ 研究中心博士后,合作导师为蔡达成(Tat-Seng Chua)院士。研究聚焦 AIGC 与Multimodal Safety,主持/参与多项国家级与产学合作项目;在 NeurIPS、ICML、ICLR、TIP、AAAI、ACM MM 等顶级会议与期刊以第一作者发表十余篇论文。主导 IMAGDressing、IMAGGarment、IMAGHarmony、IMAGPose 等开源项目,累计收获 1K+ Star。曾获腾讯犀牛鸟精英人才计划杰出奖、华为开发者生态特别贡献奖等荣誉;在国内外算法竞赛中获奖 50 余次(含 5 次国际顶会 Workshop 冠军),并担任多个顶级会议与期刊审稿人如NeurIPS、CVPR、ICCV、ICML、TPAMI、TIP 等。