English
​微软亚洲研究院高级研究员元玉慧做客清华软件论坛分享“面向商业图像的视觉生成模型”
分享到
发布于 2025-04-22

4月17日,清华软件论坛第二十九期邀请微软亚洲研究院视觉计算高级研究员元玉慧,作题为“面向商业图像的视觉生成模型”的学术报告。本次报告吸引了校内外相关研究者积极参与,部分校内师生线下参会,另有许多参会者通过线上形式参与交流。报告会由软件学院副院长刘世霞主持。

元玉慧作报告

元玉慧在报告中首先介绍了商业图像生成领域的背景,强调了现有文生图模型在生成商业图像时的不足之处,包括难以准确传达文本所描述的信息、生成多语言文本精确度有限等。出现这些不足是由于当前文生图模型缺乏对像素和文本的双重思考能力,即无法同时理解用户输入的文本指令,并在像素空间中精准地布局和呈现信息。为了赋予模型对像素和文本的双重思考能力以满足高质量商业图像生成,在商业图像上进行后训练尤为重要。报告指出,尽管预训练的进展较快,后训练阶段仍存在相对滞后的问题。

针对这一现状,元玉慧团队提出了可变多层透明图像生成框架。这一框架受图式理论启发,通过将全局文本提示与匿名布局相结合以自动推理出图像中各区域的语义信息并进行生成。该框架的创新之处在于,它支持多图层透明图像的生成,允许用户对每个图层进行独立编辑,极大地提升了图像生成的灵活性和实用性。元玉慧团队还设计了相应的VAE和Transformer结构,利用多图层的空间位置信息进行高效解码,提高了生成图像的质量与效率。这一框架作为数据引擎可以生成高质量多图层商业图像,支持后续模型的训练。

商业图像生成中一个重要且具有挑战性的问题是多语言和段落级别的文本生成。针对这一问题,元玉慧团队提出了Glyph-ByT5系列模型,通过字形对齐预训练和字符级文本编码器,显著提升了文本与视觉内容的对齐精度,解决了多语言和段落级别文本生成的困难。此外,模型还采用了区域级注意力机制和后训练方法,提高了生成的文本在视觉图像中的准确性与美学质量。该模型已在各类文本生成任务中取得了显著进展,特别是在生成商业图像中的视觉文本时,能够提供更高的精度和可用性。

会议现场

元玉慧的报告引发了线上线下的参会者就商业图像生成的多模态推理、像素与文本的双重思考能力以及后训练阶段的优化等问题的深入讨论和研究兴趣。

【嘉宾简介】

元玉慧博士现任微软亚洲研究院视觉计算组高级研究员。他分别于2022年、2017年和2014年,在中国科学院计算技术研究所、北京大学和南京大学获得了博士、硕士和学士学位。目前,他主要负责开发商业图像生成系统,以生成高质量商业内容(例如海报、宣传单、信息图、图表和幻灯片)。他近期的代表性工作包括:用于推理分割的LISA (CVPR 2024)、用于精准视觉文本呈现的GlyphByT5 (ECCV 2024)、用于多层且可编辑图像生成的ART (CVPR 2025)以及用于扩散模型的人类偏好学习的SPO (CVPR 2025)。他在分割和目标检测方面的代表性工作还包括OCRNet (ECCV 2020)、OCNet (ICV2021)和H-DETR (CVPR 2023)。此外,他还担任多个顶级计算机视觉学术会议和期刊的审稿人,并曾担任多个领域的主席职务,例如ICCV 2025和MM 2024的领域主席等。


编辑:董超 审核: