project
GLM-Image - 智谱联合华为开源的多模态图像生成模型
GLM-Image 是智谱联合华为开源的新一代多模态图像生成模型,基于昇腾 Atlas 800T A2 设备和昇思 MindSpore 框架训练,是首个全流程国产芯片训练的 SOTA 模型。
GLM-Image是什么
GLM-Image 是智谱联合华为开源的新一代多模态图像生成模型,基于昇腾 Atlas 800T A2 设备和昇思 MindSpore 框架训练,是首个全流程国产芯片训练的 SOTA 模型。模型采用「自回归 + 扩散解码器」混合架构,结合 9B 自回归模型和 7B 扩散解码器,兼顾全局语义理解和高频细节生成,尤其擅长文字渲染和知识密集型场景。在 CVTG-2K 和 LongText-Bench 榜单中获开源第一,支持多种分辨率图像生成,具有高性价比和速度快的特点,为国产开源图像生成模型发展提供重要参考。
GLM-Image的主要功能
-
高质量图像生成:模型能生成高分辨率(最高可达 2048×2048)的图像,涵盖人像、风景、静物等多种场景。
-
复杂文字渲染:GLM-Image特别擅长在图像中生成复杂的文字内容,支持多区域文字生成,适用于海报、PPT、科普插画等知识密集型场景。
-
多任务支持:GLM-Image支持图像编辑、风格转换、多主体一致性生成等多种图像到图像的任务。
-
多分辨率自适应:模型能自适应处理不同分辨率的图像生成任务,无需重新训练,灵活性高。
GLM-Image的技术原理
-
自回归模块:模型基于 9B 参数的自回归模型,负责全局语义理解和图像的低频布局信息。通过文本到图像和图像到图像的联合训练,增强对复杂指令的理解能力。模型用 MRoPE(Multi-Dimensional RoPE)作为位置嵌入,支持图像和文本的交错生成。
-
扩散解码器:模型基于 7B 参数的 DiT(Diffusion Transformer)结构,专注于高频细节的生成,如文字笔画和图像的精细纹理。结合语义 VQ(Vector Quantization)Tokens 和 VAE(Variational Autoencoder)潜在表示,实现语义信息与高频细节的融合。模型引入 Glyph-byT5 模型对文字区域进行字符级编码,提升文字生成的准确性。
-
训练与优化:全流程在昇腾 Atlas 800T A2 设备上完成,基于昇思 MindSpore 框架,验证国产芯片在高性能模型训练中的可行性。模型采用动态图多级流水优化和多流并行策略,提升训练效率和性能。强化学习优化模块,分别对自回归生成器和扩散解码器进行优化,提升语义一致性和视觉细节质量。
GLM-Image的项目地址
- 项目官网:https://z.ai/blog/glm-image
- GitHub仓库:https://github.com/zai-org/GLM-Image
- HuggingFace模型库:https://huggingface.co/zai-org/GLM-Image
GLM-Image的应用场景
-
科普插画与教育:GLM-Image 能生成包含复杂逻辑和文字说明的科普插画,助力教育内容的直观呈现。
-
多格图画与漫画:模型适用生成电商图、漫画等多格图画,保持风格一致并精准生成多处文字。
-
社交媒体与内容创作:模型能快速生成社交媒体封面、广告创意图等,支持复杂图文排版,提升内容吸引力。
-
商业海报与宣传:模型能生成设计感强、文字嵌入精准的商业海报和节日宣传图,满足品牌推广需求。
-
写实摄影与艺术创作:GLM-Image擅长生成人像、风景、静物等写实图像,支持艺术风格定制,满足创作需求。