project
Boogu-Image-0.1 - Boogu开源的统一图像生成与编辑模型
Boogu-Image-0.1 是 Boogu 团队开源的统一图像生成与编辑模型家族。模型在同一架构下同时支持文生图、指令式图像编辑及中英双语文本渲染,家族包含 Base、Edi...
Boogu-Image-0.1是什么
Boogu-Image-0.1 是 Boogu 团队开源的统一图像生成与编辑模型家族。模型在同一架构下同时支持文生图、指令式图像编辑及中英双语文本渲染,家族包含 Base、Edit和 Turbo三个变体。在自建的 Boogu Arena 千级提示词 ELO 评测中,系列位列所有参评开源与闭源系统前排,在 Qwen-Image-Bench 上排名开源模型第一。
Boogu-Image-0.1的主要功能
-
文生图生成:精准理解摄影类提示词,生成自然光照、协调构图与忠实细节的高质量图像,支持复杂真实场景。
-
指令式图像编辑:支持物体插入、替换与移除,属性与材质修改,背景与场景替换,以及跨艺术风格迁移,保持原始主体与构图一致。
-
中英双语文本渲染:支持海报、邮票、文档、界面、品牌指南等文字密集型视觉设计,实现可读结构与稳定排版。
-
风格化生成:覆盖国风、像素、绘本、产品级渲染等多样风格,对提示词敏感且输出稳定。
-
海报与产品图优化:生成具备一致品牌风格、精致字体排印及专业灯光构图的个性化海报与产品可视化图像。
-
图像内文本编辑:支持替换、添加或删除中英文字符,灵活调整字体、字重、颜色和布局。
Boogu-Image-0.1的技术原理
- 统一多模态架构:Boogu-Image-0.1 采用统一多模态理解与生成架构,将视觉理解能力与图像生成能力整合于单一模型框架内,使模型同时具备看懂图像和生成图像的双向能力,为编辑任务提供语义级控制基础。
- 蒸馏加速推理:Turbo 变体基于蒸馏技术构建,在与 Base 相同参数量下压缩推理路径,通常仅需 3-4 步即可输出高质量逼真摄影图像,同时保留双语文本渲染能力与提示词遵循度。
- 指令对齐编辑:Edit 变体(10B 参数)在统一架构上针对图像编辑任务进行专项优化,通过指令对齐机制实现细粒度局部修改,在保持原始主体与构图一致的前提下完成跨风格迁移与内容替换。
- 双语文本渲染:模型在统一架构内集成对中英文字符的结构化理解与生成能力,通过版式感知机制确保海报、品牌物料等文字密集型场景下的可读排版与稳定渲染。
微信关注回复 “开源”,加入AI开源项目交流群
如何使用Boogu-Image-0.1
-
在线体验:访问魔搭创空间 https://modelscope.cn/studios/Boogu/boogu-image-edit-gradio 直接上传图片并输入编辑指令,无需本地部署。
-
模型下载:通过 ModelScope 组织页 https://modelscope.cn/organization/Boogu 获取 Base、Edit、Turbo 各变体权重。
-
本地部署:克隆 GitHub 仓库 获取训练与推理代码,按 README 配置环境后加载模型进行生成或编辑。
Boogu-Image-0.1的核心优势
-
统一架构:同一模型家族覆盖生成、编辑、文本渲染三大任务,无需为不同用途切换独立模型。
-
极速推理:Turbo 变体 3-4 步即可完成高质量生成,推理效率对标甚至超越部分闭源方案。
-
双语文本优势:在中文和英文文字渲染上表现稳定,尤其适合中文海报、品牌物料等本土设计场景。
-
编辑一致性:Edit 变体在修改内容时保持原始主体与构图高度一致,避免传统编辑模型常见的整体重绘失真。
Boogu-Image-0.1的项目地址
- 项目官网:https://boogu.org/
- GitHub仓库:https://github.com/boogu-project/Boogu-Image
- HuggingFace模型库:https://huggingface.co/Boogu
Boogu-Image-0.1的同类竞品对比
| 维度 | Boogu-Image-0.1 | Qwen-Image-2.0 |
|---|---|---|
| 发布方 | Boogu 团队 | 阿里巴巴通义团队 |
| 发布时间 | 2026 年 6 月 | 2026 年 2 月 |
| 开源协议 | Apache-2.0 | Apache-2.0 |
| 模型参数 | Edit 变体 10B;Base/Turbo 参数量与 Base 一致(未公开具体数值) | 扩散解码器 7B + Qwen3-VL 编码器 8B,合计约 15B 级别 |
| 核心架构 | 统一多模态理解与生成架构,将视觉理解与图像生成整合于单一框架 | 双组件架构:8B Qwen3-VL 视觉语言编码器 → 7B MMDiT 扩散解码器 |
| 统一能力 | 文生图、指令式图像编辑、中英双语文本渲染三合一 | 文生图、图像编辑、文本渲染统一于单一 7B 模型 |
| 最大分辨率 | 示例多为 1024×1024(支持更高,未明确上限) | 原生 2048×2048(2K),无需上采样 |
| 提示词长度 | 未明确公开上限 | 最高 1000 tokens |
| 文本渲染 | 中英双语,支持超密集文本、海报、品牌物料等复杂排版 | 中英双语,支持信息图表、PPT、海报、书法等,强调材质适配与结构化对齐 |
| 推理效率 | Turbo 变体仅需 3-4 步即可完成高质量生成 | 未明确优化步数,7B 轻量架构降低显存需求 |
| 本地部署 | 支持,通过 GitHub 与 ModelScope 获取权重和代码 | 支持,GitHub 开源,DiffSynth-Studio 支持 4GB 显存分层卸载 |
Boogu-Image-0.1的应用场景
-
电商设计:快速生成产品主图、详情页海报及多语言促销物料,支持基于参考图的风格统一与局部修改。
-
广告营销:根据品牌指南生成中英双语海报、社交媒体配图,并支持对已有素材进行文案替换与布局调整。
-
内容创作:为短视频、自媒体提供风格化插图、漫画分镜及 meme 图生成,支持图像内文字精准编辑。
-
出版印刷:生成书籍封面、杂志排版、邮票及文档界面设计,保证文字可读性与版式稳定性。