国产Nano Banana开源平替,10个案例实测GLM-Image
智谱发布并开源了最新的多模态模型 GLM-Image,文字准确率 0.9116,是目前文本渲染准确率最高的开源模型。NED指标也同样顶级,对提示词的遵循度很高,错字、...
Nano Banana Pro 火遍全网,各种信息图、海报、知识卡片疯狂刷屏,真正上手用到日常工作中,很多人都会遇到这样的问题:文字一多,生成的图片中就总会出现歪七扭八的汉字,排版局部都很合适,但文本信息错误根本没法直接用啊。
这个长期困扰创作者和打工人的痛点,今天终于被国产模型解决了。
智谱发布并开源了最新的多模态模型 GLM-Image,文字准确率 0.9116,是目前文本渲染准确率最高的开源模型。NED指标也同样顶级,对提示词的遵循度很高,错字、漏字情况更少。
确实吸引到我了,话不多说,我们一起实测看看。
目前 GLM-Image 有3种体验方式,直接在 BigModel 在线体验或者调用 API,都是0.1元/张,且原生支持 1024*1024 到 2048*2048 任意尺寸的图像。
在线生成不支持修改尺寸或比例,会固定输出 1280*1280 尺寸的图片。
官网:
https://bigmodel.cn/trialcenter/modeltrial/image
智谱清言APP或者网页版的“AI画图”智能体,也可以免费体验 GLM-Image。
官网:
https://chatglm.cn/main/gdetail/65a232c082ff90a2ad2f15e2
我比较推荐大家在 Claude Code 调用 API 使用,效果会更好,还支持自定义尺寸。
Claude Code 配置步骤可以参考这篇教程:手把手教你把 GLM-4.5 接进 Claude Code:开源最强模型配置全攻略
请求示例(注意替换 API KEY,提示词和图片尺寸):
curl -X POST "https://open.bigmodel.cn/api/paas/v4/images/generations" \ -H "Authorization: Bearer YOU-API-KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "glm-image", "prompt": "图像提示词", "size": "1056 × 1408" }'
Case 1 科普插画
提示词:水彩手绘风格模型架构科普插画,左右对照布局。米色仿旧水彩纸纹理背景,带有自然晕染和咖啡渍效果,柔和通透的手绘质感。
左侧 – Diffusion架构(整体渐清晰):标题"Diffusion架构 (整体渐清晰)"位于顶部。
展示3个竖向排列的渐进式水彩画面:
抽象的彩色水彩噪声团块,颜色混合无序,标注"随机噪声输入"。
画面中的水彩色块开始向几个主要区域聚集,整体噪声显著减少,不再是满屏散乱斑点。画面中隐约出现大致构图方向,例如地面与天空的上下区分,远处有低饱和度的模糊树影与房屋色块,但所有元素仅以模糊色域存在,没有明确边缘、没有清晰轮廓、没有可识别细节。
标注"轮廓开始出现"。清晰完整的水彩田园风景画,包含树木、房屋和天空,细节丰富,标注"图像清晰成形"。
右侧 – Autoregressive架构(逐块拼接): 标题"Autoregressive架构 (逐块拼接)"位于顶部。
展示3个竖向排列的模块化拼接过程:
左上角出现一个小尺寸的水彩花朵方块,形状完整清晰,标注"先生成一部分"。
在完全保留第一步花朵位置、大小与形状不变的前提下,在花朵旁边新增叶子和茎的水彩方块,新增内容与原花朵自然拼接,禁止移动、缩放或重绘已存在的花朵,标注"在已有结果上继续生成"。
在前两步所有元素位置完全不变的基础上,继续添加新的花朵、绿叶与蝴蝶,最终形成完整花束图像,标注"逐步拼成完整结果"。
整体风格要求:水彩手绘教材插画风格,颜色柔和自然所有文字标注使用手写风格中文字体水彩边缘自然晕染,线条不完全封闭避免工业感和数码感,保持温暖亲和的科普氛围。
Case 2 小红书封面
提示词:生成通勤OOTD穿搭主题小红书笔记封面,内容:“OOTD,一周穿搭不重样”
提示词:生成租房改造vlog主题的小红书笔记封面,尺寸3:4,内容:“500元爆改出租屋🏠从老破小到奶油风小家,房东都问我是不是换了房子!”
Case 3 漫画
提示词:生成一张幽默民俗题材的漫画插画,包含4格漫画,主角为人类女孩和一只拟人化黄鼠狼。整体为轻松搞笑风格,略带中国民间传说元素,画风偏卡通但人物表情夸张清晰。
第 1 格
夜晚小路场景,人类女孩背着包走路,一只直立行走的黄鼠狼突然拦在路中间,神情严肃又神秘。
(对白气泡)黄鼠狼说道:“你看我像人吗?”
第 2 格
女孩停下脚步,歪头思考,一脸随意。
(对白气泡)女孩说:“我看你像玉皇大帝。”
第 3 格
黄鼠狼瞬间瞳孔地震,表情极度惊恐,冷汗直流。无对白,情绪夸张。
第 4 格
黄鼠狼猛地冲上前捂住女孩的嘴,紧张低声吼。
(对白气泡)黄鼠狼说:“姐,新号别搞!”
整体风格要求:
中国民俗+现代段子结合
表情夸张,肢体动作明显
对白全部为中文
画面干净,漫画分镜清晰
氛围偏搞笑、反转、网络梗风格
无恐怖元素,偏轻喜剧
Case 4 小红书配图
提示词:小红书风格信息图,卡通风格,手绘风格文字,米白色背景。
画面中心是一个卡通风格“大脑+画笔”的组合形象,象征“认知+生成”,旁边用便签纸手绘写着“GLM-Image”。
顶部用手绘大标题:国产芯片跑出的开源图像 SOTA
下方副标题:智谱 × 华为|GLM-Image
加入卡通芯片、服务器、闪光贴纸元素,整体视觉有科技感但偏可爱。
整体风格:手绘、清新、科技卡通感,多留白,重点突出。所有图像和文字均为手绘风格,无写实元素。
右下角水印:“K姐研究社”
提示词:小红书风格信息图,卡通风格,手绘风格文字,浅薄荷绿色背景。
画面左右结构示意:
左侧是卡通“对话气泡+大脑”,标注“自回归模型|理解指令|整体构图”
右侧是卡通“画笔+文字笔画”,标注“扩散解码器|细节刻画|文字笔画”
中间用手绘箭头连接,标题写在上方:读懂指令,写对文字
点缀荧光笔划线强调关键词“认知型生成”“知识+推理”。
整体风格:手绘、可爱、清晰易懂,信息精简,多留白。
右下角水印:“K姐研究社”
Case 5 信息标注
提示词:生成一张小红书风格的卧室布置展示图,真实拍摄质感,竖版构图。画面为一间空间不大的卧室,整体温馨治愈,偏日系与可爱风格。一侧是单人床,绿色床单、白色床罩,床上摆放小熊玩偶与抱枕。床边铺有卡通风格地毯,图案为可爱的奶牛形象,色彩柔和。
房间中间是一张白色书桌,桌上放着打开的笔记本电脑,屏幕显示色彩明亮的插画画面,同时摆放文具、水杯、小摆件。书桌后方是窗户,白色纱帘自然垂落,夜晚窗外隐约可见城市灯光。窗边与桌面摆放暖黄色台灯、小夜灯,营造柔和夜晚氛围。左侧是多层收纳架与书柜,摆满书籍、收纳盒、玩偶、小夜灯与生活用品,物品丰富但整体整洁,略带真实生活感。
画面中叠加多个商品标注标签,标注样式类似小红书种草图片。标签文字为黄色或浅黄色,带轻微描边与阴影,清晰可读。每个标签必须锚定在对应物品附近,不规则排布,标注内容包含商品名称和价格信息,例如“装饰画💰25”、“奶牛地毯💰45”、“小夜灯💰29.9”、“窗帘💰52”、“小熊玩偶💰107”等,形成完整的房间布置花费清单感,但不遮挡主要视觉主体。"
Case 6 菜谱
提示词:为"青椒炒肉"生成信息图表,包含逐步的食谱信息,要求:
俯视视角,极简风格,白色背景
在顶部中央显示菜的中文名称
标注所有食材的中文名称、数量和卡路里含量
使用虚线和图标来展示烹饪步骤
在底部展示成品的摆盘效果
根据这道菜的 传统制作方法,自动匹配合适的:
1.食材清单(包括精确的分量和卡路里含量)
2.烹饪步骤图标(例如,切菜、炒菜、调味等)
3.完成后的呈现风格
Case 7 信息图
提示词:生成一张大白菜的高级特写海报,产品摄影风格。画面采用居中构图,主体为一颗新鲜饱满的大白菜,叶片层层包裹,外叶浅绿、内芯淡黄,叶脉清晰,表面带有自然清爽的水润质感,整体显得洁净、鲜嫩、有分量感。
背景颜色为浅灰色纯净背景,无任何杂物或纹理,突出食材本身的形态与质感。
光线采用柔和自然光,从侧前方照射,叶片受光均匀,层次分明;底部与背后形成轻微柔和阴影,增强立体感但不过度对比,画面干净高级。
顶部文字排版
画面顶部居中排版文字:
主标题:"大白菜"字体风格为自然随性的手写体,字体颜色取自白菜外叶的清新浅绿色,笔触柔和,亲切自然。
副标题 / 文案:“清热除烦,润燥通便,健脾养胃”文案基于中医食疗理念生成,突出大白菜的清润与调理属性。
副标题字体:手写体,字体颜色为温润的棕色,层级低于主标题,视觉柔和克制。
底部内容区(烹饪方式展示)
画面底部横向排布 三种适合大白菜的烹饪方式,每一种方式均包含对应的小型成品图与中文文字说明,风格统一、简洁:
清炒大白菜配图为大火快炒后的白菜,叶梗脆嫩、叶片油亮,呈现最基础的家常风味。
白菜炖豆腐配图为白菜与豆腐同炖,汤色清淡,体现温和滋养、适合四季食用。
醋溜白菜配图为切片白菜快炒后略带焦香,色泽清爽,突出酸香开胃口感。
整体风格要求:
整体为简约产品广告风格,留白充足,信息克制,强调食材的自然形态与健康属性。质感偏高端、干净、不浮夸,适合健康饮食、生鲜品牌或养生类视觉内容。真实摄影质感,无插画感,无卡通感,高分辨率,适合用于海报、电商主图或健康科普展示。
Case 8 海报
提示词:现代创意风格海报,主体为一头驴的特写,驴的嘴巴用粉色线条勾勒成笑脸,背景是纯净的蓝天;画面上方有粉色艺术字体文字 “泥嚎啊 Hello 打工人”;左侧分布着不同打工人日常的白色文字,( “工作压力比山重 钱包重量比纸轻” “一顿操作猛如虎 一看工资三千五” “上班如上坟 下班如蹦迪” “咖啡续命每一天 工资月光每一年” “加班加到头发秃 存款只剩两位数”)文字小号。色调以蓝色、棕色为主,色彩明快对比鲜明,采用近距离特写构图,突出驴的面部与创意笑脸,整体营造幽默调侃打工人日常的轻松氛围。
Case 9 电影海报
提示词:这是一张风格复古的电影海报,主题为《海边的日落》(SUNSET AT THE SEASIDE)。画面以橙红色的海边日落为背景,一对男女的剪影坐在海边长椅上,营造出静谧的氛围感。海报采用荧光绿与橙红的撞色设计,手写风格的“海边的日落”字样极具视觉冲击力,搭配“看腻了城市四点的日落,偶尔也想去看海边的一场日落”的文案,传递出对自然与浪漫的向往。底部的复古元素(年份“2025”、品牌标识“cc ORIGINAL POSTER”等)强化了怀旧质感,整体风格既文艺又充满复古潮流感。
Case 10 包装设计
提示词:3D写实风格的番茄包装盒。主体设计为创意番茄造型,采用红色纸质材料制成,表面模拟真实番茄表皮的黄色斑点纹理,顶部配有绿色的仿真果蒂。盒身设计有镂空窗口,立体地展示出内部多颗饱满的圆形小番茄,果实摆放富有层次感。包装正面贴有白色标签,清晰印有“Tomato”文字。盒体还印有“K姐研究社”品牌标识以及“天然好水果”、“清甜爽口”、“一口爆汁”、“自然成熟”等产品信息。同时,包装上清晰标注了回收标志,体现实用性与环保理念。 整体以纯白色为背景,采用平视视角,突出包装的立体造型与丰富的材质细节,如番茄的光泽感、纸材的肌理和精致的印刷标识。设计风格简约清新,主色调为红、白、绿,传递出自然健康的品牌调性,成功营造出创意且环保的食品包装设计感。画面高清,细节丰富。
智谱这次没有继续使用主流的 Diffusion 架构,而是采用了自研的自回归+扩散编码器混合架构。
Diffusion 架构本质上是将高度混乱的噪声一步步步变清晰的过程,就像我们从眯着眼到睁开眼的过程,眼前的画面从模糊轮廓变得清晰。
Diffusion 架构的模型生成的画面整体感强,风格统一,做海报、插画都非常合适。Nano Banana Pro、Midjourney、Seedream 4.5 都属于典型的 Diffusion 架构模型。
在 Diffusion 的生成过程中,文字也会被当成一种复杂的形状来还原,文本密度高了,字符就容易在扩散过程中被拉伸、扭曲,容易出现我们常见的“鬼画符”。
自回归(AutoRegressive,AR)是一步步按顺序生成,每一步都会把已经生成的内容当做上下文来参考。模型会先生成一个字,再根据这个字去判断下一个字该是什么,前后内容强相关。
GLM-Image 的混合架构里,自回归机制先介入,负责把提示词里的文字内容按顺序写对,再由扩散编码器去完成画面细节和整体视觉表现。文字的准确率更高了,整体画面依然有质感、有风格。
整体使用下来,GLM-Image 的中文指令理解能力非常好,文字生成的准确率也高,信息密度高的情况下也很少乱码,给文字部分加上引号会更准确,对于内容创作者来说,就是妥妥的生产力啊。
GLM-Image 基于华为 A2 芯片和 MindSpeed 相关训练框架,跑通了从数据预处理到大模型训练的完整流程,说明在国产全栈算力底座上,前沿多模态模型同样具备被完整训练和持续迭代的现实路径,不用再被国外算力卡脖子了。
GLM-Image 不仅能用、好用,成本还压的很低。目前 GLM-Image 单次生成一张图片只要 0.1 元,Nano Banana Pro 大概是一块钱一张,成本差了10倍。
GLM-Image 的价值也不只体现在能力本身,GLM-Image 验证了一条可复制的技术路线,为后续更多多模态模型提供了可参考的工程范式。
前沿模型这条路,在国产技术体系内,不仅走得通,而且已经开始走稳了。