project
InternSVG - 上海AI Lab推出的统一 SVG 建模套件
InternSVG是上海人工智能实验室等推出的面向统一SVG建模的“数据-评测-模型”综合套件,包含三大组件:超1600万样本的SAgoge数据集、标准化SArena评测基准,以...
InternSVG是什么
InternSVG是上海人工智能实验室等推出的面向统一SVG建模的“数据-评测-模型”综合套件,包含三大组件:超1600万样本的SAgoge数据集、标准化SArena评测基准,以及基于InternVL3-8B的统一多模态大模型。InternSVG通过SVG专属Token和两阶段训练,实现图标、插画、化学结构、动画的理解、编辑与生成任务统一建模,显著超越现有方法。
InternSVG的主要功能
-
语义理解:InternSVG能解析 SVG 代码的语义和结构,支持生成详细描述和回答多选题,准确识别图形内容与属性。
-
指令编辑:支持 10 种编辑操作,涵盖颜色修改、几何变换等低级编辑和语义颜色替换、风格迁移等高级编辑。
-
跨模态生成:支持文本或图像生成静态 SVG(图标、插画、化学结构式),以及文本或视频生成矢量动画。
InternSVG的技术原理
-
架构基础:基于 InternVL3-8B 的 ViT-MLP-LLM 范式构建,采用 InternViT-300M 作为视觉编码器处理输入图像或视频,通过 MLP 投影层连接 Qwen2.5-7B 语言模型进行序列建模。
-
SVG 专属 Token:针对 SVG 语法设计 200 余个特殊 Token,覆盖 55 个核心标签、42 个属性及数值范围,将序列长度压缩 30-50%,有效缓解长序列建模的上下文压力。
-
子词嵌入初始化:将新 Token 分解为预训练子词并平均其嵌入作为初始值,保留语义先验知识,使训练损失降低约 40% 显著加速收敛。
-
两阶段渐进训练:第一阶段在结构简单的图标和化学数据上训练以建立基础语法认知,第二阶段引入长序列插画和复杂动画数据,通过课程学习策略逐步提升模型处理复杂结构的能力。
-
统一任务建模:通过共享的 Transformer 架构同时处理理解、编辑、生成三类任务,使跨任务知识产生正迁移,避免为单任务单独训练模型,显著提升参数效率和泛化能力。
如何使用InternSVG
- 环境准备:克隆仓库后创建 Python 3.9 虚拟环境并安装依赖包,如需评测则下载 ViCLIP 检查点。
- 模型部署:从 HuggingFace 下载 InternSVG-8B 模型权重,用 LMDeploy 启动 API 服务支持多卡并行推理。
- 调用推理:通过标准 OpenAI API 格式发送请求,支持输入文本或图像生成 SVG,或输入 SVG 代码进行理解与编辑。
- 自定义训练:准备数据集并运行添加特殊 Token 的脚本,随后依次执行第一阶段(简单数据)和第二阶段(全量数据)的微调训练。
- 模型评测:下载 SArena 基准数据集,对模型输出进行推理并计算各项评价指标以验证性能。
InternSVG的项目地址
- GitHub仓库:https://github.com/hmwang2002/InternSVG
- HuggingFace模型库:https://huggingface.co/InternSVG/InternSVG-8B
- arXiv技术论文:https://arxiv.org/pdf/2510.11341
InternSVG的关键信息和使用要求
- 项目定位:InternSVG 是上海人工智能实验室联合上海交大、南京大学等机构推出的统一 SVG 建模综合套件,已被 ICLR 2026 接收。
- 核心组件:包含三大核心组件——超 1600 万样本的 SAgoge 多模态数据集(覆盖图标、插画、化学结构式、矢量动画四大领域)、标准化 SArena 综合评测基准(提供统一的任务定义与评估指标)、以及基于 InternVL3-8B 的 InternSVG-8B 统一多模态大模型。
- 硬件环境:推理需至少单张 GPU(推荐多卡部署以提升吞吐量),训练需 96 张 NVIDIA A800 或同等算力支持。
软件依赖:Python 3.9,需安装 PyTorch、Transformers、LMDeploy(用于服务部署)及 LLaMA-Factory(用于训练)。
InternSVG的核心优势
- 全任务统一建模:打破传统 SVG 理解、编辑、生成任务相互隔离的局限,通过单一模型架构实现跨任务知识正迁移,避免为不同任务重复训练模型,显著提升参数效率和泛化能力。
- 超大规模数据基础:依托目前最大的 SVG 多模态数据集 SAgoge(超 1600 万样本),涵盖图标、长序列插画、化学结构式、矢量动画四大高价值领域,为模型提供从简单静态图形到复杂动态序列的全面训练支撑。
- 专业技术优化:创新引入 200 余个 SVG 专属特殊 Token 及子词嵌入初始化策略,配合两阶段渐进式训练(从简单图标到复杂动画),有效压缩序列长度 30-50%,加速收敛并显著降低长序列建模难度。
- 全面性能领先:在 SArena 标准化基准测试中,相比 Claude-4-Sonnet、GPT-4o 等最强专有模型,理解准确率提升约 11%,编辑任务 PSNR 提升约 34%,生成任务 FID 降低约 56%,实现全任务、全领域的显著超越。
- 专业领域精度:在化学有机结构式生成等对拓扑准确性和符号规范性要求极高的专业场景中,对键角、原子标注、环状结构的还原精度大幅领先现有基线,满足科学可视化的高精度需求。
InternSVG的同类竞品对比
| 对比维度 | InternSVG | StarVector | OmniSVG |
|---|---|---|---|
| 技术路线 | 统一多模态大模型(InternVL3-8B) | LLM-based(CodeLlama 架构) | 统一多模态框架(Qwen-VL 基础) |
| 任务覆盖 | 理解+编辑+生成+动画(全任务闭环) | 仅静态图标生成(文生/图生) | 理解+生成,但缺乏系统编辑能力 |
| 数据规模 | SAgoge 1600 万样本(四领域) | 百万级图标数据 | 数据多样性有限,未覆盖化学/动画 |
| 动画支持 | 支持 Text-to-SANI 和 Video-to-SANI | 不支持 | 不支持 |
| 编辑能力 | 10 种编辑操作(颜色/几何/风格) | 不支持 | 仅基础生成,无指令编辑 |
| 专业领域 | 覆盖化学结构式、长序列插画 | 仅通用图标 | 图标与基础插画 |
| 序列处理 | 支持 8000+ tokens 长序列 | 短序列图标优化 | 中等长度序列 |
| 代码紧凑度 | 1.3k tokens(高度精简) | 代码较冗长 | 中等长度 |
InternSVG的应用场景
- 数字设计创作:设计师可通过文本描述或参考图像快速生成高质量矢量图标、插画素材,支持基于自然语言指令进行颜色调整、风格迁移等精细化编辑,显著提升 UI/UX 设计效率。
- 科学可视化:在化学、生物等科研领域,研究人员可将分子名称或结构图像自动转换为精确的矢量化学结构式,满足论文插图、教科书出版对图形规范性和可编辑性的严格要求。
- 智能内容理解:自动解析 SVG 图标或插画的语义内容与几何结构,支持视觉障碍辅助、图像检索、以及基于图形内容的智能问答与知识抽取。
- 动态媒体生产:根据文本脚本或参考视频生成矢量动画(如加载动画、图标动效),输出轻量且可无限缩放的动画资源,适配多终端显示需求。
- 教育与技术文档:InternSVG支持通过自然语言指令实时调整图形元素,降低非设计专业人员制作高质量矢量教学内容的门槛。