project
ForgeTrain - 面壁智能联合清华等开源的大模型预训练框架
ForgeTrain 是面壁智能联合清华大学、OpenBMB 开源社区发布的全球首个完全由 AI 编写、零人类代码介入的生产级大模型预训练框架。
ForgeTrain是什么
ForgeTrain 是面壁智能联合清华大学、OpenBMB 开源社区发布的全球首个完全由 AI 编写、零人类代码介入的生产级大模型预训练框架。框架采用Forge Engineering三阶段方法论(立标准→逐比特对齐→性能反超),在英伟达 H100 上训练速度超越 Megatron 10%,已在华为昇腾芯片上完整跑通预训练流程,成功训练出 MiniCPM5-1B 模型。
ForgeTrain的主要功能
- 生产级大模型预训练:支持数百至数千张 GPU 的分布式协同训练,可直接投入生产使用。
- 跨硬件平台适配:同时支持英伟达 H100 和华为昇腾系列芯片,已完整跑通昇腾预训练流程。
- 性能超越人类实现:在 H100 上训练速度比英伟达 Megatron 快 10%,同等任务节省 10% 算力成本。
- 逐比特一致性验证:AI 生成的框架能与参考实现(Megatron)在相同输入下产出完全一致的数值结果,确保正确性。
- 自动化评测 Harness:内置自动化测试与性能评测系统,将跑对了和跑快了转化为机器可自动判断的标准。
ForgeTrain的技术原理
-
Forge Engineering(锻造工程)三阶段方法论:
-
立标准(Harnessing):从 Megatron 采集关键运行数据,构建自动化评测 Harness,定义正确性与性能基准。
-
咬对齐(Bit-for-Bit Replication):AI 在 Harness 约束下构建与 Megatron 逐比特一致的版本,验证 AI 精确复现复杂系统的能力。
-
解约束反超(Surpassing):解除二进制一致限制,切换至性能导向 Harness,让 AI 在更大搜索空间自主迭代,最终实现速度超越。
-
-
代码即深度定制品:不同于传统软件将代码视为长期维护的”资产”,Forge Engineering 将代码解绑为按需锻造的深度定制品——同一份 Harness 可在不同硬件上锻造出完全不同的专属优化实现。
-
零抽象损耗:通用性保留在 Harness 规约中,高性能留在每次锻造里,消除通用 vs 定制的传统取舍。
如何使用ForgeTrain
-
开源获取:代码已完全开源,GitHub 地址:https://github.com/OpenBMB/ForgeTrain
-
包含内容:ForgeTrain 框架代码(含 H100 和昇腾两个版本)+ Agent Harness 完整工具链(评测标准、测试规约、智能体编排方案)。
-
复现路径:任何团队可使用 Agent Harness 复现从逐比特对齐到性能反超的全过程。
-
实际验证:面壁智能已用 ForgeTrain 在华为昇腾芯片上完成 MiniCPM5-1B 的完整预训练,证明闭环可行性。
ForgeTrain的核心优势
-
AI 制造 AI 的首个生产级验证:不同于英伟达 VibeTensor明确标注”非生产”、Anthropic C 编译器、OpenAI Harness,ForgeTrain 是唯一同时做到生产级可用 + 性能卓越 + 完全开源的 AI 生成框架。
-
研发效率 100 倍提升:将大模型训练框架的开发从人类主导转变为 AI 自主锻造。
-
打破国产算力生态瓶颈:无需花十年堆另一个 CUDA,AI 可为每款芯片即时锻造专属软件栈,实现”芯片出多快,软件就能跟多快”。
-
成本节省:同等任务下直接节省 10% 算力成本。
-
L4 级 AI 制造 AI:在”AI 制造 AI”五级进化路径中达到 L4,即 AI 改造 AI 自身基础设施,递归开始复利。
ForgeTrain的项目地址
- GitHub仓库:https://github.com/OpenBMB/ForgeTrain
ForgeTrain的同类竞品对比
| 维度 | ForgeTrain(面壁智能) | VibeTensor(英伟达) |
|---|---|---|
| 生产级可用 | 是 | 明确标注「非生产」 |
| 领域 | 大模型预训练框架 | 深度学习运行时 |
| 性能表现 | 比 Megatron 快 10% | 慢于 PyTorch 1.7-6.2x |
| 多硬件适配 | H100 + 华为昇腾 | 仅英伟达 |
| 完全开源 | 是 | 是 |
| AI 编写程度 | 零人类代码介入 | 部分 |
| 方法论 | Forge Engineering(标准→对齐→反超) | 直接行为对齐 |
| 实际验证 | 已训练出 MiniCPM5-1B(AA 榜单 2B 以下 Top 1) | 无生产级验证 |
ForgeTrain的应用场景
-
大模型预训练:直接替代 Megatron 等人类编写的训练框架,用于生产级大模型训练。
-
国产算力适配:为华为昇腾等国产芯片快速锻造专属高性能训练框架,打破 CUDA 生态垄断。
-
AI 研究加速:降低大模型研发成本,使大模型年度能力增长从”人力规模函数”转变为”算力规模函数”。
-
软件工程范式变革:作为 Forge Engineering 的首个实例,为其他复杂系统(编译器、数据库、操作系统等)的 AI 自动生成提供方法论参考。
-
端侧模型训练:面壁智能已用其训练出 MiniCPM5-1B,在 AA 榜单 2B 以下规模位列全球第一,适用端侧高效模型研发。