project
Models.dev - OpenCode 团队开源的 AI 模型数据库
Models.dev 是 OpenCode 团队开源的 AI 模型数据库。Models.dev 以标准化 TOML 格式整合 OpenAI、Anthropic、Google 等数十家主流厂商的模型信息,涵盖价格、...
Models.dev是什么
Models.dev 是 OpenCode 团队开源的 AI 模型数据库。Models.dev 以标准化 TOML 格式整合 OpenAI、Anthropic、Google 等数十家主流厂商的模型信息,涵盖价格、上下文窗口、工具调用、知识截止等关键规格,提供公开 JSON API(models.dev/api.json)供开发者直接调用。Models.dev 解决了 AI 模型信息碎片化痛点,帮助开发者一站式查询与精确成本估算,高效完成模型选型。
Models.dev的主要功能
-
一站式模型信息查询:收录 OpenAI、Anthropic、Google、Meta 等数十家主流厂商的基础对话模型与专业领域模型,无需在多个官网间切换查找。
-
精确成本估算:详细记录每个模型的输入/输出/推理/缓存读取/缓存写入成本(每百万 token 美元),以及音频输入输出成本,帮助项目精确估算预算。
-
能力规格对比:标准化展示模型是否支持工具调用、推理/思维链、结构化输出、温度控制、文件附件,以及知识截止日期、上下文窗口、最大输入输出 token 数、支持模态等关键指标。
-
公开 JSON API:提供
models.dev/api.json接口,开发者可直接在项目中调用完整模型数据,用于构建模型选型工具、成本计算器或管理面板。 -
提供商 Logo 获取:通过
models.dev/logos/{provider}.svg接口直接获取各厂商 Logo。 -
社区协作维护:数据用 TOML 格式按提供商分类存储,支持社区贡献,确保数据库持续更新。
Models.dev的技术原理
-
三阶段循环架构:输入经Prelude(标准Transformer层)编码后,进入Recurrent Block循环迭代T次,最后由Coda输出;每次循环通过注入原始输入e防止隐状态漂移。
-
隐式思维链:每次循环等效于一步Chain-of-Thought推理,但在连续潜空间静默运行,不输出中间token;支持同时编码多条推理路径。
-
LTI稳定约束:将循环视为线性时不变系统,通过参数化A为负对角矩阵并离散化,严格保证谱半径ρ(A)<1,从根本上解决残差爆炸和训练发散。
-
MoE+循环协同:MoE提供跨领域广度,循环机制提供推理深度;隐藏状态在循环中演化时,路由器可能选择不同专家子集,使每次循环计算独特。
-
自适应停止:支持ACT(Adaptive Computation Time)机制,模型动态决定何时停止循环,避免”过度思考”。
如何使用Models.dev
-
安装:
pip install open-mythos,可选[flash]启用Flash Attention 2。 -
配置:选择
mla或gqa注意力类型,使用MythosConfig设置维度、头数、循环次数等参数。 -
创建模型:
OpenMythos(cfg)初始化网络。 -
推理生成:调用
model.generate(max_new_tokens=8, n_loops=8),通过n_loops控制推理深度。 -
训练:使用
training/3b_fine_web_edu.py脚本,单卡直接运行或多卡通过torchrun启动。
Models.dev的关键信息和使用要求
-
环境:Python + PyTorch;Flash Attention 2需CUDA与编译工具链。
-
分词器:使用
openai/gpt-oss-20b分词器。 -
精度:H100/A100推荐bfloat16,旧GPU使用float16 + GradScaler。
-
训练配置:AdamW优化器,线性warmup 2000步后余弦衰减,目标约30B tokens。
-
规模覆盖:从1B实验模型到1T理论配置均有预定义参数。
Models.dev的核心优势
-
参数高效:k层循环L次等效于kL层固定深度网络,参数量仅k层规模,内存不随推理深度增长。
-
推理可扩展:测试时增加循环次数即可提升推理能力,遵循可预测的饱和指数衰减规律。
-
训练稳定:LTI约束机制彻底解决循环模型训练不稳定和损失尖峰问题。
-
系统泛化:在分布外(OOD)组合推理上表现优异,通过”顿悟”式三阶段过程实现能力跃迁。
-
深度外推:训练5步推理链,测试时可成功扩展至10步, vanilla Transformer则失败。
Models.dev的项目地址
- 项目官网:https://models.dev/
- GitHub仓库:https://github.com/anomalyco/models.dev
Models.dev的同类竞品对比
| 维度 | OpenMythos | DeepSeek-V3 | Qwen2.5 |
|---|---|---|---|
| 核心架构 | 循环深度Transformer(RDT) | MoE Transformer | Dense / MoE Transformer |
| 注意力机制 | MLA / GQA 可切换 | MLA | GQA |
| 循环推理 | 核心特性(潜空间隐式CoT) | 无 | 无 |
| 开源程度 | 完全开源(代码+训练脚本+文档) | 开源权重 | 开源权重 |
| 模型规模 | 1B – 1T 预配置 | 671B(总参) | 0.5B – 72B 等 |
| 产品定位 | 研究验证 / 理论复刻 | 生产级通用模型 | 生产级通用模型 |
| 推理扩展 | 增加循环次数扩展深度 | 固定层数 | 固定层数 |
Models.dev的应用场景
-
AI架构研究:验证循环Transformer、隐式推理链与测试时计算扩展理论。
-
注意力机制实验:对比MLA与GQA在循环架构下的KV缓存效率与推理质量。
-
MoE研究:测试稀疏专家路由与循环深度结合对多领域任务的影响。
-
模型训练:基于开源代码和脚本,在FineWeb-Edu等数据集上从头训练自定义规模模型。
-
稳定性研究:验证LTI约束、谱半径控制与连续深度批处理等技术的实际效果。