Models.dev - OpenCode 团队开源的 AI 模型数据库 - AiBoss

Models.dev是什么

Models.dev 是 OpenCode 团队开源的 AI 模型数据库。Models.dev 以标准化 TOML 格式整合 OpenAI、Anthropic、Google 等数十家主流厂商的模型信息，涵盖价格、上下文窗口、工具调用、知识截止等关键规格，提供公开 JSON API（models.dev/api.json）供开发者直接调用。Models.dev 解决了 AI 模型信息碎片化痛点，帮助开发者一站式查询与精确成本估算，高效完成模型选型。

Models.dev的主要功能

一站式模型信息查询：收录 OpenAI、Anthropic、Google、Meta 等数十家主流厂商的基础对话模型与专业领域模型，无需在多个官网间切换查找。
精确成本估算：详细记录每个模型的输入/输出/推理/缓存读取/缓存写入成本（每百万 token 美元），以及音频输入输出成本，帮助项目精确估算预算。
能力规格对比：标准化展示模型是否支持工具调用、推理/思维链、结构化输出、温度控制、文件附件，以及知识截止日期、上下文窗口、最大输入输出 token 数、支持模态等关键指标。
公开 JSON API：提供 models.dev/api.json 接口，开发者可直接在项目中调用完整模型数据，用于构建模型选型工具、成本计算器或管理面板。
提供商 Logo 获取：通过 models.dev/logos/{provider}.svg 接口直接获取各厂商 Logo。
社区协作维护：数据用 TOML 格式按提供商分类存储，支持社区贡献，确保数据库持续更新。

Models.dev的技术原理

三阶段循环架构：输入经Prelude（标准Transformer层）编码后，进入Recurrent Block循环迭代T次，最后由Coda输出；每次循环通过注入原始输入e防止隐状态漂移。
隐式思维链：每次循环等效于一步Chain-of-Thought推理，但在连续潜空间静默运行，不输出中间token；支持同时编码多条推理路径。
LTI稳定约束：将循环视为线性时不变系统，通过参数化A为负对角矩阵并离散化，严格保证谱半径ρ(A)<1，从根本上解决残差爆炸和训练发散。
MoE+循环协同：MoE提供跨领域广度，循环机制提供推理深度；隐藏状态在循环中演化时，路由器可能选择不同专家子集，使每次循环计算独特。
自适应停止：支持ACT（Adaptive Computation Time）机制，模型动态决定何时停止循环，避免”过度思考”。

如何使用Models.dev

安装：pip install open-mythos，可选[flash]启用Flash Attention 2。
配置：选择mla或gqa注意力类型，使用MythosConfig设置维度、头数、循环次数等参数。
创建模型：OpenMythos(cfg)初始化网络。
推理生成：调用model.generate(max_new_tokens=8, n_loops=8)，通过n_loops控制推理深度。
训练：使用training/3b_fine_web_edu.py脚本，单卡直接运行或多卡通过torchrun启动。

Models.dev的关键信息和使用要求

环境：Python + PyTorch；Flash Attention 2需CUDA与编译工具链。
分词器：使用openai/gpt-oss-20b分词器。
精度：H100/A100推荐bfloat16，旧GPU使用float16 + GradScaler。
训练配置：AdamW优化器，线性warmup 2000步后余弦衰减，目标约30B tokens。
规模覆盖：从1B实验模型到1T理论配置均有预定义参数。

Models.dev的核心优势

参数高效：k层循环L次等效于kL层固定深度网络，参数量仅k层规模，内存不随推理深度增长。
推理可扩展：测试时增加循环次数即可提升推理能力，遵循可预测的饱和指数衰减规律。
训练稳定：LTI约束机制彻底解决循环模型训练不稳定和损失尖峰问题。
系统泛化：在分布外（OOD）组合推理上表现优异，通过”顿悟”式三阶段过程实现能力跃迁。
深度外推：训练5步推理链，测试时可成功扩展至10步， vanilla Transformer则失败。

Models.dev的项目地址

项目官网：https://models.dev/
GitHub仓库：https://github.com/anomalyco/models.dev

Models.dev的同类竞品对比

维度	OpenMythos	DeepSeek-V3	Qwen2.5
核心架构	循环深度Transformer（RDT）	MoE Transformer	Dense / MoE Transformer
注意力机制	MLA / GQA 可切换	MLA	GQA
循环推理	核心特性（潜空间隐式CoT）	无	无
开源程度	完全开源（代码+训练脚本+文档）	开源权重	开源权重
模型规模	1B – 1T 预配置	671B（总参）	0.5B – 72B 等
产品定位	研究验证 / 理论复刻	生产级通用模型	生产级通用模型
推理扩展	增加循环次数扩展深度	固定层数	固定层数

Models.dev的应用场景

AI架构研究：验证循环Transformer、隐式推理链与测试时计算扩展理论。
注意力机制实验：对比MLA与GQA在循环架构下的KV缓存效率与推理质量。
MoE研究：测试稀疏专家路由与循环深度结合对多领域任务的影响。
模型训练：基于开源代码和脚本，在FineWeb-Edu等数据集上从头训练自定义规模模型。
稳定性研究：验证LTI约束、谱半径控制与连续深度批处理等技术的实际效果。

Models.dev是什么

Models.dev的主要功能

一站式模型信息查询：收录 OpenAI、Anthropic、Google、Meta 等数十家主流厂商的基础对话模型与专业领域模型，无需在多个官网间切换查找。

精确成本估算：详细记录每个模型的输入/输出/推理/缓存读取/缓存写入成本（每百万 token 美元），以及音频输入输出成本，帮助项目精确估算预算。

能力规格对比：标准化展示模型是否支持工具调用、推理/思维链、结构化输出、温度控制、文件附件，以及知识截止日期、上下文窗口、最大输入输出 token 数、支持模态等关键指标。

公开 JSON API：提供 models.dev/api.json 接口，开发者可直接在项目中调用完整模型数据，用于构建模型选型工具、成本计算器或管理面板。

提供商 Logo 获取：通过 models.dev/logos/{provider}.svg 接口直接获取各厂商 Logo。

社区协作维护：数据用 TOML 格式按提供商分类存储，支持社区贡献，确保数据库持续更新。

Models.dev的技术原理

三阶段循环架构：输入经Prelude（标准Transformer层）编码后，进入Recurrent Block循环迭代T次，最后由Coda输出；每次循环通过注入原始输入e防止隐状态漂移。

隐式思维链：每次循环等效于一步Chain-of-Thought推理，但在连续潜空间静默运行，不输出中间token；支持同时编码多条推理路径。

LTI稳定约束：将循环视为线性时不变系统，通过参数化A为负对角矩阵并离散化，严格保证谱半径ρ(A)<1，从根本上解决残差爆炸和训练发散。

MoE+循环协同：MoE提供跨领域广度，循环机制提供推理深度；隐藏状态在循环中演化时，路由器可能选择不同专家子集，使每次循环计算独特。

自适应停止：支持ACT（Adaptive Computation Time）机制，模型动态决定何时停止循环，避免”过度思考”。

如何使用Models.dev

安装：pip install open-mythos，可选[flash]启用Flash Attention 2。

配置：选择mla或gqa注意力类型，使用MythosConfig设置维度、头数、循环次数等参数。

创建模型：OpenMythos(cfg)初始化网络。

推理生成：调用model.generate(max_new_tokens=8, n_loops=8)，通过n_loops控制推理深度。

训练：使用training/3b_fine_web_edu.py脚本，单卡直接运行或多卡通过torchrun启动。

Models.dev的关键信息和使用要求

环境：Python + PyTorch；Flash Attention 2需CUDA与编译工具链。

分词器：使用openai/gpt-oss-20b分词器。

精度：H100/A100推荐bfloat16，旧GPU使用float16 + GradScaler。

训练配置：AdamW优化器，线性warmup 2000步后余弦衰减，目标约30B tokens。

规模覆盖：从1B实验模型到1T理论配置均有预定义参数。

Models.dev的核心优势

参数高效：k层循环L次等效于kL层固定深度网络，参数量仅k层规模，内存不随推理深度增长。

推理可扩展：测试时增加循环次数即可提升推理能力，遵循可预测的饱和指数衰减规律。

训练稳定：LTI约束机制彻底解决循环模型训练不稳定和损失尖峰问题。

系统泛化：在分布外（OOD）组合推理上表现优异，通过”顿悟”式三阶段过程实现能力跃迁。

深度外推：训练5步推理链，测试时可成功扩展至10步， vanilla Transformer则失败。

Models.dev的同类竞品对比

维度

OpenMythos

DeepSeek-V3

Qwen2.5

核心架构

循环深度Transformer（RDT）

MoE Transformer

Dense / MoE Transformer

注意力机制

MLA / GQA 可切换

MLA

GQA

循环推理

核心特性（潜空间隐式CoT）

无

开源程度

完全开源（代码+训练脚本+文档）

开源权重

模型规模

1B – 1T 预配置

671B（总参）

0.5B – 72B 等

产品定位

研究验证 / 理论复刻

生产级通用模型

推理扩展

增加循环次数扩展深度

固定层数

Models.dev的应用场景

AI架构研究：验证循环Transformer、隐式推理链与测试时计算扩展理论。

注意力机制实验：对比MLA与GQA在循环架构下的KV缓存效率与推理质量。

MoE研究：测试稀疏专家路由与循环深度结合对多领域任务的影响。

模型训练：基于开源代码和脚本，在FineWeb-Edu等数据集上从头训练自定义规模模型。

稳定性研究：验证LTI约束、谱半径控制与连续深度批处理等技术的实际效果。

全部分类

Models.dev是什么

Models.dev的主要功能

Models.dev的技术原理

如何使用Models.dev

Models.dev的关键信息和使用要求

Models.dev的核心优势

Models.dev的项目地址

Models.dev的同类竞品对比

Models.dev的应用场景

Models.dev是什么

Models.dev的主要功能

Models.dev的技术原理

如何使用Models.dev

Models.dev的关键信息和使用要求

Models.dev的核心优势

Models.dev的项目地址

Models.dev的同类竞品对比

Models.dev的应用场景