project
LongCat-2.0-Preview - 美团推出的万亿参数级大模型预览版
LongCat-2.0-Preview 是美团推出的万亿参数级大模型预览版,采用 MoE 架构,总参数达 1.6T、激活参数约 48B,支持 1M 超长上下文。
LongCat-2.0-Preview是什么
LongCat-2.0-Preview 是美团推出的万亿参数级大模型预览版,采用 MoE 架构,总参数达 1.6T、激活参数约 48B,支持 1M 超长上下文。模型基于 5–6 万张国产加速卡完成全流程训练与推理,英伟达算力占比为 0,系业内首次在国产芯片上跑通万亿级大模型训推闭环,目前模型已开放内测,每日提供 1000 万免费 Token 额度。
LongCat-2.0-Preview的主要功能
-
超长上下文理解:支持 1M token 长文本输入,可处理整本书籍、大型代码库、长篇报告等海量内容。
-
代码生成与推理:基于 MoE 架构精准调度专家网络,在编程、数学推理与复杂指令跟随任务中表现稳定。
-
多轮对话与语义检索:通过稀疏注意力机制,在长对话历史中快速定位关键信息,减少重复计算。
-
多模态内容理解:结合美团在本地生活场景的积累,支持对复杂业务文档、图文混合内容的深度解析。
LongCat-2.0-Preview的技术原理
-
MoE(混合专家)架构:总参数 1.6T 中仅激活 48B 参与单次前向计算,通过门控路由动态选择最相关的专家模块,降低推理成本。
-
N-gram Embedding:将部分原本位于专家层的参数前移至 Embedding 层,引入词组级建模能力,使高频语言模式可直接匹配命中,减少逐层计算开销。
-
稀疏注意力与跨层流感知索引:引入轻量稀疏注意力机制,叠加跨层语义路径索引,避免全量 O(n²) Attention 计算,保障 1M 上下文下的推理延迟可控。
-
确定性算子自研:针对国产芯片生态,自研 FlashAttention 反向梯度(FAG)、Scatter 类算子及 GEMM 模块,将性能损失控制在 5% 左右,确保万卡集群长期训练的可复现性。
-
显存与通信优化:通过 V-ZB 算法将训练峰值显存压缩至 60GB 以下,重构专家并行(EP)、张量并行(TP)与流水线并行(PP)策略,适配国产芯片带宽与显存约束。
如何使用LongCat-2.0-Preview
- 申请内测资格:访问LongCat开放平台,官网点击内测申请入口,填写基本信息并提交审核。
- 等待审核通过:团队将在申请提交后进行资格审核,通过后以邮件或短信形式通知用户开通权限。
- 登录平台获取额度:用审核通过的账号登录 LongCat 平台,系统自动发放每日 1000 万 Token 的免费调用额度。
- 选择接入方式:用户可通过 Web 聊天界面直接体验,或根据文档指引获取 API Key,将模型接入自有应用与工作流程。
- 开始长文本任务:在对话框或 API 请求中输入长文档、代码库或复杂指令,模型将基于 1M 上下文窗口与 MoE 专家网络完成推理并返回结果。
LongCat-2.0-Preview的关键信息和使用要求
-
模型名称:LongCat-2.0-Preview
-
发布方:美团 / LongCat 团队
-
模型架构:MoE,总参数 1.6T,激活参数 48B
-
上下文窗口:1M(百万级)token
-
算力底座:5–6 万张国产加速卡,训推全流程国产化
-
使用阶段:受邀内测,需申请资格
-
免费额度:每日 1000 万 Token
-
硬件要求:用户端无需配置硬件,通过云端 API 或 Web 界面调用
LongCat-2.0-Preview的核心优势
-
全流程国产自主可控:从训练到推理完全基于国产芯片,摆脱对英伟达 CUDA 生态的依赖,验证国产算力可支撑顶级大模型任务。
-
超长文本能力领先:1M 上下文窗口配合稀疏注意力,在长文档分析、视频脚本理解等场景具备显著优势。
-
推理成本可控:MoE 架构仅激活少量专家,N-gram Embedding 进一步降低计算量,单位任务成本远低于稠密模型。
-
工程稳定性强:通过确定性计算与多层容错恢复体系,在万卡级国产集群上实现长周期稳定训练,故障定位与复现能力追平国际水平。
-
开源基因深厚:LongCat 团队已开源 Flash、Video、Image、AudioDiT 等多个项目,2.0 版本大概率延续开放路线。
LongCat-2.0-Preview的同类竞品对比
| 对比维度 | LongCat-2.0-Preview | DeepSeek-V4 |
|---|---|---|
| 发布方 | 美团 | DeepSeek |
| 总参数量 | 约 1.6T | 万亿级 |
| 激活参数 | 约 48B | 未公开具体数值 |
| 上下文窗口 | 1M | 1M |
| 训练算力 | 5–6 万张国产卡,全流程 | 英伟达 GPU 训练,国产平台推理首发 |
| 架构特色 | N-gram Embedding + 稀疏注意力 | MLA + MoE |
| 国产自主程度 | 训推全流程国产化,英伟达含量为 0 | 训练依赖英伟达,推理可跑国产芯片 |
| 开源策略 | 大概率延续开源 | 已开源 |
| 使用成本 | 内测阶段每日 1000 万免费 Token | V4 Flash 0.02 元/百万 Tokens,V4 Pro 0.025 元/百万 Tokens |
| 生态定位 | 验证国产算力上限,深耕本地生活场景 | 极致性价比,服务广泛开发者 |
LongCat-2.0-Preview的应用场景
-
长文档分析与研报生成:一次性输入百万字级资料,进行摘要提取、观点对比与深度研报撰写。
-
大型代码库理解与开发:处理整个项目仓库的代码,完成跨文件依赖分析、Bug 定位与功能模块生成。
-
智能客服与工单处理:在电商、外卖、酒旅等场景中,基于超长上下文理解用户历史订单与复杂投诉链路。
-
多语言翻译与本地化:利用长上下文保持术语一致性,处理整本技术手册或影视字幕的批量翻译。
-
教育科研与知识管理:辅助学者快速梳理海量文献,构建知识图谱,回答跨论文的综合性问题。