project
Claude Opus 4.8 - Anthropic 推出的旗舰级大语言模型
Claude Opus 4.8 是 Anthropic 推出的旗舰级大语言模型,在 Opus 4.7 基础上提升判断力、诚实性和长时独立工作能力,在编程、智能体推理、多学科推理等基准测...
Claude Opus 4.8是什么
Claude Opus 4.8 是 Anthropic 推出的旗舰级大语言模型,在 Opus 4.7 基础上提升判断力、诚实性和长时独立工作能力,在编程、智能体推理、多学科推理等基准测试中全面领先 GPT-5.5 和 Gemini 3.1 Pro,API 价格维持不变,极速模式成本降至三分之一。
Claude Opus 4.8的主要功能
-
智能体编程:在 SWE-Bench Pro 上达到 69.2%,支持端到端软件工程任务自主完成。
-
终端编码:Terminal-Bench 2.1 得分 74.6%,具备强大的命令行工具使用与脚本编写能力。
-
多学科推理:Humanity’s Last Exam 无工具 49.8%、带工具 57.9%,超越所有主流竞品。
-
智能体计算机使用:OSWorld-Verified 得分 83.4%,可自主操作图形界面完成复杂任务。
-
知识工作:GDPval-AA 得分 1890,在文档分析、深度研究等实际工作场景中表现最优。
-
智能体金融分析:Finance Agent v2 得分 53.9%,支持复杂财务报表推理与高精度引用。
-
动态工作流:在 Claude Code 中可自主规划并并行启动数百个子智能体处理超大规模任务。
-
投入度控制:用户可手动调节模型的思考深度与资源消耗等级(低/高/额外/最大)。
-
极速模式:运行速度提升至常规模式的 2.5 倍,API 成本仅为前代极速模式的三分之一。
Claude Opus 4.8的技术原理
-
诚实性对齐训练:通过专门训练降低模型做出无依据断言的概率,主动标注自身不确定性。
-
安全性评估:发布前进行详尽的对齐评估,未对齐行为发生率与 Mythos Preview 持平。
-
子智能体并行架构:动态工作流采用主智能体调度 + 数百个子智能体并行执行的分布式架构。
-
长时运行支持:支持数日级别的持续任务执行,中断后可恢复,适用于大规模代码迁移。
-
系统条目 API:Messages API 支持在对话数组中接收系统条目,实现运行时指令动态更新。
-
多模态融合:具备直接推理 PDF、图表等非结构化内容的多模态理解与推理能力。
如何使用Claude Opus 4.8
-
API 接入:通过 Anthropic API 调用,输入 Token 每百万 5 美元,输出 Token 每百万 25 美元。
-
启动动态工作流:在 Claude Code 环境中输入「workflow」关键词即可启动大规模并行任务。
-
调节投入度:在 claude.ai 和 Claude Code 的模型选择器旁切换低/高/额外/最大投入度等级。
-
切换极速模式:在 API 或客户端中选择 Fast Mode,以 2.5 倍速度运行且成本更低。
-
企业版权限:动态工作流目前面向企业版、团队版及 Max 版用户开放。
-
第三方平台使用:Cursor 等 IDE 已第一时间上线 Opus 4.8,可直接在开发环境中切换。
Claude Opus 4.8的核心优势
-
基准全面领先:在 6 项核心基准测试中 5 项超越 GPT-5.5 和 Gemini 3.1 Pro。
-
诚实性显著提升:对代码缺陷未加提示的概率降至前代约四分之一,大幅减少幻觉风险。
-
长时任务可靠性:支持数日级连续运行,可处理数十万行代码的大规模跨语言迁移项目。
-
成本可控:常规模式价格不变,极速模式成本降至三分之一,Token 消耗效率提升约 25%。
-
安全对齐最优:未对齐行为发生率显著低于 Opus 4.7,达到 Anthropic 目前最佳安全水平。
-
灵活投入度:用户可根据任务难度自由调节模型思考深度,在质量与速度间取得最佳平衡。
Claude Opus 4.8的项目地址
- 项目官网:https://www.anthropic.com/news/claude-opus-4-8
Claude Opus 4.8的同类竞品对比
| 维度 | Claude Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|
| 智能体编程 (SWE-Bench Pro) | 69.2% | 58.6% | 54.2% |
| 终端编码 (Terminal-Bench 2.1) | 74.6% | 78.2% | 70.3% |
| 多学科推理 (Humanity’s Last Exam, 带工具) | 57.9% | 52.2% | 51.4% |
| 智能体计算机使用 (OSWorld) | 83.4% | 78.7% | 76.2% |
| 知识工作 (GDPval-AA) | 1890 | 1769 | 1314 |
| 智能体金融分析 (Finance Agent v2) | 53.9% | 51.8% | 43.0% |
| 输入价格 (每百万 Token) | $5 | 待确认 | 待确认 |
| 输出价格 (每百万 Token) | $25 | 待确认 | 待确认 |
| 极速模式成本 | 前代 1/3 | – | – |
| 动态工作流 | |||
| 投入度控制 |
Claude Opus 4.8的应用场景
-
大规模代码迁移:用动态工作流完成数十万行代码的跨语言移植,如 Bun 从 Zig 到 Rust 的迁移。
-
企业级软件开发:作为 Cursor 等 IDE 的后端模型,辅助完成端到端的软件工程任务。
-
复杂金融分析:处理密集财报、法律文件,提供高精度引用和推理的金融文档工作流。
-
深度学术研究:在 Humanity’s Last Exam 级别的多学科推理任务中提供高质量分析。
-
法律专业服务:在 CoCounsel Legal 等法律 Agent 平台中处理高风险的实质性法律工作。
-
数据与知识工作:在 Databricks Genie 等 AI Agent 中直接推理 PDF、图表等非结构化内容。