Step 3.5 Flash - 阶跃星辰最新开源的基座模型 - AiBoss

Step 3.5 Flash是什么

Step 3.5 Flash 是阶跃星辰最新开源的基座模型，专为 Agent 场景推出。模型采用稀疏 MoE 架构，总参数 1960 亿，每 token 仅激活 110 亿参数，兼顾性能与效率。Step 3.5 Flash推理速度高达 350 TPS，支持 256K 长上下文，在数学推理、代码生成（SWE-bench 74.4%）和 Agent 任务上媲美顶级闭源模型。Step 3.5 Flash已开源并支持 vLLM、SGLang、llama.cpp 等框架，可在 Mac Studio M4 Max、NVIDIA DGX Spark 等消费级硬件本地部署，实现数据隐私与高性能兼得。

Step 3.5 Flash的主要功能

高速推理：模型通过 MTP-3 技术实现最高 350 TPS 的生成速度，支持复杂多步推理的即时响应。
Agent 能力：模型专为智能体任务设计，在 SWE-bench Verified 达到 74.4%，可处理长链条复杂任务。
高效长文本：支持 256K 上下文窗口，采用混合注意力机制降低长文本计算开销。
本地部署：优化消费级硬件支持，可在 Mac Studio M4 Max、NVIDIA DGX Spark 等设备流畅运行。
代码生成：模型具备强大的编程能力，支持自动工具调用和结构化推理输出。

Step 3.5 Flash的技术原理

稀疏 MoE 架构：模型采用 45 层 Transformer 骨干网络，每层配置 288 个细粒度路由专家和 1 个共享专家。推理时仅激活 Top-8 专家，每 token 实际计算约 110 亿参数，实现 1960 亿总参数规模的模型能力与小模型推理成本的平衡。
MTP-3 多 Token 预测：通过滑动窗口注意力机制与密集前馈网络组成的专用预测头，单次前向传播并行生成 4 个 token。将典型场景生成速度提升至 100-300 tok/s，峰值可达 350 tok/s，显著降低解码延迟。
混合注意力机制：采用 3:1 滑动窗口注意力与全局注意力层交替的架构设计。滑动窗口层聚焦局部上下文，全局层捕捉长距离依赖，在 256K 长文本场景下有效控制计算复杂度，兼顾效率与性能。
推理优化策略：模型支持专家并行（EP8）与张量并行（TP8）的组合部署，配合 FP8 量化降低显存带宽压力。通过投机解码与 MTP 协同，在 Hopper GPU 上实现高效服务化部署。

Step 3.5 Flash的项目地址

GitHub仓库：https://github.com/stepfun-ai/Step-3.5-Flash/
HuggingFace模型库：https://huggingface.co/stepfun-ai/Step-3.5-Flash

Step 3.5 Flash的应用场景

智能编程开发：作为 Claude Code、Codex 等工具的底层模型，提供代码生成、自动调试、软件工程任务处理等能力，在 SWE-bench Verified 上达到 74.4% 的通过率。
自主智能体执行：适用深度研究、网页信息检索、跨平台数据对比等需要长链条推理的 Agent 场景。
实时对话交互：凭借 100-350 TPS 的生成速度，支撑低延迟聊天机器人、在线教育辅导、智能客服等需要即时响应的交互应用。
长文本分析处理：可进行学术论文研读、法律合同审查、大型代码库理解，高效提取并整合海量信息。
端侧隐私计算：可在 Mac Studio M4 Max、NVIDIA DGX Spark 等本地设备部署，满足金融、医疗、企业办公等敏感数据的私有化处理需求。

Step 3.5 Flash是什么

Step 3.5 Flash的主要功能

高速推理：模型通过 MTP-3 技术实现最高 350 TPS 的生成速度，支持复杂多步推理的即时响应。

Agent 能力：模型专为智能体任务设计，在 SWE-bench Verified 达到 74.4%，可处理长链条复杂任务。

高效长文本：支持 256K 上下文窗口，采用混合注意力机制降低长文本计算开销。

本地部署：优化消费级硬件支持，可在 Mac Studio M4 Max、NVIDIA DGX Spark 等设备流畅运行。

代码生成：模型具备强大的编程能力，支持自动工具调用和结构化推理输出。

Step 3.5 Flash的技术原理

稀疏 MoE 架构：模型采用 45 层 Transformer 骨干网络，每层配置 288 个细粒度路由专家和 1 个共享专家。推理时仅激活 Top-8 专家，每 token 实际计算约 110 亿参数，实现 1960 亿总参数规模的模型能力与小模型推理成本的平衡。

MTP-3 多 Token 预测：通过滑动窗口注意力机制与密集前馈网络组成的专用预测头，单次前向传播并行生成 4 个 token。将典型场景生成速度提升至 100-300 tok/s，峰值可达 350 tok/s，显著降低解码延迟。

混合注意力机制：采用 3:1 滑动窗口注意力与全局注意力层交替的架构设计。滑动窗口层聚焦局部上下文，全局层捕捉长距离依赖，在 256K 长文本场景下有效控制计算复杂度，兼顾效率与性能。

推理优化策略：模型支持专家并行（EP8）与张量并行（TP8）的组合部署，配合 FP8 量化降低显存带宽压力。通过投机解码与 MTP 协同，在 Hopper GPU 上实现高效服务化部署。

Step 3.5 Flash的应用场景

智能编程开发：作为 Claude Code、Codex 等工具的底层模型，提供代码生成、自动调试、软件工程任务处理等能力，在 SWE-bench Verified 上达到 74.4% 的通过率。

自主智能体执行：适用深度研究、网页信息检索、跨平台数据对比等需要长链条推理的 Agent 场景。

实时对话交互：凭借 100-350 TPS 的生成速度，支撑低延迟聊天机器人、在线教育辅导、智能客服等需要即时响应的交互应用。

长文本分析处理：可进行学术论文研读、法律合同审查、大型代码库理解，高效提取并整合海量信息。

端侧隐私计算：可在 Mac Studio M4 Max、NVIDIA DGX Spark 等本地设备部署，满足金融、医疗、企业办公等敏感数据的私有化处理需求。

全部分类

Step 3.5 Flash是什么

Step 3.5 Flash的主要功能

Step 3.5 Flash的技术原理

Step 3.5 Flash的项目地址

Step 3.5 Flash的应用场景

Step 3.5 Flash是什么

Step 3.5 Flash的主要功能

Step 3.5 Flash的技术原理

Step 3.5 Flash的项目地址

Step 3.5 Flash的应用场景