阶跃星辰推出新一代自动语音识别模型StepAudio 2.5 ASR
阶跃星辰推出新一代自动语音识别模型StepAudio 2.5 ASR。模型率先将大语言模型推理加速技术引入语音识别领域,基于ASR+MTP-5架构,实现推理速度提升400%、时延降低60%、峰值达500 tokens/s,成本直降80%。在多项中英文主流评测基准上达到SOTA水平,模型复用32K上下文窗口,单次可完整转写30分钟长音频。
阶跃星辰推出新一代自动语音识别模型StepAudio 2.5 ASR。模型率先将大语言模型推理加速技术引入语音识别领域,基于ASR+MTP-5架构,实现推理速度提升400%、时延降低60%、峰值达500 tokens/s,成本直降80%。在多项中英文主流评测基准上达到SOTA水平,模型复用32K上下文窗口,单次可完整转写30分钟长音频。
DeepSeek全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源,包含deepseek-v4-pro 和 deepseek-v4-flash两个版本,均支持 1M 超长上下文。V4-Pro 在 Agent 编码、世界知识与推理性能上比肩顶级闭源模型;V4-Flash 用更低成本提供接近的推理能力。模型采用全新注意力机制与 DSA 稀疏注意力,大幅降低长上下文计算与显存开销。
讯飞旗下AI办公助手Loomy宣布全面开放,无需邀请码可注册使用。Loomy已完成超5000个真实任务闭环,覆盖金融、电商、教育等20余个行业,新用户留存率达70%。本次升级推出三大核心能力:集成飞书、企微、钉钉CLI实现自然语言操控IM工具;PPT引导式创建,通过选择题生成专业演示文稿;支持多任务并行处理,提升办公效率。
OpenAI推出新一代旗舰模型GPT-5.5,定位”面向实际工作与智能体的新型智能”。模型与英伟达GB200/GB300 NVL72系统联合设计,在编程、知识工作及科学研究领域全面超越前代与Claude Opus 4.7。GPT-5.5打破”更强必更慢”定律,速度与GPT-5.4持平且token消耗更少。
腾讯混元团队推出Hy3 preview大模型,是团队从预训练、强化学习到基础设施全面推倒重建后的首个成果。模型采用快慢思考融合的MoE架构,拥有295B总参数、21B激活参数及256K长上下文,是混元迄今最智能的模型。Hy3 preview在FrontierScience-Olympiad、IMOAnswerBench等高难度推理榜单表现突出,Agent与代码能力大幅提升,可一次性生成完整微信小程序。
字节跳动推出新一代3D生成大模型Seed3D 2.0,在几何与纹理两项核心指标上均达SOTA。模型引入Coarse-to-Fine两阶段DiT策略,解耦整体结构与精细细节,采用统一PBR生成架构结合MoE与VLM先验,大幅提升材质真实感。Seed3D 2.0拓展了部件级拆分、关节化建模及场景组合等下游能力,推动3D生成迈向”生产可用”。
据《科创板日报》,AI初创公司Anthropic在Forge Global等未上市股权交易平台的估值飙升至约1万亿美元,超越OpenAI的8800亿美元。因买家竞相抢购Anthropic日益减少的二级市场股票,推动公司估值快速攀升。
阶跃星辰与千里科技宣布达成全面战略合作,双方将共建「原生智驾基座模型」,从底层训练让AI直接理解复杂物理世界,突破物理AI能力边界。阶跃已在Agent基础大模型和全模态技术上深度布局,推出开源旗舰基座模型Step 3.5 Flash,在语音推理、自动驾驶评测等榜单取得领先。
OpenAI开源OpenAI Privacy Filter模型,用于检测和编辑文本中的个人身份信息(PII)。模型总参数15亿,支持128K上下文,可在本地运行。模型基于双向token分类架构,能识别姓名、地址、邮箱、电话、账号、密码等8类隐私信息,在PII-Masking-300k基准上达96% F1分数。
阿里通义千问团队开源Qwen3.6-27B,拥有270亿参数的稠密多模态模型。模型支持多模态思考与非思考模式,在智能体编程能力上实现旗舰级突破,于SWE-bench、Terminal-Bench等主要编程基准全面超越前代开源旗舰Qwen3.5-397B-A17B。作为稠密架构,模型无需MoE路由可部署,更便于广泛落地。
OpenAI宣布在ChatGPT中推出Workspace Agents,支持团队创建协作智能体处理复杂任务和长周期工作流 。Workspace Agents由Codex提供底层支持,具备文件处理、代码运行、工具调用和记忆存储能力,可7×24小时云端运行。系统支持Slack集成与定时调度。目前支持ChatGPT Business、Enterprise、Edu和Teachers计划。
商汤绝影推出端侧多模态智能体基座大模型Sage,采用MoE架构(32B总参数/3B激活),为行业首款车端复杂智能体基座模型。在PinchBench评测中任务完成率达94%,超越Claude-Opus-4.6、GPT-5.4等全球一线云侧大模型。Sage已在英伟达Orin X平台实现部署,将于北京车展推出Sage Box,推动智能座舱向超级智能体进化。
蚂蚁百灵大模型团队推出Ling-2.6-flash,总参数 104B、激活参数 7.4B,采用 MLA+Lightning Linear 混合注意力与稀疏 MoE 架构。模型在4 卡 H20 环境下推理速度达 340 tokens/s,评测 Token 消耗仅同类约 1/10,在 BFCL-V4、SWE-bench Verified 等 Agent 基准达 SOTA。
马斯克旗下商业航天巨头SpaceX官宣与AI编程独角兽Cursor达成深度合作,计划今年晚些时候以600亿美元收购,如果最终不执行收购,可为合作支付100亿美元。双方将结合Cursor的领先产品与SpaceX百万H100等效算力的Colossus超算,共建世界最强编程AI。
AI互动内容社区Loopit母公司涌跃智能完成新一轮5000万美元融资,由全球头部手游厂商Garena领投,蓝驰创投等机构跟投,年内累计融资近1亿美元。Loopit由前百川智能联合创始人陈炜鹏创立,上线两月即登上Google Play全球总榜第8、娱乐榜第1,获马斯克点赞。
OpenAI正式推出ChatGPT Images 2.0(GPT-Image-2),是其首个具备思考能力的图像生成模型。模型在准确性、时效性、一致性和视觉连贯性上表现突出,仅凭简单提示词可生成以假乱真的App截图、TikTok视频界面、商品广告及论文海报等复杂图像,中文文字渲染能力显著提升。
阿里通义实验室宣布专为 Agentic AI 打造一站式自动优化引擎 AgentScope Tuner 正式升级。产品提供 Prompt 调优、模型选择、强化微调三大能力,覆盖从研发初期轻量优化到后期深度调优的全周期需求。核心亮点包括 Agent 原生闭环、统一 API 设计范式、零代码改造成本。
腾讯 QClaw 海外版正式开启内测,现已开放美国、加拿大、新加坡等多个国家和地区。产品主打零门槛、免部署、下载即用,支持通过 WhatsApp 或 Telegram 远程操控电脑完成报税、健身规划、社媒运营等任务。QClaw 海外版 99% 的代码由 QClaw 自主编写,用时 5 天。
月之暗面开源Kimi K2.6模型,具备行业领先的代码、长程任务执行与Agent集群能力。模型在Humanity’s Last Exam、SWE-Bench Pro等多项基准测试中成绩持平或优于GPT-5.4、Claude Opus 4.6等闭源模型。K2.6可连续编码13小时、修改超4000行代码,Agent集群支持300个子Agent并行完成4000个协作步骤,支持长达5天的持续自主运行。 Kimi
阿里推出端到端语音识别大模型Fun-ASR 1.5,单模型覆盖30种语言,支持自动语种切换与跨语言混说。模型覆盖中文七大方言体系,字错误率较上版下降56.2%,新增古诗词专项识别准确率达97%。Fun-ASR 1.5采用MoE架构,支持智能标点预测与数字、日期等文本归一化,现已上线阿里云百炼及魔搭社区。
阿里通义千问推出下一代旗舰模型的早期预览版 Qwen3.6-Max-Preview。相比前代,模型在智能体编程、世界知识和指令遵循方面显著提升,斩获六项编程基准最高分。用户可通过 Qwen Studio 在线体验,或经阿里云百炼 API 调用,兼容 OpenAI 与 Anthropic 协议。
Anthropic推出AI原生视觉设计平台Claude Design,由Claude Opus 4.7驱动,直接挑战Adobe、Figma等传统设计软件。产品具备三大核心能力:自动提取品牌设计系统、支持文档/截图/代码库等多模态输入、设计稿一键生成可运行代码。消息发布后,Adobe、Figma、Wix等设计软件巨头股价集体闪崩。
阿里通义千问团队开源Qwen3.6-35B-A3B稀疏MoE模型,总参数350亿但激活仅30亿,专为智能体编程优化,性能大幅超越前代同时可媲美更大稠密模型。模型支持多模态推理、思考与非思考双模式,在代码生成、工具调用等基准测试中表现突出。
Anthropic正式推出Claude Opus 4.7,定位为当前最强可广泛使用的大模型。核心升级聚焦复杂任务执行、高清视觉理解和长链路工作流稳定性。视觉能力实现质的飞跃,在XBOW测试中从54.5%跃升至98.5%接近满分;编程能力达SWE-bench 80.5%;百万Token长上下文BFS测试从41.2%提升至58.6%。