OpenBMB开源2B参数语音合成模型 VoxCPM2,采用无分词器扩散自回归架构,支持30种语言及中文方言,输出48kHz录音室级音质。模型首创Voice Design功能,可通过文字描述凭空创造声音;支持可控声音克隆与终极克隆模式。模型训练数据达236万小时,实时率低至0.13,采用Apache-2.0协议可商用。
OpenBMB开源2B参数语音合成模型 VoxCPM2,采用无分词器扩散自回归架构,支持30种语言及中文方言,输出48kHz录音室级音质。模型首创Voice Design功能,可通过文字描述凭空创造声音;支持可控声音克隆与终极克隆模式。模型训练数据达236万小时,实时率低至0.13,采用Apache-2.0协议可商用。
面壁智能完成新一轮数亿元人民币融资,由深创投与汇川产投联合领投,获评2026年中国独角兽企业。公司专注端侧大模型,践行”密度法则”,MiniCPM系列下载量突破2400万,已在长安马自达、吉利银河等汽车及智能手机、智能家居领域规模化落地。
微软推出AI转录模型 MAI-Transcribe-1,在FLEURS基准测试中以3.9%字错误率宣称全球最精准,支持25种主要语言,在11种核心语言上登顶,性能超越Whisper-large-v3和Gemini 3.1 Flash。模型批量转录速度达Azure Fast服务2.5倍,定价每小时0.36美元,已在Microsoft Foundry平台开放使用,暂不支持实时转录和说话人分离功能。
字节跳动旗下扣子2.5正式上线,推出”Agent World”生态。新版本为 AI Agent 配备独立云电脑与云手机,支持 7×24 小时后台自主运行任务;集成视频创作、编程 CLI 及法律金融等行业专家技能;引入长期记忆系统,实现跨平台个性化协作。
前OpenAI科学家Andrej Karpathy推出 LLM Wiki 知识库构建方案,引发社区热议。LLM Wiki提出在Agent时代只需分享”想法文件”,由Claude、Codex等Agent自动构建个人知识库。系统分原始数据、Wiki、Schema三层,通过数据摄取、查询、质量检查形成闭环,支持知识持续积累与自我增强,适用于研究、阅读、企业知识管理等场景。
阿里通义实验室推出视频生成大模型Wan2.7-Video,支持全模态输入与”指令P视频”式编辑,可精准增删改视频元素、修改台词动作及机位。Wan2.7-Video支持最多5个主体特征一致性控制、故事板分镜、创意复刻与剧情续写。模型以”戏核”为驱动,实现智能剧情设计、40+种表情演绎及专业运镜。
小米推出 Xiaomi MiMo Token Plan 订阅方案,采用统一Credit点数计费,取消5小时token使用限额。Token Plan提供Lite(¥39/月)、Standard(¥99/月)、Pro(¥329/月)、Max(¥659/月)四档套餐。方案适配Claude Code、OpenClaw等主流AI开发工具,用户可按需选择不同档位。 MiMo
AI视频平台OiiOii正式开放注册,接入满血Seedance 2.0模型,无需排队可生成高质量视频。本次更新新增多宫格分镜预览,告别”抽卡”式创作;推出自由画布模式,支持模型直接选择;上线场景资产与设计师功能,配合人物资产确保画面一致性。同时新增”真人”画风等热门风格,全面提升创作体验与效率。 AI
Google 推出 Gemma 4 系列开放模型,被称为”同等规模下性能最强”。模型包含 E2B、E4B、26B MoE 和 31B Dense 四个版本,专为高级推理和智能体工作流设计。31B 和 26B 模型在 Arena AI 排行榜上分别位列全球开放模型第3和第6位。全系支持多模态、长上下文及140多种语言,采用 Apache 2.0 许可开源。
B站自研AI创作工具updream正式开启内测,面向UP主提供轻量化、智能化创作体验。产品采用定向邀请制,创作者需邀请码获得使用权限。updream具备三大核心能力:灵感生成与内容构思、智能剪辑与高效制作、个性化技能库与项目管理。
OpenClaw官方推出ClawHub镜像站 ,解决国内访问技能市场缓慢问题。镜像站由字节跳动BytePlus和火山引擎赞助基础设施,提供完整中文界面与数据同步,持续收录社区高质量Skill。用户可通过cn.clawhub-mirror.com直接访问,在OpenClaw中无缝调用各类Agent技能。
通义实验室推出Qwen3.6-Plus模型,支持通过阿里云百炼 API 开放调用。模型聚焦编码智能体能力跃升,在代码生成、修复及终端自动化等场景表现更稳定,默认支持 100 万上下文窗口,多模态感知与推理能力同步增强。模型在国内同尺寸模型中编码智能体能力领先,前端开发、复杂文档理解等任务表现突出。
智谱推出GLM-5V-Turbo多模态Coding基座模型。模型原生融合视觉与文本能力,支持从设计稿、截图直接生成可运行代码,上下文窗口达200k。模型在多模态Coding、GUI Agent等基准测试中表现领先,深度适配Claude Code与AutoClaw等Agent框架,让AI Agent具备”视觉”能力。
昆仑万维推出「天工短剧工作台」 ,基于多智能体协同,融合Seedance、SkyReels、可灵、Vidu四大视频模型。平台提供传统分镜与智能分镜两种模式,支持资产提取、角色多视图推理、一键成片,实现”输入剧本→直达成片”的工业化流程,解决AI短剧创作周期长、成本高、一致性差等痛点。
美团LongCat团队推出LongCat-AudioDiT语音合成模型,实现零样本音色克隆SOTA性能。模型直接在波形潜空间进行扩散生成,摒弃传统梅尔频谱中间表示,避免信息损失。LongCat-AudioDiT提出双重约束对齐(DCA)和自适应投影引导(APG)两项关键技术,修复训练-推理不匹配问题并缓解过饱和。
通义实验室推出AI图像生成与编辑模型Wan2.7-Image ,主打”人更真、字更稳、色更准”。模型支持深度自定义虚拟形象,避免”AI标准脸”;支持4000超长字符及多语言、表格、公式稳定生成,解决乱码痛点;新增”色彩控制调色盘”,可通过Hex色值精确控制品牌色,确保设计符合VI规范。
爱诗科技闪电发布周 Day 2 PixVerse 推出三项更新:快应用、团队版与CLI工具。快应用首批上线”广告大师”,支持商品图一键生成广告视频;团队版支持2-100人协作,提供共享积分池、四级权限及独立空间;CLI工具让开发者通过命令行调用视频生成能力,接入自动化工作流与AI Agent,推动AI视频创作向完整系统升级。 AIsphere
OpenAI完成史上最大单轮融资1220亿美元,投后估值达8520亿美元,由亚马逊、英伟达、软银等领投。同时因日均成本高达100万美元且用户留存低迷,OpenAI关闭了视频生成产品Sora。标志着公司战略从惊艳Demo转向务实商业化,聚焦文本模型、代码生成和企业服务等稳定现金流业务,为IPO铺路,意图成为AI基础设施层。
腾讯宣布企业微信CLI项目wecom-cli开源上架GitHub,开放消息、日程、文档、智能表、会议、待办、通讯录七大核心能力,支持Claude Code、QClaw等主流AI Agent调用。开发者可快速开发办公场景AI应用,实现消息收发、文档编辑、会议预定、待办管理等功能。
腾讯 WorkBuddy 微信小程序正式上线,支持”云端+本机”双模式运行。用户可通过手机语音、拍照、传文件等方式派活,AI 在云端沙箱或本地电脑远程执行,生成文档、PPT、视频等产物可一键下载转发。小程序内置 GLM-5.0、Kimi-K2.5 等多模型,支持灵活切换和定时任务,实现”手机遥控,电脑/云端干活”的移动办公体验。
Kimi开放平台官网域名更新,即日起用户可通过 platform.kimi.com 访问Kimi开放平台,使用Kimi API创建应用。用户可像之前一样正常登录和使用,无需额外操作。
爱诗科技”拍我AI闪电发布周”首日推出PixVerse V6。新版本在人物真实感、复杂运动、物理模拟与声画协同等方面全面升级,生成时长最长可达15秒。PixVerse V6重点优化人物皮肤纹理与情绪表达,增强高速运动场景稳定性与物理属性模拟,支持镜头间运动惯性与光影连贯性,降低创作门槛,可通过简短提示词生成复杂特效。 AIsphere
阿里通义推出Qwen3.5-Omni全模态大模型,在215项音频及音视频任务中取得SOTA,全面超越Gemini-3.1-Pro。模型采用Thinker-Talker分工架构与Hybrid-MoE技术,原生支持文本、图像、音频及音视频输入,具备细粒度音视频Caption生成能力。新增语义打断、音色克隆、语音控制等实时交互功能,支持256K超长上下文、113种语言识别及10小时音频处理。
智谱宣布GLM-5.1模型已向所有Coding Plan用户(Lite/Pro/Max三档)开放。模型定位代码生成与编程辅助,覆盖从个人开发者到企业团队的多元需求。全面开放标志着智谱在AI编程助手领域的进一步布局,将与GitHub Copilot、Cursor等工具展开竞争。