Qwen3-TTS全家桶开源上线!
通义千问团队正式开源Qwen3-TTS系列语音生成模型,包含1.7B和0.6B两种参数规模,全面支持音色克隆、音色创造与拟人化语音生成。采用创新的12Hz多码本语音编码器与双轨建模架构,实现高效语音压缩与高保真还原,首包音频延迟低至97毫秒。模型覆盖中、英、日、韩等10种主流语言及方言,支持自然语言指令精确控制音色、情感及韵律。
通义千问团队正式开源Qwen3-TTS系列语音生成模型,包含1.7B和0.6B两种参数规模,全面支持音色克隆、音色创造与拟人化语音生成。采用创新的12Hz多码本语音编码器与双轨建模架构,实现高效语音压缩与高保真还原,首包音频延迟低至97毫秒。模型覆盖中、英、日、韩等10种主流语言及方言,支持自然语言指令精确控制音色、情感及韵律。
清华大学、中国人民大学、面壁智能与OpenBMB社区联合发布本地化深度调研智能体 AgentCPM-Report。模型仅8B参数,通过40轮深度检索与100轮思维链推演,在DeepResearch Bench等三大评测中综合表现超越部分顶级闭源系统,尤其在洞察性指标排名第一。
腾讯CodeBuddy Code 2.0版本正式发布,核心升级包括开放SDK集成能力,通过Plan模式与ACP协议实现Agent能力标准化输出,支持企业快速构建生产级AI应用。平台全面兼容开发者社区生态,支持Plugin插件市场与自定义Subagents智能体,集成TencentOS提供容器化安全沙箱运行环境。新版本增强工程记忆、LSP代码诊断等核心功能,支持GLM-4.7等多模型切换。
百度正式发布文心大模型5.0版本,模型参数量达2.4万亿,采用原生全模态统一建模技术,具备文本、图像、音频、视频等信息的全面理解与生成能力。官方表示,在40余项权威基准评测中,其语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等国际主流模型。
MiniMax发布第二代智能体产品MiniMax Agent 2.0,推出“AI原生工作台”新范式。平台包含桌面端应用,支持Windows和Mac系统,可深度打通本地文件与环境,实现本地与云端任务的无缝协同。核心创新“Expert Agents”专家系统,通过封装行业SOP与私有知识,将专业能力从通用70分提升至95分以上。
阶跃星辰(StepFun)开源10B参数多模态模型Step3-VL-10B,在多项基准测试中性能超越参数量20倍以上的主流大模型。模型在视觉感知、数学竞赛、逻辑推理等核心维度达到SOTA水平,其创新的并行协调推理机制(PaCoRe)显著提升复杂任务处理能力。
马斯克宣布正式开源X平台(原Twitter)核心推荐算法代码x-Algorithm,成为首个将流量分发逻辑完全透明化的主流社交平台。新版算法采用与xAI的Grok模型相同的Transformer架构,实现”零人工特征工程”,完全依赖模型自主学习用户交互历史来预测内容相关性。
月之暗面(Moonshot AI)正式启动Kimi新模型API内测计划,面向已完成企业认证的开放平台用户开放申请。平台将根据开发者使用场景与新模型能力的匹配度筛选首批测试用户,通过审核后将由官方团队电话联系。与开发者共同探索下一代模型的应用潜力。
月之暗面在距上轮融资仅数周后启动新一轮融资,投前估值逼近48亿美元,较上月43亿美元估值溢价5亿美元。本轮融资获机构疯狂抢购,主因智谱与MiniMax港股上市表现强劲后,投资人加速布局中国AI头部标的。公司目前持有超100亿人民币现金储备,创始人杨植麟表示不急于IPO,将聚焦下一代K3推理模型研发与算力扩容。 Finance
AI陪伴公司「自然选择」完成超3000万美元融资,投资方包括阿里巴巴、蚂蚁集团、启明创投等机构。公司推出的《EVE》产品重新定义了AI陪伴的五个维度:主动发起关怀、双商兼具的”活人感”、SOTA级长时记忆、高沉浸感设计以及破次元生活服务介入。
智谱AI正式开源并发布GLM-4.7-Flash模型,模型采用混合思考架构,总参数量30B,激活参数量仅3B,为轻量化部署提供高性能选择。模型在SWE-bench Verified、τ²-Bench等主流基准测试中表现优异,超越同尺寸开源模型达到SOTA水平。
光轮智能与World Labs合作破解具身智能规模化评测难题,通过”数字表亲”仿真方案替代传统高成本数字孪生技术。该方案基于轻量真实世界采集数据,利用3D高斯泼溅技术快速生成可物理交互的仿真环境,将环境创建时间压缩至分钟级。
AI视频生成企业爱诗科技与港股上市公司中国儒意达成战略合作,并获得1420万美元战略投资。双方将共同探索AI技术在影视制作、流媒体平台南瓜电影及游戏业务中的创新应用,重点开发影视视觉设计、视效制作、宣传素材智能生成等环节。爱诗科技将获得中国儒意优质版权内容授权,合作研发多模态智能体技术。
安克与飞书联合发布AI录音豆,产品单体仅重10克,采用豆型轻巧设计,可夹于衣领、袖口等位置实现无感佩戴。内置的AI能力由飞书提供,支持多语言转写翻译、会议纪要自动生成,能将录音内容智能分析为鱼骨图等可视化图表,自动同步至飞书多维表格。
字节跳动旗下AI智能体平台“扣子”正式发布2.0版本,推出四大核心功能升级。Agent Skills技能系统支持用户为AI安装行业专业能力包;Agent Plan支持设定长期目标后由AI自主规划执行;Agent Office提供深度职场场景理解与洞察;Agent Coding实现云端一站式开发。
美团LongCat团队发布并开源智能体模型LongCat-Flash-Thinking-2601,在智能体工具调用、搜索等核心评测中达到开源SOTA水平。模型创新引入”重思考”模式,支持8个并行推理路径协同工作,在复杂随机任务中性能超越Claude。
智谱AI与华为联合研发的多模态模型GLM-Image在开源后24小时内登顶Hugging Face Trending榜单首位,成为首个完全依托国产昇腾芯片完成全流程训练的SOTA模型。模型采用创新的”自回归+扩散解码器”混合架构,在复杂视觉文本生成和长文本渲染任务中表现优异,尤其擅长汉字生成。
腾讯混元3D Studio 1.2版本今日全面开放公测,无需申请即可体验。该版本核心升级包括PartGen 1.5组件生成模型,拆分精度提升至1536³分辨率,并首次支持笔刷交互,用户可通过笔刷进行细粒度组件拆分控制。
谷歌发布基于Gemma 3架构的开放翻译模型系列TranslateGemma,提供4B、12B和27B三种参数规模。系列支持55种核心语言及多模态图像翻译,其中12B版本翻译质量超越参数量更大的基线模型,4B模型性能与12B基线相当,可在手机端流畅运行。
OpenAI与美国AI芯片公司Cerebras签署价值近100亿美元(约697亿元人民币)的超级订单,将部署750兆瓦的Cerebras晶圆级系统,打造全球最大高速AI推理平台。合作将于2026年起分阶段实施,2028年前完成,Cerebras芯片推理速度达GPU系统的15倍。
阶跃星辰开源语音推理模型Step-Audio-R1.1在权威评测Artificial Analysis Speech Reasoning中以96.4%准确率登顶全球第一,超越Grok、Gemini等主流模型。是全球首个开源原生语音推理模型,具备深度语音推理和实时响应能力,可端到端理解音频内容并进行复杂逻辑推理。
千问App正式上线400多项AI办事功能,标志着从”聊天对话”迈入”AI办事时代”。应用深度接入淘宝、支付宝、高德、飞猪等阿里生态业务,在全球首次实现AI点外卖、购物、订机票酒店等实用功能,用户可在对话界面内完成支付无需跳转。上线的”任务助理”支持多步骤复杂任务规划,新增学习辅助功能。
快手科技宣布其视频生成大模型可灵AI在2025年12月单月收入突破2000万美元,年化收入运行率达2.4亿美元。产品在上线第10个月实现ARR破1亿美元后,于第19个月再次实现跨越式增长。2025年12月,可灵AI通过”全能灵感周”集中发布了可灵视频O1、可灵图片O1等多款新模型,在视频编辑、一致性保持等方面实现技术突破。
MiniMax开源新一代Coding Agent评测集OctoCodingBench,首次将评估重点从”结果正确”转向”过程规范遵循”。评测集通过Check-level准确率和Instance-level成功率两项指标,系统评估AI编程助手在遵循命名规范、安全规则、团队协作规范等过程约束的能力。