昆仑万维开源视频生成模型SkyReels-V3,重塑创作流程
昆仑万维旗下Skywork AI宣布开源视频生成模型SkyReels-V3,模型在单一架构中整合参考图像转视频、视频延长、音频驱动虚拟形象三大功能。图像转视频技术在参考一致性(0.6698)和视觉质量(0.8119)指标上超越Vidu、Kling等主流模型;视频延长支持镜头切换与叙事扩展;虚拟形象模块可实现音画同步的长视频生成。
昆仑万维旗下Skywork AI宣布开源视频生成模型SkyReels-V3,模型在单一架构中整合参考图像转视频、视频延长、音频驱动虚拟形象三大功能。图像转视频技术在参考一致性(0.6698)和视觉质量(0.8119)指标上超越Vidu、Kling等主流模型;视频延长支持镜头切换与叙事扩展;虚拟形象模块可实现音画同步的长视频生成。
昆仑万维旗下昆仑天工正式发布Mureka V8音乐大模型,宣布“AI音乐是一种新的音乐品类”。模型基于MusiCoT技术体系,在旋律完整性、人声表现力、编曲层次及混音质感上实现突破,生成效果达到可直接发布水准。
MiniMax正式推出新一代AI音乐生成模型MiniMax Music 2.5,突破性实现14种段落结构(如前奏、副歌、桥段)的标签化精准控制,支持创作者像专业编曲人一样设计整曲情绪曲线。
MiniMax正式揭秘其AI角色扮演模型MiniMax M2-her的技术架构,模型为星野/Talkie等产品的底层引擎。核心突破在于建立Role-Play Bench评估体系,从世界观一致性、故事推进多样性、用户偏好响应三大维度量化角色扮演能力,在百轮长对话测试中综合表现领先。
阿里通义开源发布6B参数的非蒸馏基座模型Z-Image,专注于解决AI绘画风格单一、人像同质化等痛点。模型支持从写实到动漫的多元风格生成,通过原生架构优化,显著提升对LoRA、ControlNet等微调方法的兼容性。
OpenAI推出基于GPT-5.2的免费科研协作平台Prism,解决科研工具碎片化问题。平台集成云端LaTeX编辑器,支持无限协作者实时共同撰写论文,AI可基于全文语境辅助完成从摘要到致谢的全流程工作,包括公式生成、文献管理、图表优化及语法校对。
DeepSeek发布并开源新一代文档识别模型DeepSeek-OCR 2,采用DeepEncoder V2架构,将传统固定顺序的图像扫描升级为具备因果注意力的语义推理模式。通过轻量级语言模型动态重排视觉Token,使AI能像人类一样按逻辑顺序理解复杂文档(如表格、多栏排版),在OmniDocBench评测中以91.09%的综合得分刷新纪录,阅读顺序识别误差降低33%。
Vidu正式推出全球首款支持“万物可参考”的视频生成模型Vidu Q2参考生Pro。模型突破性支持六大参考类型(特效、表情、纹理、动作、人物、场景),用户可通过视频或图片输入,一键复刻特效、迁移演技、替换背景,实现精细化增删改编辑。 AI
月之暗面发布迄今最智能、最全能的开源模型Kimi K2.5。模型在Agent任务、代码生成、视觉理解(图像/视频)等多项基准测试中达到开源SOTA水平,支持多模态输入及四种工作模式。创新性引入“Agent集群”能力,可自主创建多达100个分身并行处理复杂任务,效率提升最高4.5倍。
开源项目Clawdbot在GitHub爆火,Star数两天内从五千飙升至两万。项目支持自部署AI助手,通过网关连接聊天软件(如WhatsApp、Telegram)与多款AI模型(Claude、GPT等),并集成日历管理、邮件处理、自动化任务等技能,实现真正的“对话式”个人助理。
英伟达宣布追加投资20亿美元给云服务商CoreWeave,持股比例升至超11%,成为其第二大股东。双方将深化合作,目标在2030年前建成超5GW的AI算力项目。值得注意的是,英伟达首次独立向CoreWeave供应Vera CPU芯片,可能预示其将进入数据中心CPU市场,与英特尔、AMD竞争。
阿里正式发布其规模最大、能力最强的推理模型Qwen3-Max-Thinking。模型总参数量超万亿,预训练数据达36T Tokens,在多项国际专业基准测试中刷新纪录。其创新性地采用了测试时扩展机制,在提升推理性能的同时更加经济。
商汤科技宣布AI记账产品“咔皮记账”核心功能将永久免费开放。产品依托“日日新”大模型的多模态理解能力,用户可通过拍照、语音等方式实现自动记账,目前已成为国内AI记账类产品第一名,累计用户超500万。此次免费范围涵盖自动记账、共享账本、预算规划、多账户管理等30项核心功能,彻底取消使用门槛。
腾讯混元团队发布混元图像3.0图生图模型,模型总参数量80B,采用混合专家架构,支持图片编辑、多图融合等多样化视觉创作功能。用户可通过自然语言指令实现增删改、风格变换、老照片修复等操作,模型能智能理解图像内容并生成详细编辑步骤。
上海AI大模型独角兽阶跃星辰完成超50亿元B+轮融资,刷新国内大模型赛道单笔融资纪录。旷视科技创始人、38岁清华姚班校友印奇正式出任公司董事长,将与CEO姜大昕共同领导公司。融资将用于基础模型研发与AI+终端战略落地,重点攻坚基座模型、全模态融合和视觉语言动作(VLA)三大方向。
智谱AI正式推出“AI学习搭子”AI学习助手,现已开放首批用户体验申请。产品通过三大功能重塑学习体验:智能摘要可将数百页文档转化为知识地图实现“把书读薄”;可视化交互卡片与AI助教答疑让学习过程生动有趣;知识点精准出题与“学-练-测”闭环助力深度掌握。
大模型推理开源框架vLLM的创建团队正式宣布成立创业公司Inferact,并在种子轮融资1.5亿美元,公司估值达8亿美元。本轮融资由a16z和光速创投领投,红杉资本等机构跟投,成为有史以来规模最大的种子轮融资之一。
通义千问团队正式开源Qwen3-TTS系列语音生成模型,包含1.7B和0.6B两种参数规模,全面支持音色克隆、音色创造与拟人化语音生成。采用创新的12Hz多码本语音编码器与双轨建模架构,实现高效语音压缩与高保真还原,首包音频延迟低至97毫秒。模型覆盖中、英、日、韩等10种主流语言及方言,支持自然语言指令精确控制音色、情感及韵律。
清华大学、中国人民大学、面壁智能与OpenBMB社区联合发布本地化深度调研智能体 AgentCPM-Report。模型仅8B参数,通过40轮深度检索与100轮思维链推演,在DeepResearch Bench等三大评测中综合表现超越部分顶级闭源系统,尤其在洞察性指标排名第一。
腾讯CodeBuddy Code 2.0版本正式发布,核心升级包括开放SDK集成能力,通过Plan模式与ACP协议实现Agent能力标准化输出,支持企业快速构建生产级AI应用。平台全面兼容开发者社区生态,支持Plugin插件市场与自定义Subagents智能体,集成TencentOS提供容器化安全沙箱运行环境。新版本增强工程记忆、LSP代码诊断等核心功能,支持GLM-4.7等多模型切换。
百度正式发布文心大模型5.0版本,模型参数量达2.4万亿,采用原生全模态统一建模技术,具备文本、图像、音频、视频等信息的全面理解与生成能力。官方表示,在40余项权威基准评测中,其语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等国际主流模型。
MiniMax发布第二代智能体产品MiniMax Agent 2.0,推出“AI原生工作台”新范式。平台包含桌面端应用,支持Windows和Mac系统,可深度打通本地文件与环境,实现本地与云端任务的无缝协同。核心创新“Expert Agents”专家系统,通过封装行业SOP与私有知识,将专业能力从通用70分提升至95分以上。
阶跃星辰(StepFun)开源10B参数多模态模型Step3-VL-10B,在多项基准测试中性能超越参数量20倍以上的主流大模型。模型在视觉感知、数学竞赛、逻辑推理等核心维度达到SOTA水平,其创新的并行协调推理机制(PaCoRe)显著提升复杂任务处理能力。
马斯克宣布正式开源X平台(原Twitter)核心推荐算法代码x-Algorithm,成为首个将流量分发逻辑完全透明化的主流社交平台。新版算法采用与xAI的Grok模型相同的Transformer架构,实现”零人工特征工程”,完全依赖模型自主学习用户交互历史来预测内容相关性。