腾讯混元世界模型1.5发布,国内首个开放实时体验
腾讯正式发布混元世界模型1.5(WorldPlay),是国内首个支持实时交互体验的世界模型。用户通过文字或图片输入即可生成专属3D互动世界,能通过键盘、鼠标或手柄自由探索。模型具备24FPS实时生成、分钟级3D几何一致性及空间记忆能力,离开后返回场景保持一致。
腾讯正式发布混元世界模型1.5(WorldPlay),是国内首个支持实时交互体验的世界模型。用户通过文字或图片输入即可生成专属3D互动世界,能通过键盘、鼠标或手柄自由探索。模型具备24FPS实时生成、分钟级3D几何一致性及空间记忆能力,离开后返回场景保持一致。
小米正式发布开源大模型MiMo-V2-Flash,模型采用MoE架构,总参数3090亿,活跃参数150亿。在多项基准测试中表现优异,其编程能力尤为突出,在SWE-bench测试中以73.4%的解决率超越所有开源模型。模型通过混合滑动窗口注意力、多Token预测等技术创新,实现了150 tokens/秒的高推理速度及极低的推理成本。
OpenAI发布全新旗舰图像生成模型GPT Image 1.5,模型在提示词遵循、细节保留和文本渲染方面实现重大突破,能精准生成或编辑图像并保持原图光线、构图等核心特征。
字节跳动发布新一代音视频创作模型 Seedance 1.5 pro,实现音视频联合生成。模型支持从文本到音视频的合成及图像引导生成,在精准音画同步、多语言与方言口型匹配、电影级运镜控制及动态叙事表现上取得突破。
即梦AI网页版全面升级,打造一站式”AI片场”。核心更新包括:上线基于Seedance 1.5 Pro的”视频3.5 Pro”模型,支持音视频联合生成及方言口型匹配;智能多帧2.0实现”视频+视频”拼接与片段精细化编辑,支持最长20个素材的一镜到底;图片4.1与4.5模型分别强化平面设计能力与人像美观度。
商汤科技发布AI办公智能体“小浣熊3.0”,实现从生成草稿到交付成品的三大跃迁。智能体具备一键生成高质量PPT能力,支持图表、图片等全元素编辑,可交付直接可用的演示文稿。其“长链条思考”能力支持百万级数据量秒级处理与多模态分析,能深度理解复杂任务。
阿里云通义百聆开源语音双子星模型Fun-CosyVoice3与Fun-ASR。Fun-CosyVoice3支持仅3秒音频即可实现跨9种语言、18种方言的音色克隆与情感控制,首包延迟降低50%,中英混说错误率下降56.4%。Fun-ASR在嘈杂环境下识别准确率达93%,支持31种语言混说及方言识别,将流式识别首字延迟降至160毫秒。
英伟达发布Nemotron 3开源AI模型系列,包含Nano、Super和Ultra三种规格。其中Nano版本(300亿参数)已上线,其采用混合专家架构,宣称吞吐量达上一代4倍,推理token生成减少60%,具备100万token上下文窗口。该系列专为多智能体系统设计,旨在解决通信开销和推理成本等挑战。
阿里巴巴发布通义万相2.6多模态模型,是国内首个支持角色扮演功能的视频生成系统。模型支持音画同步、多镜头叙事和音频驱动生成,可直出15秒高清视频。角色扮演功能允许用户上传参考视频,AI能复刻角色外观与音色,生成单人或多人表演内容。在图像生成方面,模型提升了艺术风格融合与细节刻画能力,支持图文混排、多图融合等商用级创作。
LiblibAI平台全球首发通义万相Wan 2.6视频生成模型,支持视频参考生成、声画同步和多镜头智能调度三大核心功能。模型可直出15秒1080P高清视频,实现完整叙事生成,无需二次剪辑。其视频参考生成能力可复刻5秒内任意角色形象与音色,支持单/双人表演及多人对话场景的声画同步。
谷歌Gemini TTS模型,发布了升级版的Gemini 2.5 Flash和Pro文本转语音模型,提升了表达能力、语速控制和多说话人场景下的表现。新模型在风格、语调和发音方面提供更好的控制,能根据上下文调整语速,如在兴奋时加快、强调时放慢,还能在多语言对话中保持一致的角色声音,使对话更真实。
蚂蚁集团旗下的AI健康助手AQ更新版本并启用中文名“蚂蚁阿福”,同时上线“健康小目标”功能。应用可提供健康咨询、图片解读(报告、病例、处方、药盒均支持)、个人和家庭健康档案管理以及预约挂号、云陪诊等医疗健康服务。
商汤科技发布Seko 2.0多剧集生成智能体,作为行业首个创编一体AI工具,专为短剧创作者设计。版本通过SekoIDX技术解决多剧集角色一致性难题,SekoTalk实现业内首个2人以上精准对口型功能,可将传统3个月的50集制作周期缩短80%-90%。同时开源LightX2V推理框架,在消费级显卡上5秒即可生成5秒视频,完成国产芯片适配。
迪士尼公司与OpenAI达成为期三年的战略合作协议,将向OpenAI投资10亿美元并获得股权。根据协议,OpenAI的Sora视频生成平台将获得迪士尼旗下超过200个角色的IP授权,包括米老鼠、漫威超级英雄、星球大战等经典形象。用户未来可通过Sora生成迪士尼角色短视频,部分精选内容还将在Disney+平台播出。
谷歌开源深度研究Agent Gemini Deep Research,在DeepSearchQA基准测试中达到46.4%的SOTA水平,性能与GPT-5 Pro相当,而成本仅为后者的十分之一。该Agent基于Gemini 3 Pro模型,具备多步搜索和复杂信息整合能力,可自动生成深度研究报告。
智谱AI在多模态开源周收官之际,宣布开源四项视频生成核心技术:SCAIL影视级角色动画框架实现复杂姿态控制;RealVideo实时流式视频生成系统将首响延迟压缩至2-3秒;Kaleido多主体生成框架在开源模型中达到SOTA水平;SSVAE频谱结构化变分自编码器将模型收敛速度提升3倍。
OpenAI正式发布GPT-5.2模型,推出Instant、Thinking、Pro三个版本,分别针对常规任务、复杂推理和高精度需求。模型在多项基准测试中表现突出,在GDPval知识工作任务评估中首次达到或超越人类专家水平,软件工程能力(SWE-Bench Pro)创下55.6%的新纪录。其幻觉率降低约30%,长文本处理准确率接近完美。
OpenAI宣布ChatGPT正式接入Adobe系列专业软件,包括Photoshop、Acrobat和Adobe Express。用户现可在ChatGPT内直接调用这些工具,通过自然语言指令完成图像编辑、PDF处理等专业任务。整合后,ChatGPT会根据用户指令动态生成相应的操作界面,例如在调整图像亮度时自动呈现曝光、阴影等专业调节选项。
阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash。模型支持文本、图像、音视频的无缝输入与实时流式输出,显著提升了多轮对话的稳定性与语音生成的自然度。其系统提示控制能力实现飞跃,用户可精细设定如“甜妹”、“御姐”等特定人设风格。
VoxCPM 1.5版本正式开源上线。将AudioVAE采样率从16kHz提升至44.1kHz,显著提升了音色克隆的细节丰富度。生成效率实现翻倍,仅需6.25个token即可生成1秒音频。同时,新增LoRA和全量微调脚本以支持深度定制,优化了模型稳定性,减少音频伪影。
智谱AI发布并开源工业级语音合成系统GLM-TTS。采用两阶段生成范式,支持仅3秒音色复刻与多方言克隆。字符错误率(CER)在强化学习优化后达0.89%,在开源模型中达到SOTA水平。关键技术突破包括多奖励融合强化学习、精细化发音控制(Phoneme-in)以及自研2D-Vocos声码器,显著提升了情感表达与发音准确性。
生成式AI媒体平台Fal获得由红杉资本领投的1.4亿美元新一轮融资,英伟达风投Nventures等机构跟投,公司估值达45亿美元,较数月前增长两倍。公司为开发者提供图像、视频和音频AI模型托管服务,客户包括Adobe、Shopify等企业。
Mistral开源代码大模型Devstral 2系列,包含123B和24B两个版本,均支持256K上下文。模型在SWE-bench Verified上分别取得72.2和68.0的高分,性能达开源头部水平,同时模型体积显著小于同类竞品。配套推出的Vibe CLI工具可将模型能力集成至终端,支持扫描项目结构、调用命令、自动生成代码变更等操作。
智谱AI发布并开源GLM-ASR系列语音识别模型,同时推出桌面端“智谱AI输入法”。系列包含云端领先模型GLM-ASR-2512和仅1.5B参数的开源SOTA端侧模型GLM-ASR-Nano-2512,后者在保证高精度的同时实现了更强的隐私保护与低延迟。