阿里开源高效图像生成模型Z-Image,参数规模6B
阿里开源高效图像生成模型Z-Image,参数规模为6B。模型采用单流DiT架构,通过统一处理文本与视觉语义token提升参数效率。发布三个版本:Z-Image-Turbo为轻量蒸馏版,支持8步快速生成,擅长写实生成与双语文字渲染;Z-Image-Base为基础模型,供社区微调定制;Z-Image-Edit专攻图像编辑,支持基于自然语言指令的创意编辑。
阿里开源高效图像生成模型Z-Image,参数规模为6B。模型采用单流DiT架构,通过统一处理文本与视觉语义token提升参数效率。发布三个版本:Z-Image-Turbo为轻量蒸馏版,支持8步快速生成,擅长写实生成与双语文字渲染;Z-Image-Base为基础模型,供社区微调定制;Z-Image-Edit专攻图像编辑,支持基于自然语言指令的创意编辑。
AI编程平台TRAE中国版正式推出SOLO模式并免费开放。模式内置智能体SOLO Coder,支持先制定开发计划再执行的协作流程,能调度多智能体处理复杂任务。采用全新三栏布局,实现多任务并行开发,内置代码变更对比工具与上下文管理功能。
腾讯混元3D创作引擎正式推出国际站,其API同步在腾讯云国际站上线,面向全球开发者开放。引擎支持文生3D、图生3D、草图生3D及智能拓扑等核心功能,用户通过文字、图片或草图即可分钟级生成高质量3D模型。
国内AI创作平台LiblibAI(哩布哩布)正式上线新一代图像生成基础算法F.2。模型在文生图、多图参考及图像编辑三大核心功能上实现全面升级,显著提升了人物与风格的一致性、复杂提示词遵循能力及精细文本渲染效果。
Black Forest Labs发布开源图像生成与编辑模型FLUX.2,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源模型)、FLUX.2 [flex](可调节参数)、FLUX.2 [dev](开源32B权重模型)和FLUX.2 [klein](即将推出的轻量化模型)。
微软发布首款专为电脑操作设计的开源智能体小模型Fara-7B,由70亿参数构成,支持Win11端侧运行,性能领先同级。模型通过视觉解析网页截图,执行点击、输入等操作,无需依赖额外可访问性树或多个大模型协作。微软构建全新合成数据生成流程模拟网页任务,Fara-7B基于Qwen2.5-VL-7B底座,支持128k上下文。
OpenAI为ChatGPT推出全新“购物研究”功能,替代传统电商平台与内容社区的消费决策流程。功能基于GPT-5 mini模型优化,通过交互式提问理解用户偏好,结合记忆功能生成个性化购买指南,并直接提供商品链接与可视化对比界面。
AMD携手IBM和AI初创公司Zyphra,历时1年多,成功使用AMD硬件训练出首个大型混合专家(MoE)基础模型ZAYA1。模型完全基于AMD硬件生态系统构建,训练过程在IBM云上进行,使用AMD Instinct MI300X GPU等技术。训练集群由128个节点组成,总计1024块GPU,性能超750 PFLOPs。
腾讯混元开源轻量级OCR模型HunyuanOCR,参数仅1B却在多项核心能力上达到SOTA水平。模型基于混元原生多模态架构,采用端到端设计,在复杂文档解析基准OmniDocBench中获得94.1分,超越Gemini 3 Pro等主流模型。
Anthropic发布新一代大模型Claude Opus 4.5,在编程能力上实现重大突破,成为首个在SWE-Bench Verified真实软件工程测试中得分超过80%的模型,并在八种编程语言的七种中排名第一。核心升级包括对模糊需求的精准理解、复杂Bug自主定位能力,以及创新的”effort”参数控制系统,可在保证性能的同时大幅降低token消耗。
Allen Institute for Artificial Intelligence (AI2) 推出的开源大型语言模型Olmo 3系列,包括 Olmo 3-Base(7B 和 32B 参数)、Olmo 3-Think、Olmo 3-Instruct 和 Olmo 3-RL Zero 等版本,分别擅长编程、阅读理解、数学解题、复杂推理、多轮对话和强化学习等任务。
阿里旗下 AI 助手“千问”正式启用全新域名 qianwen.com,进一步提升用户的访问便捷性。用户现可通过网页端直接体验千问,与 App 端实现无缝一致的使用体验。千问网页端面向专业用户开放了更多 Qwen3 系列模型体验选择。
Meta 推出 WorldGen 系统,仅需一条文本提示词即可生成可交互、可导航的三维世界。系统融合程序化逻辑推理、扩散模型等技术,输出几何严谨、视觉丰富的三维场景,适用于游戏、模拟仿真等。可生成 50 米 ×50 米全纹理场景,风格与结构高度一致。
新加坡AI金融科技公司RockFlow完成数千万美元融资,由蚂蚁集团领投。公司推出全球首款金融交易AI Agent“Bobby”,能通过自然语言理解用户投资意图,自主完成从数据分析到实时交易的全流程。本轮融资将加速AI技术在金融服务领域的创新应用,推动复杂金融服务向普惠化、个性化发展。
小米发布业界首个打通自动驾驶与具身智能的跨域大模型MiMo-Embodied并全面开源。模型统一了具身智能三大核心任务与自动驾驶三大关键任务,实现室内交互与道路决策能力的双向知识迁移。在29项核心基准测试中表现卓越,全面超越现有开源及专用模型。
腾讯混元开源视频生成模型HunyuanVideo 1.5,参数仅8.3B却可生成5-10秒高清视频。模型基于DiT架构,支持中英文文生视频与图生视频,具备强指令理解能力,可精准控制运镜、人物表情及物理运动。原生支持480p/720p输出,经超分可提升至1080p,并在14G显存消费级显卡即可流畅运行,大幅降低使用门槛。
谷歌发布专业级图像生成模型Nano Banana Pro,深度集成Gemini 3多模态能力。模型支持2K/4K高分辨率输出,可融合多达14张参考图像并保持5个人物一致性,具备精准局部编辑、多语言文字渲染及电影级调光控色功能。结合Gemini 3的知识推理与搜索引擎,能生成高准确性信息图表。
人形机器人公司星动纪元完成近10亿元A+轮融资,由吉利资本领投。公司总订单额突破5亿元,物流领域最大单笔订单近5000万元,海外业务占比达50%。本轮融资将加速技术迭代与商业化落地。
OpenAI发布GPT-5.1-Codex-Max编程模型,取代GPT-5.1-Codex,成为Codex集成界面上默认模型。模型在多个编程基准测试中超越谷歌Gemini 3 Pro,如SWE-Bench Verified测试中准确率77.9%,领先对方1.7个百分点。其引入“压缩”机制,可连续工作超24小时,token效率提升约30%。
AI视频创企Luma AI完成9亿美元C轮融资,估值达40亿美元。本轮由沙特公共投资基金旗下Humain领投,资金将用于开发多模态AI系统及建设2GW智算集群”Project Halo”。
AI音乐平台Suno完成2.5亿美元C轮融资,估值达24.5亿美元,较去年增长近五倍。本轮由Menlo Ventures领投,英伟达旗下NVentures等机构跟投。Suno核心产品可通过文字生成完整歌曲,最新v5版本显著提升人声自然度与指令执行准确率。
Meta发布SAM 3D与SAM 3模型,实现从2D图像到3D重建的重大突破。SAM 3D包含物体场景重建和人体姿态估计双模型,通过创新数据引擎生成近百万张图像的3D标注数据,在多项基准测试中超越现有方法。
Anthropic获微软、英伟达千亿投资,微软投资50亿美元,英伟达投资100亿美元,合计150亿美元。Anthropic承诺购买价值300亿美元的Azure算力,并与英伟达深度合作优化模型性能。Claude模型将登陆微软Azure,成为全球三大云平台均可用的前沿模型。
AiPPT正式推出Agent版的「深度研究」功能并邀请用户内测。功能模拟真人分析师工作流程,通过“理解-反思-追问”循环,自动完成从全网深度搜索、逻辑梳理到生成图文并茂研究报告和PPT的全过程。