字节视频模型Vidi2超越Gemini 3 Pro!理解能力爆表
字节跳动发布新一代视频理解模型Vidi2,在时空定位等核心任务上的表现超越GPT-5与Gemini 3 Pro。模型能精准理解数小时的长视频内容,直接生成包含剪辑时间点、字幕、配乐等细节的完整JSON剪辑方案,实现从原始素材到成片的AI自动化剪辑。
字节跳动发布新一代视频理解模型Vidi2,在时空定位等核心任务上的表现超越GPT-5与Gemini 3 Pro。模型能精准理解数小时的长视频内容,直接生成包含剪辑时间点、字幕、配乐等细节的完整JSON剪辑方案,实现从原始素材到成片的AI自动化剪辑。
DeepSeek正式发布DeepSeek-V3.2版本,包含标准版和Speciale长思考增强版。标准版平衡推理能力与输出效率,达到GPT-5水平;Speciale版在IMO、ICPC等国际竞赛中斩获金牌,推理能力媲美Gemini-3.0-Pro。升级首次实现思考与工具调用融合,在Agent评测中达到开源模型最高水平。
腾讯混元3D Studio升级至1.1版本,集成全新美术级3D生成模型PolyGen 1.5,实现端到端原生四边形网格生成技术突破。模型首创自适应混合拓扑能力,可直接生成布线规整的专业级3D资产,在布线质量、结构完整度等关键指标上超越现有SOTA方法。
昆仑万维旗下AI音乐平台Mureka正式发布V7.6与O2双模型,推动AI音乐创作进入“专业品质×实时体验”新阶段。新模型基于MusiCoT细粒度音乐建模体系,在编曲结构、语义映射及声场音质方面实现显著提升,支持10种语言生成及自定义歌手功能。
DeepSeek开源新一代数学模型DeepSeek-Math-V2,实现IMO金牌级推理能力。模型突破性引入自我验证机制,通过“生成器-验证器-元验证”三重架构,使AI具备检查并修正自身推理过程的能力。在IMO 2025测试中取得83.3%高分,Putnam 2024测试接近满分。
清华系AI基础设施企业无问芯穹完成近5亿元A+轮融资,成立两年半累计融资近15亿元。本轮融资将用于强化软硬协同技术优势,加速智能体在数字与物理世界的规模化普惠应用。
字节跳动Seed团队开源视觉空间重建模型Depth Anything 3,突破性采用单一Transformer架构实现任意视角空间感知。模型通过“深度-射线”统一表征法,将相机姿态估计、几何重建等任务集成于简洁框架,在相机姿态精度和几何重建任务上分别较主流模型VGGT提升35.7%和23.6%。
阿里开源高效图像生成模型Z-Image,参数规模为6B。模型采用单流DiT架构,通过统一处理文本与视觉语义token提升参数效率。发布三个版本:Z-Image-Turbo为轻量蒸馏版,支持8步快速生成,擅长写实生成与双语文字渲染;Z-Image-Base为基础模型,供社区微调定制;Z-Image-Edit专攻图像编辑,支持基于自然语言指令的创意编辑。
AI编程平台TRAE中国版正式推出SOLO模式并免费开放。模式内置智能体SOLO Coder,支持先制定开发计划再执行的协作流程,能调度多智能体处理复杂任务。采用全新三栏布局,实现多任务并行开发,内置代码变更对比工具与上下文管理功能。
腾讯混元3D创作引擎正式推出国际站,其API同步在腾讯云国际站上线,面向全球开发者开放。引擎支持文生3D、图生3D、草图生3D及智能拓扑等核心功能,用户通过文字、图片或草图即可分钟级生成高质量3D模型。
国内AI创作平台LiblibAI(哩布哩布)正式上线新一代图像生成基础算法F.2。模型在文生图、多图参考及图像编辑三大核心功能上实现全面升级,显著提升了人物与风格的一致性、复杂提示词遵循能力及精细文本渲染效果。
Black Forest Labs发布开源图像生成与编辑模型FLUX.2,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源模型)、FLUX.2 [flex](可调节参数)、FLUX.2 [dev](开源32B权重模型)和FLUX.2 [klein](即将推出的轻量化模型)。
微软发布首款专为电脑操作设计的开源智能体小模型Fara-7B,由70亿参数构成,支持Win11端侧运行,性能领先同级。模型通过视觉解析网页截图,执行点击、输入等操作,无需依赖额外可访问性树或多个大模型协作。微软构建全新合成数据生成流程模拟网页任务,Fara-7B基于Qwen2.5-VL-7B底座,支持128k上下文。
OpenAI为ChatGPT推出全新“购物研究”功能,替代传统电商平台与内容社区的消费决策流程。功能基于GPT-5 mini模型优化,通过交互式提问理解用户偏好,结合记忆功能生成个性化购买指南,并直接提供商品链接与可视化对比界面。
AMD携手IBM和AI初创公司Zyphra,历时1年多,成功使用AMD硬件训练出首个大型混合专家(MoE)基础模型ZAYA1。模型完全基于AMD硬件生态系统构建,训练过程在IBM云上进行,使用AMD Instinct MI300X GPU等技术。训练集群由128个节点组成,总计1024块GPU,性能超750 PFLOPs。
腾讯混元开源轻量级OCR模型HunyuanOCR,参数仅1B却在多项核心能力上达到SOTA水平。模型基于混元原生多模态架构,采用端到端设计,在复杂文档解析基准OmniDocBench中获得94.1分,超越Gemini 3 Pro等主流模型。
Anthropic发布新一代大模型Claude Opus 4.5,在编程能力上实现重大突破,成为首个在SWE-Bench Verified真实软件工程测试中得分超过80%的模型,并在八种编程语言的七种中排名第一。核心升级包括对模糊需求的精准理解、复杂Bug自主定位能力,以及创新的”effort”参数控制系统,可在保证性能的同时大幅降低token消耗。
Allen Institute for Artificial Intelligence (AI2) 推出的开源大型语言模型Olmo 3系列,包括 Olmo 3-Base(7B 和 32B 参数)、Olmo 3-Think、Olmo 3-Instruct 和 Olmo 3-RL Zero 等版本,分别擅长编程、阅读理解、数学解题、复杂推理、多轮对话和强化学习等任务。
阿里旗下 AI 助手“千问”正式启用全新域名 qianwen.com,进一步提升用户的访问便捷性。用户现可通过网页端直接体验千问,与 App 端实现无缝一致的使用体验。千问网页端面向专业用户开放了更多 Qwen3 系列模型体验选择。
Meta 推出 WorldGen 系统,仅需一条文本提示词即可生成可交互、可导航的三维世界。系统融合程序化逻辑推理、扩散模型等技术,输出几何严谨、视觉丰富的三维场景,适用于游戏、模拟仿真等。可生成 50 米 ×50 米全纹理场景,风格与结构高度一致。
新加坡AI金融科技公司RockFlow完成数千万美元融资,由蚂蚁集团领投。公司推出全球首款金融交易AI Agent“Bobby”,能通过自然语言理解用户投资意图,自主完成从数据分析到实时交易的全流程。本轮融资将加速AI技术在金融服务领域的创新应用,推动复杂金融服务向普惠化、个性化发展。
小米发布业界首个打通自动驾驶与具身智能的跨域大模型MiMo-Embodied并全面开源。模型统一了具身智能三大核心任务与自动驾驶三大关键任务,实现室内交互与道路决策能力的双向知识迁移。在29项核心基准测试中表现卓越,全面超越现有开源及专用模型。
腾讯混元开源视频生成模型HunyuanVideo 1.5,参数仅8.3B却可生成5-10秒高清视频。模型基于DiT架构,支持中英文文生视频与图生视频,具备强指令理解能力,可精准控制运镜、人物表情及物理运动。原生支持480p/720p输出,经超分可提升至1080p,并在14G显存消费级显卡即可流畅运行,大幅降低使用门槛。
谷歌发布专业级图像生成模型Nano Banana Pro,深度集成Gemini 3多模态能力。模型支持2K/4K高分辨率输出,可融合多达14张参考图像并保持5个人物一致性,具备精准局部编辑、多语言文字渲染及电影级调光控色功能。结合Gemini 3的知识推理与搜索引擎,能生成高准确性信息图表。