谷歌宣布 Gemini 3 Deep Think 深度思考大模型升级
谷歌发布了Gemini 3 Deep Think模型的重大升级。新版模型在多项顶尖基准测试中刷新纪录,尤其在竞技编程平台Codeforces获得3455分的Elo评级,在全球排名第八,仅有7位顶尖程序员能在比赛中胜过它。模型在ARC-AGI-2推理基准、“人类的最后考试”(不使用工具)、物理及化学奥林匹克笔试等多个学术竞赛中取得了金牌级别的领先成绩。
谷歌发布了Gemini 3 Deep Think模型的重大升级。新版模型在多项顶尖基准测试中刷新纪录,尤其在竞技编程平台Codeforces获得3455分的Elo评级,在全球排名第八,仅有7位顶尖程序员能在比赛中胜过它。模型在ARC-AGI-2推理基准、“人类的最后考试”(不使用工具)、物理及化学奥林匹克笔试等多个学术竞赛中取得了金牌级别的领先成绩。
AI公司Anthropic(即Claude的研发公司)宣布完成高达300亿美元的G轮融资,投后估值达3800亿美元,创造了AI公司单轮股权融资的新纪录。本轮融资由新加坡主权基金GIC和Coatue领投,多家顶级资本参与。
MiniMax正式发布M2.5模型,其在编程、搜索工具调用、办公等高阶生产力场景性能达到或刷新行业SOTA水平。模型显著提升了任务拆解能力和推理效率,在编程基准SWE-Bench Verified上完成任务的速度比上一代M2.1快37%。
美团旗下LongCat正式上线“深度研究”智能体功能,依托美团本地生活真实交易数据与行业洞察,为用户生成个性化吃喝玩乐攻略。智能体具备长程任务规划与多工具调用能力,支持400轮交互与256K上下文处理,在BrowseComp、MCP-Atlas等权威评测中达到开源模型SOTA水平。
智谱AI正式发布Z Code全新版本,首次定义ADE(智能体开发环境),通过图形化界面将复杂CLI交互转化为多智能体协作平台。环境支持可视化配置管理、跨设备远程开发及多任务并行处理,内置实时预览浏览器与会话级版本管理功能,可灵活调度Claude Code等主流工具链。 Code
智谱AI开源GLM-5大模型,其参数规模扩展至744B(激活40B),预训练数据达28.5T,在Coding与Agent能力上实现开源SOTA,综合表现逼近Claude Opus 4.5。该模型在SWE-bench、Terminal Bench等编程基准中领先开源模型,能端到端完成复杂系统工程与长程Agent任务,支持自动售货机经营模拟等资源规划场景。
科大讯飞发布基于全国产算力训练的星火X2大模型,其通用能力全面升级,在数学、推理、语言理解等核心指标上对标国际顶尖模型,130+多语言能力持续领先。星火X2采用293B MoE稀疏架构与多项工程优化,推理性能较X1.5提升50%,并实现单台国产昇腾服务器部署。
阿里达摩院开源业界首个具身大脑基础模型RynnBrain,具备时空记忆与物理空间推理能力。模型系列参数规模从2B到30B,采用MoE架构实现高效推理,仅激活3B参数即超越72B模型性能。在20项具身基准测试中全面领先英伟达、谷歌等顶尖模型,攻克了机器人“转身即忘”的物理世界认知难题。
国产AI应用Loopit引发海外社交媒体热议。产品由百川智能联合创始人陈炜鹏团队开发,主打“AI互动内容生成”,用户通过文字描述即可自动生成可点击、可滑动、可参与的交互内容,并能对他人作品进行“魔改”二次创作。
大晓机器人近日完成天使轮融资,由蚂蚁集团领投,启明创投、金景资本等多家机构跟投。融资将用于推进”以人为中心”的ACE具身全栈研发范式,加速环境式数据采集和开悟世界模型3.0的研发。
腾讯混元推出产业级2Bit端侧模型HY-1.8B-2Bit,等效参数量仅0.3B,内存占用600MB,比常用手机应用更小。模型通过2比特量化感知训练实现,在保持原模型全思考能力的同时,生成速度提升2-3倍,可在手机、智能家居等边缘设备无压力部署。
阿里巴巴发布新一代图像生成及编辑模型Qwen-Image-2.0,支持1K token长文本输入和2K高分辨率输出。模型首次将图像生成与编辑功能统一,在AI Arena评测中以1029分位列全球图像生成第三名,图像编辑得分1034。突出优势在于优秀的中文文字渲染能力和复杂指令理解,可生成专业PPT、多格漫画等高质量图片。
字节跳动图像生成模型Seedream 5.0正式上线,在剪映、CapCut、小云雀等平台开放限时免费体验。新模型支持2K/4K分辨率输出,重点提升提示词理解准确性、细节纹理渲染和智能推理能力,并新增联网搜索功能。
腾讯推出全场景AI办公助手WorkBuddy,正式开放内测申请。产品定位为桌面智能工作台,支持自然语言交互,能听懂指令后自主操作本地文件,实现PPT生成、数据整理、知识库构建等复杂任务。与聊天机器人不同,WorkBuddy强调“执行能力”,可像真实同事一样交付成果。
智谱清言APP正式上线”学习搭子”功能,支持用户随时随地利用碎片化时间进行学习。该功能网页端上线两周内已创建超1.2万个学习项目,现移动端全面开放,无需邀请码即可体验。
天工Skywork推出SkyBot,号称全球最适合小白用户的OpenClaw工具。该产品将火爆的AI代理OpenClaw进行云端化改造,用户无需配置硬件或命令行,点击即可领取7×24小时云端AI助理。
北京生数科技宣布完成超6亿元A+轮融资,创下国内视频生成领域单笔融资新纪录。公司由清华大学背景团队创立,其Vidu Q3视频生成模型在专业影视制作场景中表现突出,位列全球第二,客户覆盖索尼、腾讯、字节跳动等企业。
AI营销平台PallasAI完成数千万元融资,由有赞独家投资。公司推出行业首款标准化GEO AI Agent产品,通过可见性评分、营销图谱和Agent内容协作三大功能,帮助中小企业量化品牌在AI生态中的曝光度。 Park
Anthropic发布新一代AI模型Claude Opus 4.6,具备100万token上下文窗口和自适应思考能力。在编程、金融分析、办公软件操作等领域表现卓越:16个AI代理两周内写出可编译Linux的C编译器,自主发现500多个零日漏洞,在GDPval-AA评测中超越GPT-5.2。
OpenAI推出新一代编程模型GPT-5.3-Codex,宣称为全球最强智能体编程模型。模型在SWE-Bench Pro和Terminal-Bench 2.0测试中取得SOTA成绩,编程得分较Claude Opus 4.6高11.9%。具备调试、部署及办公软件操作能力,速度提升25%,能参与自身开发优化。
Mistral AI 推出的新一代语音转文本模型Voxtral Transcribe 2,包含两个版本。Voxtral Mini 支持 13 种语言的高精度转录,具备说话人分离、词级时间戳和上下文偏置功能,适合批量转录。Voxtral Realtime 专为实时场景设计,延迟低至 200 毫秒以下,适合语音助手等交互应用。
上海AI实验室开源了万亿参数科学多模态大模型Intern-S1-Pro。模型采用MoE架构,总参数1万亿,激活参数220亿。基于“通专融合”SAGE技术,具备奥赛级数理推理能力,可精准解析多模态科学内容,覆盖化学、材料、生命、地球、物理等学科。
面壁智能开源新一代全模态模型MiniCPM-o 4.5,模型具备”边看、边听、主动说”的全双工交互能力,让人机交互从回合制升级为即时自由对话。通过9B参数实现全模态SOTA性能,在视觉理解、文档解析、语音生成等方面表现优异,支持实时感知与主动响应。
可灵AI正式升级至3.0版本,推出可灵3.0模型系列。实现多模态输入输出一体化,重新定义AI视频工作流。视频3.0模型在叙事与控制方面深度进化,新增智能分镜功能,可自动调度景别与机位,视频3.0 Omni进一步提升了主体相似度与复杂指令响应能力,图片3.0 Omni新增深度叙事与组图批量创作功能。