Meta 推出 WorldGen:一句话即可生成可交互 3D 世界
Meta 推出 WorldGen 系统,仅需一条文本提示词即可生成可交互、可导航的三维世界。系统融合程序化逻辑推理、扩散模型等技术,输出几何严谨、视觉丰富的三维场景,适用于游戏、模拟仿真等。可生成 50 米 ×50 米全纹理场景,风格与结构高度一致。
Meta 推出 WorldGen 系统,仅需一条文本提示词即可生成可交互、可导航的三维世界。系统融合程序化逻辑推理、扩散模型等技术,输出几何严谨、视觉丰富的三维场景,适用于游戏、模拟仿真等。可生成 50 米 ×50 米全纹理场景,风格与结构高度一致。
新加坡AI金融科技公司RockFlow完成数千万美元融资,由蚂蚁集团领投。公司推出全球首款金融交易AI Agent“Bobby”,能通过自然语言理解用户投资意图,自主完成从数据分析到实时交易的全流程。本轮融资将加速AI技术在金融服务领域的创新应用,推动复杂金融服务向普惠化、个性化发展。
小米发布业界首个打通自动驾驶与具身智能的跨域大模型MiMo-Embodied并全面开源。模型统一了具身智能三大核心任务与自动驾驶三大关键任务,实现室内交互与道路决策能力的双向知识迁移。在29项核心基准测试中表现卓越,全面超越现有开源及专用模型。
腾讯混元开源视频生成模型HunyuanVideo 1.5,参数仅8.3B却可生成5-10秒高清视频。模型基于DiT架构,支持中英文文生视频与图生视频,具备强指令理解能力,可精准控制运镜、人物表情及物理运动。原生支持480p/720p输出,经超分可提升至1080p,并在14G显存消费级显卡即可流畅运行,大幅降低使用门槛。
谷歌发布专业级图像生成模型Nano Banana Pro,深度集成Gemini 3多模态能力。模型支持2K/4K高分辨率输出,可融合多达14张参考图像并保持5个人物一致性,具备精准局部编辑、多语言文字渲染及电影级调光控色功能。结合Gemini 3的知识推理与搜索引擎,能生成高准确性信息图表。
人形机器人公司星动纪元完成近10亿元A+轮融资,由吉利资本领投。公司总订单额突破5亿元,物流领域最大单笔订单近5000万元,海外业务占比达50%。本轮融资将加速技术迭代与商业化落地。
OpenAI发布GPT-5.1-Codex-Max编程模型,取代GPT-5.1-Codex,成为Codex集成界面上默认模型。模型在多个编程基准测试中超越谷歌Gemini 3 Pro,如SWE-Bench Verified测试中准确率77.9%,领先对方1.7个百分点。其引入“压缩”机制,可连续工作超24小时,token效率提升约30%。
AI视频创企Luma AI完成9亿美元C轮融资,估值达40亿美元。本轮由沙特公共投资基金旗下Humain领投,资金将用于开发多模态AI系统及建设2GW智算集群”Project Halo”。
AI音乐平台Suno完成2.5亿美元C轮融资,估值达24.5亿美元,较去年增长近五倍。本轮由Menlo Ventures领投,英伟达旗下NVentures等机构跟投。Suno核心产品可通过文字生成完整歌曲,最新v5版本显著提升人声自然度与指令执行准确率。
Meta发布SAM 3D与SAM 3模型,实现从2D图像到3D重建的重大突破。SAM 3D包含物体场景重建和人体姿态估计双模型,通过创新数据引擎生成近百万张图像的3D标注数据,在多项基准测试中超越现有方法。
Anthropic获微软、英伟达千亿投资,微软投资50亿美元,英伟达投资100亿美元,合计150亿美元。Anthropic承诺购买价值300亿美元的Azure算力,并与英伟达深度合作优化模型性能。Claude模型将登陆微软Azure,成为全球三大云平台均可用的前沿模型。
AiPPT正式推出Agent版的「深度研究」功能并邀请用户内测。功能模拟真人分析师工作流程,通过“理解-反思-追问”循环,自动完成从全网深度搜索、逻辑梳理到生成图文并茂研究报告和PPT的全过程。
谷歌正式发布新一代多模态大模型Gemini 3,在多项基准测试中表现卓越,以1501 Elo得分位列LMArena竞技场第一。模型具备原生多模态理解、高级推理及Agent编程能力,支持100万token上下文窗口,在学术推理、数学、代码开发等任务上显著领先前代及竞品。
谷歌DeepMind发布的最新AI天气预报模型WeatherNext 2,运算速度比前代快8倍,能生成1小时分辨率的精准预测。模型通过功能生成网络(FGN)技术,在1分钟内即可完成传统超算需数小时的全球15天天气模拟,可输出数百种可能的天气情景。
蚂蚁集团正式上线全模态通用AI助手灵光APP,以结构化思维生成逻辑清晰、可视化的内容,如动态3D模型、可交互地图等,让知识呈现更生动;用户通过自然语言描述,30秒内即可生成个性化AI应用,搭载AGI相机技术,通过实时视频流解析物理世界,支持文生图/视频、图生图/视频创作,能对物体、场景进行识别与知识讲解。
马斯克旗下xAI公司发布的最新AI对话模型Grok 4.1,主打情感智能与实用性能的突破。模型在LMArena排行榜以1483分登顶,比第二名高出31分,并首创”思考模式”与”即时模式”双轨设计——即使不启动深度推理,基础版本仍能超越其他模型的完整配置。
字节跳动Seed团队发布Lumine,是首个能在3D开放世界中实时完成小时级复杂任务的通用AI智能体。基于视觉语言模型,通过端到端架构统一感知、推理与行动,仅靠屏幕图像和键盘鼠标操作,无需游戏内部API。
JetBrains联合Linux基金会推出DPAI Arena,是全球首个开源、多语言、多框架的AI编程智能体基准测试平台。客观衡量AI工具在真实软件开发任务中的效率提升,填补行业空白,支持补丁修复、代码审查等多样化工作流的可复现评估。
陈天桥领导的盛大团队推出的开源长期记忆操作系统EverMemOS,专为AI智能体设计,解决大语言模型因固定上下文窗口导致的记忆断裂问题。该系统基于人类大脑记忆机制,采用四层架构(代理层、记忆层、索引层、接口层),在LoCoMo和LongMemEval-S评测中以92.3%和82%的高分超越行业标杆。
阿里巴巴正式推出千问APP,基于Qwen最强模型打造,全面对标ChatGPT。APP依托Qwen开源生态,全球下载量超6亿次,支持119种语言,具备智能调度多应用、多模态交互等能力,成为全球用户的AI生产力工具。
美国生成式AI创企Gamma完成6800万美元B轮融资,估值达21亿美元。Gamma创立于2020年,是一个生成式AI设计平台,可快速创建演示文稿、文档和社交媒体帖子,支持22种AI图像模型和60多种语言。
OpenAI宣布在韩国、新西兰等部分地区试点ChatGPT群聊功能。功能基于GPT-5.1模型,支持用户与ChatGPT共同协作,可邀请亲友或同事进入共享空间,用于策划方案、决策讨论或头脑风暴。
AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资,投后估值达293亿美元,成为全球首家估值超2000亿元人民币的AI编程创企。此轮融资由Accel和Coatue领投,英伟达、谷歌等跟投。过去一年,Anysphere估值增长超10倍,年化收入突破10亿美元。
具身智能公司Dexmal原力灵机宣布完成数亿元A+轮融资,阿里巴巴为独家投资方。此前其A轮融资由蔚来资本领投,两轮融资金额近10亿元。资金将用于智能机器人软硬件技术研发与落地。Dexmal专注于具身智能技术研发,自主研发的多模态具身智能大模型MMLA可实现跨场景智能泛化。