即梦无限画布上线,创作更自由
即梦AI上线无限画布,提供更自由的创作空间。新功能包括无限空间、Agent共创、多会话并行和多模态创作。用户可自由延展画布,轻松处理复杂项目;通过对话即创作,一句话生成灵感;一个项目可开启多个会话并行创作;支持图片和视频等多类型素材混合创作,实现一体化完成。
即梦AI上线无限画布,提供更自由的创作空间。新功能包括无限空间、Agent共创、多会话并行和多模态创作。用户可自由延展画布,轻松处理复杂项目;通过对话即创作,一句话生成灵感;一个项目可开启多个会话并行创作;支持图片和视频等多类型素材混合创作,实现一体化完成。
软银集团与OpenAI宣布成立合资公司“SB OAI Japan”,计划于2026年推出企业级AI解决方案“Crystal Intelligence”。该方案将结合OpenAI技术与定制化服务,助力日本企业提升生产力和管理效率。软银将率先部署该技术,积累经验后向其他企业推广。
美国生成式AI医疗独角兽Hippocratic AI完成1.26亿美元C轮融资,估值达35亿美元,较年初翻超一倍。此轮融资由谷歌母公司Alphabet旗下CapitalG等参投,资金将用于并购、产品开发和拓展国际业务等。
银河通用联合多所高校推出全球首个跨本体全域环视导航基座大模型 NavFoM。支持全场景、多任务、跨本体,可适配多种机器人形态,如机器狗、轮式人形等。NavFoM 通过创新的 TVI Tokens 和 BATS 策略,实现时空理解与高效算力利用,基于庞大训练数据体系,其在多个国际基准上达 SOTA 水平,可直接部署于真实机器人,无需任务微调。
360 推出的 FG-CLIP2 模型在图文跨模态领域取得重大突破。模型在八大类任务、29 项测试中全面超越 Google 与 Meta,成为目前最强的图文跨模态 VLM 模型。FG-CLIP2 能实现像素级的图像理解,精准识别细节,如毛发、斑点、色彩等,具备强大的中英文细粒度理解能力。
零一万物与开源中国联合发布“Open AgentKit平台”(OAK),打造Agent世界的“生态适配器”。OAK平台支持多种开源大模型,提供一站式解决方案,助力开发者实现“Agent开发自由”。平台四大核心模块,包括OAK Framework、Builder、Runtime和Studio,将逐步推出并邀请社区共建。 01AI
OpenAI与亚马逊宣布达成合作,OpenAI将在未来7年向亚马逊采购价值380亿美元(约合人民币2704.6亿元)的云计算服务。亚马逊云科技将为OpenAI提供亚马逊弹性计算云超级服务器,预计明年年底前部署完毕。
昆仑万维旗下AI视频创作平台SkyReels焕新上线。其Web端与移动端APP全面登陆,聚合全球顶尖AI多模态模型,提供图片生成、视频生成、数字人、音乐生成等多种创作方式。SkyReels V3模型更新,新增无限画布、数字人、模板功能、专家Agent、视频延长和风格化等能力,让专业创作更简单。
阿里 Qwen 团队宣布 Qwen3-Max Thinking 在 Qwen Chat 上线。模型是万亿参数的 MoE 模型,曾在 AIME25、HMMT25 数学测试中获满分。用户可在 Qwen Chat 中选择该模型并开启 Thinking 模式,免费体验。
美团 LongCat 团队正式发布并开源 LongCat-Flash-Omni 模型。模型基于 LongCat-Flash 系列架构,集成多模态感知与语音重建模块,总参数达 5600 亿,激活参数 270 亿,实现低延迟实时音视频交互。
北京智源人工智能研究院发布“悟界·Emu3.5”,开启多模态世界大模型新纪元。Emu3.5是340亿参数的稠密自回归Transformer模型,将图像、文本和视频等多模态数据统一建模,实现从“下一Token预测”到“下一状态预测”的能力跃迁。
OpenAI 发布了由 GPT-5 驱动的Agent——Aardvark,能自动在大规模代码库中发现并修复安全漏洞。Aardvark 可识别 92% 的已知与人工注入漏洞,还能定位复杂条件下的问题。通过监控代码提交、分析、验证漏洞并生成修复建议,与 OpenAI Codex 深度集成,为漏洞生成修复补丁。
月之暗面推出全新注意力架构Kimi Linear,有望成为下一代Agent LLM基石技术。架构核心是Kimi Delta Attention(KDA),通过精细化门控机制和硬件高效算法,实现性能与效率大幅提升。
美团LongCat团队发布WOWService大模型交互系统技术报告,针对本地生活服务领域大模型落地的“三重困境”,提出四大核心技术框架。系统融合多智能体协同、强化学习等技术,通过人机协同标注等方式降低成本,已在美团智能客服等数十个业务场景落地。
MiniMax发布最新音乐模型Music 2.0。模型在音乐理解与表达上实现飞跃,能精准捕捉人声情绪与器乐张力。支持多种唱法和情感风格,可精准控制人声音色,实现一声千变。在旋律创作上,可生成结构完整、抓耳的歌曲,能独立控制多种乐器,编曲层次丰富。音质全面升级,带来沉浸式听觉体验。
英国AI视频生成独角兽Synthesia完成2亿美元(约14亿元人民币)融资,估值达40亿美元(约284亿元人民币),由谷歌风投领投,英伟达可能参与。Synthesia成立于2017年,专注于为企业生成虚拟形象视频,用于营销、培训等,已有6万家企业使用其平台,覆盖约70%的全球财富100强企业。
智谱清言推出全新「研究模式」,帮助用户高效深入地开展研究。模式可围绕问题全网搜索并整合分析,自动生成结构化、可引用的研究报告,适用于学术研究、商业洞察、生活决策和热点追踪等多种场景。
Adobe发布其最先进的图像生成与编辑模型Firefly Image 5,支持400万像素原生输出,具备文本指令编辑、分层图像编辑等功能,还新增视频和音频生成工具。Adobe还为Photoshop、Premiere Pro和Lightroom等应用推出全新生成式AI工具,并支持更多第三方模型。
AI编程平台Cursor发布2.0版本及自研编程模型Composer。Composer专为低延迟编程设计,速度达同等模型4倍,每秒输出超200个token,智能水平超开源编程模型。新版本界面以Agent为核心,支持并行运行最多8个Agent,可并行处理任务并择优选择。新增原生浏览器工具,实现代码修改“指哪儿改哪儿”,代码审查功能升级,聚合修改细节。
MiniMax Speech 2.6发布,全面升级Voice Agent场景。模型端到端延迟低于250毫秒,支持多种语言的网址、邮箱等非标准文本格式直接转换,提供Fluent LoRA功能,即使原始素材不完美,也能生成流利自然的语音。
Google Labs推出AI营销工具Pomelli,帮助中小型企业快速创建符合品牌气质的社交媒体活动。用户只需提供公司网站,Pomelli会自动提取品牌信息,建立“商业DNA”,并生成活动创意和视觉素材。用户可编辑调整后直接使用。
OpenAI完成资本结构重组,上市道路铺平。非营利主体更名为OpenAI Foundation,掌控营利实体26%股份,目前估值约1300亿美元。员工和投资者持有47%股份,微软持有32.5%股份。OpenAI还同意购买2500万美元微软Azure云服务,微软股价一度上涨3.5%。
GitHub推出Agent HQ平台,统一管理AI编程智能体并集成至工作流中。Agent HQ核心为Mission Control指挥中心,可协调多智能体任务分配与管理,支持跨平台操作。其Plan Mode功能可提升代码质量。开发者可通过AGENTS.md创建自定义智能体。
腾讯混元推出国内首个交互式AI播客,用户可在收听过程中随时打断并提问。播客基于大模型意图识别、长上下文理解等能力,结合上下文和背景信息给出准确答案。用户能自主选择播客风格、主持人数及音色,支持快速创作播客内容。