豆包输入法推出macOS版本
字节跳动旗下豆包输入法macOS版本正式上线,苹果电脑用户可通过语音实现”用嘴打字”。macOS版本基于豆包App同款语音模型,支持任意输入框实时语音转文字,边说边出字且无时长限制。功能上支持多种方言及中英混说,可智能修正语气词、语病和口误,能记住用户个性化改词习惯等。
字节跳动旗下豆包输入法macOS版本正式上线,苹果电脑用户可通过语音实现”用嘴打字”。macOS版本基于豆包App同款语音模型,支持任意输入框实时语音转文字,边说边出字且无时长限制。功能上支持多种方言及中英混说,可智能修正语气词、语病和口误,能记住用户个性化改词习惯等。
Runway正式推出Runway Agent,对话式AI视频创作智能体。用户仅需描述需求,Agent在单轮对话中完成从概念构思、故事分镜到视觉方向的全流程规划,自动生成包含多场景、配音、对白及配乐的高分辨率成品视频。
小米具身智能团队开源Xiaomi OneVL一步式潜空间语言视觉推理框架。模型在业内率先实现 VLA、世界模型与潜空间推理的统一,兼具强悍推理能力与高速响应,精度超越显式 CoT,速度对齐潜空间 CoT 方案。在 ROADWork、Impromptu、Alpamayo-R1 等多项基准上达到 SOTA,提供语言与视觉双维度可解释性。
Anthropic为Claude Code推出Agent View研究预览版,支持开发者在一个终端界面内同时调度、监控多个并行AI会话,无需多开窗口。用户可实时查看各任务状态,随时介入回复或切换会话且不丢进度。功能支持后台持续运行,将Claude Code从单线程对话工具升级为多任务”指挥中心”,适用所有付费计划。
前阿里千问大模型技术负责人林俊旸已正式创业,聚焦世界模型与具身大脑。他已招募来自字节、腾讯及海外背景的核心成员,以约20亿美元估值启动融资,接触红杉中国、高榕创投等机构。此前,林俊旸因阿里云计划拆分Qwen团队离职,具身智能也是其在阿里未竟之业。
MiniMax推出MiniMax Agent升级版Mavis,上线Agent Teams功能,支持多角色Agent并行协作,通过Owner、Worker、Verifier架构解决单Agent停摆、漂移等痛点;同时合并TokenPlan与Agent Plan,一份订阅打通CLI、API、Agent全链路,覆盖M2.7及音视频模型,Credits额度灵活共享。 稀宇科技
谷歌在安卓Show大会上推出首款为Gemini量身打造的Googlebook笔记本,搭载智能光标并支持跨设备体验。同时发布安卓版Gemini Intelligence,支持跨App自动执行多步骤任务、Chrome集成Gemini插件、Rambler语音转文字及自定义桌面组件。谷歌还与苹果联手新增端到端加密RCS,预告下周I/O大会将抢先预览智能眼镜。
码上飞宣布全新升级,进化为”用AI帮你做生意”的一站式平台。用户用中文可一句话生成微信小程序、App及网站。新版本为每个应用自动配备专属AI员工,支持内容创作、客户回复、数据分析等运营。同时自动生成管理后台集中管理订单、商品与经营数据,助力个人及小团队零门槛跑通业务。
千问APP与淘宝全面打通,用户更新至6.9.1版本后,可在千问内直接完成商品挑选、对比及下单。依托AI能力,千问支持复杂条件精准筛选、模糊需求智能理解、场景化商品组合推荐,能识别”智商税”理性劝退,实现从搜索到购买的全链路AI购物体验。
OpenBMB开源 MiniCPM-V 4.6 端侧多模态大模型,LLM 参数量仅 1.3B,模型总体积约 1.6GB,最低 6GB 内存即可流畅运行。模型基于 llama.cpp 框架,完整支持 iOS、Android、HarmonyOS NEXT 三大平台纯本地离线部署,具备图像理解、OCR、视频理解等多模态能力。
商汤办公小浣熊桌面版2.0升级发布,从”桌面入口”转型为”执行助手”,新增六大能力:直接读取本地20+格式文件、一句话操控浏览器、⌘K全局快捷唤起、连接飞书/企微/钉钉、本地跨会话记忆、定时自动执行任务。现Mac端已开启首批内测招募,限时免费使用,Windows端预计5月中下旬上线。
OpenAI宣布成立OpenAI Deployment Company,获超40亿美元初始投资并收购英国AI咨询公司Tomoro,将150名前沿部署工程师嵌入企业,帮助客户将AI部署到销售、法务等核心业务流程,从模型提供商转型为AI经济部署层。同时推出AI网络安全工具Daybreak,整合最强模型、Codex及安全合作伙伴,自动化漏洞发现与修复,加速网络防御并持续保障软件安全。
腾讯QClaw正式上线「文件空间」功能,一次授权可打通本地文件、腾讯文档与ima知识库。用户可直接在QClaw内调用腾讯文档和ima资料让AI处理,生成内容后一键保存为腾讯文档并生成协作链接,或沉淀回ima知识库。实现从资料调取、AI加工到团队协作的全流程闭环。
谷歌云智能体开源官方命令行工具agents-cli,专为简化企业级 AI Agent 从开发到部署的全生命周期设计。工具集成 Gemini CLI、Claude Code、Codex、Cursor 等主流编程 Agent,内置 Workflow、Scaffold、Eval、Deploy 等7个技能包,支持本地模拟评估、自动化部署至 Cloud Run/GKE,提供人工模式随时接管流程。
火山引擎正式推出Agent套餐包Agent Plan,首次将多模态模型与Harness工具深度整合。套餐聚合字节跳动自研的Doubao-Seed、Seedance、Seedream系列及GLM-5.1、Kimi-K2.6等主流模型,内置联网搜索、embedding等工具,适配Claude Code、OpenClaw等平台。
2026移动云大会在苏州召开,中国移动围绕”算力新动能、智能新空间”为主题,设8大分论坛及8000㎡展区,吸引超10万人次观展。中国移动发布三大首创:桌面级AI办公智能体MobileClaw、大模型聚合平台MoMA、支持电话交互的移动AI云电脑,和AI-eSIM卡及万亿级Token服务体验包,布局吉瓦级AI数据园区。
具身智能底层基础设施公司 Uncharted Dynamics 完成数百万美元种子轮融资,由险峰长青领投。公司聚焦高精度多体动力学求解器研发,为具身智能提供物理层面的”真值地基”,解决现有仿真系统在刚柔耦合、柔性接触等复杂交互中物理失真、导致模型难以迁移至现实的问题。 Finance
通义灵码推出RepoWiki功能,支持为代码库自动生成覆盖模块关系、接口定义与实现逻辑的结构化知识文档,解决 AI 编程工具碎片化理解代码的痛点。RepoWiki支持全量生成、增量更新与 Git 目录同步,Wiki 文件可随代码提交实现团队共享。Repo Wiki 目前处于 Beta 阶段,面向企业标准版与专属版用户开放免费体验,
OpenAI 宣布推出GPT-5.5-Cyber限量预览版,优先向经过审核的网络防御者开放。模型基于 Trusted Access for Cyber(TAC)框架,在 GPT-5.5 基础上降低安全相关任务的拒绝率,支持漏洞验证、恶意软件分析等防御工作流,同时保留对恶意活动的防护。
蚂蚁百灵正式推出Ring-2.6-1T,模型采用万亿级参数规模,在推理、编程、多模态理解等能力上实现显著提升。百灵团队通过创新的训练架构优化,在保证模型性能的同时有效降低推理成本。Ring-2.6-1T 已面向开发者和企业用户开放 API 调用,支持文本、图像、代码等多种任务场景,进一步丰富国内大模型生态的选择。
百度文心 5.1正式上线,总参数压缩至文心 5.0 的约 1/3、激活参数约 1/2,预训练成本仅为业界同规模模型的 6%。模型在 Arena 搜索榜以 1223 分位列全球第四、国内第一,Agent 能力超越 DeepSeek-V4-Pro,AIME26 数学竞赛得分 99.6 仅次于 Gemini-3.1 Pro。
阶跃星辰正式推出新一代实时语音大模型StepAudio 2.5 Realtime,模型具备三大核心能力:顶级副语言能力,可精准感知语调、语速、停顿等情绪细节;千万人设自定义,支持从性格到口癖的精细调节,打造专属AI角色;对话双商领跑,在情商与智商上双重进阶。
共绩科技宣布完成近亿元Pre-A轮融资,由春华创投、彼岸时代联合领投。公司独创”电网式算力调度网络”,整合全球闲时、异构算力资源,通过AI算法实现供需动态匹配,让算力像电力一样按需取用、按量计费。平台已服务超5000家团队及企业,帮助客户降低算力成本超50%,典型客户包括LiblibAI、Remy等。
美团推出 AI 原生社区觅游并开启公测。产品定位为面向大模型与 Agent 的共生社区,首创养虾模式,用户饲养的 AI Agent 虾可协助寻找赚钱机会、结识伙伴。目前平台已入驻超 3000 个 Agent、汇聚 4 万余项 Skill。