美团LongCat团队开源了语音编解码方案LongCat-Audio-Codec。专为语音大语言模型(Speech LLM)设计,通过语义与声学双Token并行提取机制,兼顾语音的语义和声学特征,解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互,满足车载语音助手、实时翻译等场景的需求。
美团LongCat团队开源了语音编解码方案LongCat-Audio-Codec。专为语音大语言模型(Speech LLM)设计,通过语义与声学双Token并行提取机制,兼顾语音的语义和声学特征,解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互,满足车载语音助手、实时翻译等场景的需求。
斯坦福大学教授李飞飞的创业公司World Labs推出了实时生成式世界模型RTFM。模型可在单个H100 GPU上运行,输入2D图像后,能生成不同视角下的新2D图像,实现3D一致性和持久性。RTFM基于大规模视频数据训练,无需显式构建3D表示,而是通过端到端学习模拟3D几何、反射等特征。
智元机器人发布新一代工业级交互式具身作业机器人——智元精灵G2。机器人以工业标准打造,搭载NVIDIA Jetson Thor芯片,配备高精度力控双臂和19自由度的灵巧手,具备3D触觉感知和5自由度腰腿搭配全向底盘。支持多人连续语音对话与知识库问答,采用双电池热插拔换电技术,配备360环视鱼眼和前后双激光雷达,可主动避障。
阿里推出全新AI编程工具Qoder CLI,专为命令行环境打造的AI Coding Agent。集成顶尖编程模型,设计轻量级Agent框架,具备强大代码生成与理解能力,同时降低内存消耗和命令响应时间,提升开发效率。Qoder CLI无需复杂初始化,安装即用,支持文件编辑、命令运行等功能,并可通过MCP扩展或自定义开发工具。
Anthropic发布了Claude Haiku 4.5模型。模型在保持高性能的同时,速度翻倍且价格大幅降低。在SWE-bench Verified测试集中,Haiku 4.5取得了73%的成绩,与Claude Sonnet 4和OpenAI的GPT-5处于同一水平线,在某些任务上甚至超过Sonnet 4。
火山引擎全新发布和升级了四款豆包大模型,包括豆包大模型1.6升级版、豆包大模型1.6 lite、豆包语音合成模型2.0和豆包声音复刻模型2.0。豆包大模型1.6升级版原生支持四种思考长度,是国内首个原生支持“分档调节思考长度”的模型,可平衡效果、时延和成本。豆包大模型1.6 lite更轻量、推理速度更快、性价比更高。
Qwen Chat Memory正式上线,赋予了Qwen“长记忆”能力。能理解上下文、保留重要信息并回忆过往对话,使交流更具延续性。让Qwen在对话中主动关联过往互动,更好地理解用户需求,为用户提供更个性化的服务。
讯飞星火“深度研究”功能全新升级,实现底层思维链路、信息融合与内容呈现的全方面进化。功能通过多轮思考和搜索迭代,深度理解用户意图,提升内容质量;支持输出高质量图片,新增HTML网页导出与一键转PPT功能;结合外部搜索信源和本地文档,实现个性化思考。
谷歌发布AI视频生成模型Veo 3.1,带来更丰富的音频、叙事控制及逼真的质感还原。Veo 3.1在Veo 3基础上,提升提示词遵循度,增强视听质量。其驱动的AI电影创作工具Flow更新,支持原生音频生成,用户可将静态图像转视频、整合多图像元素、延展视频时长等,实现更精细的视频编辑与颗粒化控制。
NotebookLM视频概览功能发布更新升级,新增了六种由 Nano Banana 提供配图支持的视觉风格:Watercolor、Papercraft、Anime、Whiteboard、Retro Print 和 Heritage。更新彻底告别了以往固定主体动态颜色的限制,效果提升明细。目前仅支持 Pro 用户。
阿里通义千问团队推出Qwen3-VL系列4B与8B版本,提供Instruct和Thinking版本。新版本资源门槛低,核心能力不减配,在多模态性能上表现优异,多个基准测试中超越谷歌Gemini 2.5 Flash Lite、OpenAI GPT-5 Nano等同级别顶尖模型,甚至媲美阿里此前旗舰模型Qwen2.5-VL-72B。
腾讯优图实验室开源了高性能通用文本嵌入模型Youtu-Embedding。模型面向企业级应用,可胜任文本检索、意图理解等六大任务,在中文文本嵌入评测基准CMTEB上以77.46分登顶。采用“LLM基础预训练→弱监督对齐→协同-判别式微调”的三阶段训练,结合创新微调框架与精细化数据工程,解决了多任务学习难题。
OpenAI与定制ASIC厂商博通宣布合作,共同开发10吉瓦的定制人工智能加速器。博通将从2026年下半年开始部署相关系统,并于2029年年底完成。受此消息影响,博通盘中股价涨超10%。
微软宣布推出首款完全自主研发的图像生成模型MAI-Image-1,模型在LMArena的文本到图像模型排行榜上首次进入前十。微软AI致力于为所有人创造AI,MAI-Image-1为创作者提供真正的价值,避免重复或泛泛的输出。专注于生成逼真的图像,如光影效果和风景,并在速度和质量上表现出色。
百灵团队正式发布万亿思考模型Ring-1T,宣布开源。模型基于Ling 2.0架构,具备1T总参数和50B激活参数,支持最高128K上下文窗口。通过大规模可验证奖励强化学习(RLVR)训练,Ring-1T在数学竞赛、代码生成、逻辑推理等高难度任务上表现优异,达到开源领先水平。
前特斯拉AI总监Karpathy推出开源项目“nanochat”,仅用约8000行代码复现ChatGPT全流程。项目在GitHub上线不到12小时,星标数已破4.2k。用户只需一台GPU、约4小时和100美元成本,就能训练出一个能写诗、回答基础问题的“小型ChatGPT”。
中国AI硬件公司未来智能完成亿元级A轮融资,由蚂蚁集团领投,启明创投超额跟投。是其今年第三次融资,累计融资规模进一步扩大。本轮融资将用于丰富AI办公硬件产品矩阵、加速海外自主品牌viaim建设和市场推广,以及加大对AI Agent等前沿技术的投入。
工业AI智能体公司“设序科技”完成数千万元Pre-B轮融资,投资方为涌铧投资和广发信德。过去一年,公司已连续完成三轮融资,累计金额超亿元。设序科技成立于2020年,旗下产品“闪设”是一款工业智能生成式设计软件,可快速生成3D设计方案和2D工程图纸,已应用于汽车、3C、能源等领域,客户包括比亚迪、本田等。
LiblibAI 2.0正式上线,是中国最大的多模态模型社区的全新升级。自2023年起步,LiblibAI已汇聚2000万创作者,在新版本中,从单纯的工具集合转变为创作者的AI专业工作室。新版本具备极简生成器,可同时完成视频与图像生成;兼容开源与闭源模型,整合全球最大图片风格开源模型库,支持AI工作流批量化处理。
谷歌DeepMind发布Gemini 2.5 Computer Use模型,可让AI直接控制浏览器,执行点击、滚动、输入等操作。模型基于Gemini 2.5,与OpenAI的CUA类似,通过视觉理解和推理能力帮助用户完成任务。在基准测试中,其性能达到SOTA水平,速度优于其他模型。
镜识科技完成数千万元A轮融资,由常春藤资本独家投资。公司成立于2024年,专注于具身智能技术的研发与应用。其研发的“黑豹2.0”四足机器人以10.9米/秒的速度打破波士顿动力Wildcat尘封十余年的纪录。
Figure AI发布第三代人形机器人Figure 03,号称全球最强大。机器人配备全新传感系统和手部结构,搭载自研“视觉 – 语言 – 动作”AI系统Helix,能思考而非仅执行指令。以家庭场景优先,采用柔性材质、无线充电等,零部件制造成本降低90%,目标是帮用户做家务。
国产AI视频生成产品Gaga上线。Gaga由Sand.ai团队开发,专注于对话场景的视频生成,用户上传一张照片和一段台词,3分钟内即可生成包含声音、表情、情绪和背景音的视频。与Sora2相比,Gaga专精于胸部以上的对话演绎,成本不到Sora2的1/20。
吴恩达宣布推出新课程《Agentic AI》,教授构建AI智能体的技能。课程已在deeplearning.ai上线。学习者将掌握反思、工具使用、规划和多智能体协作等四种关键智能体设计模式。课程强调规范化评估和错误分析流程的重要性,帮助学员高效改进智能体工作流。