OpenAI再出手!与博通双方达成AI芯片合作
OpenAI与定制ASIC厂商博通宣布合作,共同开发10吉瓦的定制人工智能加速器。博通将从2026年下半年开始部署相关系统,并于2029年年底完成。受此消息影响,博通盘中股价涨超10%。
OpenAI与定制ASIC厂商博通宣布合作,共同开发10吉瓦的定制人工智能加速器。博通将从2026年下半年开始部署相关系统,并于2029年年底完成。受此消息影响,博通盘中股价涨超10%。
微软宣布推出首款完全自主研发的图像生成模型MAI-Image-1,模型在LMArena的文本到图像模型排行榜上首次进入前十。微软AI致力于为所有人创造AI,MAI-Image-1为创作者提供真正的价值,避免重复或泛泛的输出。专注于生成逼真的图像,如光影效果和风景,并在速度和质量上表现出色。
百灵团队正式发布万亿思考模型Ring-1T,宣布开源。模型基于Ling 2.0架构,具备1T总参数和50B激活参数,支持最高128K上下文窗口。通过大规模可验证奖励强化学习(RLVR)训练,Ring-1T在数学竞赛、代码生成、逻辑推理等高难度任务上表现优异,达到开源领先水平。
前特斯拉AI总监Karpathy推出开源项目“nanochat”,仅用约8000行代码复现ChatGPT全流程。项目在GitHub上线不到12小时,星标数已破4.2k。用户只需一台GPU、约4小时和100美元成本,就能训练出一个能写诗、回答基础问题的“小型ChatGPT”。
中国AI硬件公司未来智能完成亿元级A轮融资,由蚂蚁集团领投,启明创投超额跟投。是其今年第三次融资,累计融资规模进一步扩大。本轮融资将用于丰富AI办公硬件产品矩阵、加速海外自主品牌viaim建设和市场推广,以及加大对AI Agent等前沿技术的投入。
工业AI智能体公司“设序科技”完成数千万元Pre-B轮融资,投资方为涌铧投资和广发信德。过去一年,公司已连续完成三轮融资,累计金额超亿元。设序科技成立于2020年,旗下产品“闪设”是一款工业智能生成式设计软件,可快速生成3D设计方案和2D工程图纸,已应用于汽车、3C、能源等领域,客户包括比亚迪、本田等。
LiblibAI 2.0正式上线,是中国最大的多模态模型社区的全新升级。自2023年起步,LiblibAI已汇聚2000万创作者,在新版本中,从单纯的工具集合转变为创作者的AI专业工作室。新版本具备极简生成器,可同时完成视频与图像生成;兼容开源与闭源模型,整合全球最大图片风格开源模型库,支持AI工作流批量化处理。
谷歌DeepMind发布Gemini 2.5 Computer Use模型,可让AI直接控制浏览器,执行点击、滚动、输入等操作。模型基于Gemini 2.5,与OpenAI的CUA类似,通过视觉理解和推理能力帮助用户完成任务。在基准测试中,其性能达到SOTA水平,速度优于其他模型。
镜识科技完成数千万元A轮融资,由常春藤资本独家投资。公司成立于2024年,专注于具身智能技术的研发与应用。其研发的“黑豹2.0”四足机器人以10.9米/秒的速度打破波士顿动力Wildcat尘封十余年的纪录。
Figure AI发布第三代人形机器人Figure 03,号称全球最强大。机器人配备全新传感系统和手部结构,搭载自研“视觉 – 语言 – 动作”AI系统Helix,能思考而非仅执行指令。以家庭场景优先,采用柔性材质、无线充电等,零部件制造成本降低90%,目标是帮用户做家务。
国产AI视频生成产品Gaga上线。Gaga由Sand.ai团队开发,专注于对话场景的视频生成,用户上传一张照片和一段台词,3分钟内即可生成包含声音、表情、情绪和背景音的视频。与Sora2相比,Gaga专精于胸部以上的对话演绎,成本不到Sora2的1/20。
吴恩达宣布推出新课程《Agentic AI》,教授构建AI智能体的技能。课程已在deeplearning.ai上线。学习者将掌握反思、工具使用、规划和多智能体协作等四种关键智能体设计模式。课程强调规范化评估和错误分析流程的重要性,帮助学员高效改进智能体工作流。
火山引擎发布豆包大模型1.6-vision。大模型具有多模态能力,可处理文本、图像、视频等多种数据。豆包大模型1.6-vision在多个领域有广泛的应用前景,如智能客服、内容创作、图像识别等。
昆仑万维集团正式发布Opera Neon浏览器。Opera Neon是Opera浏览器家族的新成员,也是首款AI Agent浏览器,采用付费订阅制,专为大量使用AI的用户设计。具备“任务”功能,可创建独立工作空间,支持AI辅助操作;“卡片”功能可让用户自定义指令,提高效率;“Neon Do”功能可主动执行任务,如购物、预订等;“制作”功能则支持用户创作内容并分享。
谷歌DeepMind发布Dreamer 4,一种可扩展的智能体,通过在快速且准确的世界模型中进行想象训练来解决控制任务。它是首个仅从离线数据集在《我的世界》中获得钻石的智能体。Dreamer 4利用shortcut forcing目标和高效Transformer架构,准确学习复杂交互,实现实时人机交互和高效想象训练。
Thinking Machines Lab推出首款产品「Tinker」,是一个专为语言模型微调而生的API。允许开发者通过简单的Python代码进行模型微调,无需担心底层架构的复杂性。Tinker支持从小到大的各类开放权重模型,包括大型专家混合架构,并集成了基于LoRA的微调方法。
Anthropic发布AI Agent上下文工程指南,强调上下文工程的重要性。上下文工程是提示词工程的自然演进,关注在LLM推理过程中策划和维护最优token集合。指南指出,LLM的注意力资源有限,上下文应被视为有限资源,需精心设计。
滴滴上线AI图寻产品「在哪儿问问」,目前仅支持微信小程序。该产品具有地点查找、相似地点推荐及相关产品推荐功能。用户上传照片,AI可识别大致位置并提供相应服务。
西湖大学自然语言处理实验室发布DeepScientist系统,是首个具有完整科研能力的AI科学家。能在无人工干预下,主动识别研究局限、提出新构想、编写代码、执行实验、撰写论文。在AI文本检测任务中,DeepScientist两周完成人类三年的科研进展,取得7.9%的AUROC提升,超越人类SOTA方案。
OpenAI与流媒体音乐平台Spotify达成合作,用户可在ChatGPT网页版或移动端中提到Spotify后登录账号,获取个性化音乐和播客推荐。ChatGPT会根据对话内容调用Spotify控件,推荐歌曲、艺人、专辑等,点击后自动打开Spotify应用。
百灵团队正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T。模型拥有万亿参数,基于Ling 2.0架构,每个token激活约500亿参数。Ling-1T在20T+ token的高质量、高推理浓度语料上完成预训练,支持最高128K上下文窗口,通过“中训练+后训练”的演进式思维链(Evo-CoT)极大提升模型高效推理能力,在多项复杂推理基准中取得SOTA表现。
快手正在开发一款名为“CodeFlicker”的集成开发环境工具,支持AI问答、代码自动补全、基于Agent的AI编程等功能,可帮助程序员自动化完成开发任务,实现端到端开发。工具提供Jam模式和Duet模式等交互模式,能将复杂任务拆解为清晰可追踪的待办步骤,还通过MCP灵活集成不同数据源、工具和服务,拓宽应用场景边界。
OpenAI开发者大会发布多项重要产品:包括AgentKit智能体开发工具(含可视化构建器、连接器注册表和ChatKit)、Codex正式版(集成Slack并提升十倍日活)、ChatGPT内置应用及开源Apps SDK。同时推出实时音频gpt-realtime-mini、图像生成gpt-image-1-mini、视频生成Sora 2 API以及GPT-5 pro API。所有功能均纳入标准API计费体系。
OpenAI 正式发布 Sora 2 ,称“视频生成进入ChatGPT时刻”。新模型可一次性生成20秒1080p音视频同步短片,物理真实度与多镜头叙事大幅提升;配套iOS社交应用“Sora APP”同步上线,支持AI虚拟形象“客串”及社区混剪,仅限邀美国、加拿大用户试用,API与安卓版将随后推出。附:Sora 2邀请码