生数科技联合清华发布 TurboDiffusion提速200倍
生数科技联合清华大学开源视频生成加速框架TurboDiffusion,最高可实现200倍推理加速,推动AI视频生成迈入“实时生成”时代。框架通过低比特注意力加速、稀疏-线性注意力等四项核心技术,在单张RTX 5090显卡上能将生成1080P高清视频的时间从分钟级压缩至秒级,几乎不影响生成质量。
生数科技联合清华大学开源视频生成加速框架TurboDiffusion,最高可实现200倍推理加速,推动AI视频生成迈入“实时生成”时代。框架通过低比特注意力加速、稀疏-线性注意力等四项核心技术,在单张RTX 5090显卡上能将生成1080P高清视频的时间从分钟级压缩至秒级,几乎不影响生成质量。
阿里开源图像编辑模型Qwen-Image-Edit-2511,显著提升人物一致性与风格稳定性,集成LoRA模块实现光照、材质及视角控制。实测显示其人像融合、文字渲染效果自然,但几何推理与精细镜头控制仍有不足。
杭州云深处科技股份有限公司已启动上市辅导,辅导机构为中信建投证券。公司成立于2017年,专注于四足及人形机器人研发,创始人朱秋国为浙江大学副教授,目前合计控制公司32.60%的股份。云深处科技近期完成了超5亿元人民币的C轮融资,并于11月初完成股改。
全国首个规划资源领域AI大模型“云宇星空”(专业版)近日在上海正式发布。模型由上海市规划资源局与商汤科技联合研发,具备“问不倒、能调图、会统计、能识图、会报告”五大核心能力,参数量达6000亿。
字节跳动Seed团队发布新一代形式化数学推理模型Seed Prover 1.5。模型采用全新的Agentic Prover架构,能自主调用数学库搜索、代码执行等工具进行增量式证明。在IMO 2025测试中,模型以35/42的成绩达到金牌分数线;在Putnam竞赛历史题集上解决率达88%,刷新多项SOTA记录。
钉钉发布AI工作操作系统“Agent OS”,重构企业工作方式。系统作为全球首个为AI打造的工作智能操作系统,可统一调度和管理各类AI智能体。核心组件包括交互界面“钉钉ONE”、通用智能体“悟空”及企业级AI硬件“DingTalk Real”。
面壁智能近日宣布完成数亿元融资,投资方包括京国瑞、国科投资、中金保时捷基金等多家机构。本轮融资将主要用于加大端侧高效大模型的研发投入,加速端侧AI的商业化进程。
阿里通义发布新一代端到端语音交互模型Fun-Audio-Chat,模型采用创新的端到端序列到序列架构,实现从语音输入直接生成语音输出,无需传统ASR+LLM+TTS多模块拼接,显著降低延迟。在OpenAudioBench、MMAU等多个权威评测中,模型在同尺寸模型中排名第一,综合性能超越GLM4-Voice、Kimi-Audio等主流产品。
MiniMax发布新一代大模型MiniMax M2.1,该版本在多语言编程与真实世界复杂任务处理上实现显著突破。模型系统性提升了Rust、Java、Golang等十余种编程语言能力,在SWE-bench Verified基准测试中获得74分,超越Claude Sonnet 4.5。其创新的VIBE基准测试显示,M2.1在全栈应用构建能力上接近顶级闭源模型水平。
智谱AI正式上线并开源新一代大模型GLM-4.7,该版本在编码、推理与智能体能力上实现显著提升。在多项主流基准测试中,编程能力达到开源模型领先水平,在SWE-bench Verified中获得73.8%的SOTA分数,工具调用任务τ²-Bench得分87.4分,超越Claude Sonnet 4.5。
智谱通过港交所聆讯,冲刺港股“大模型第一股”。智谱成立于2019年6月,是中国最大型的独立通用大模型开发商、中国第二大整体通用大模型开发商。其MaaS平台提供语言、多模态、智能体、代码四类模型,支持本地化和云端部署。2025年11月,智谱日均token消耗量达4.2万亿,已为约8000万台设备提供支持。
MiniMax通过港交所聆讯并披露招股书,冲刺IPO。MiniMax成立于2022年初,若成功上市,将是全球从成立到IPO最快的AI公司。2024年,MiniMax收入同比增长782%至3050万美元,净亏损为4.65亿美元。其变现方式包括订阅服务、基于token的应用内购买、线上营销服务以及按使用量计费的企业级API服务。
英伟达开源通用游戏AI模型NitroGen,模型能通过观看游戏画面直接生成手柄操作信号,支持跨1000余款不同类型游戏的零样本游玩。模型基于4万小时游戏视频数据集训练,采用为机器人设计的GR00T架构,具备强大的跨游戏泛化能力。
在火山引擎Force大会上,扣子开发平台正式升级为“扣子编程”并开启免费公开测试。此次升级标志着平台从AI应用搭建工具转型为赋能开发者创造力的平台,推出全新的Vibe Coding开发范式。用户只需用自然语言描述业务需求,即可自动生成智能体、工作流及跨端应用。
苹果公司宣布开源其新型AI模型SHARP,能在一秒内将单张2D照片转换为逼真的3D场景。与传统方案相比,处理速度提升了三个数量级,实现了近乎实时的3D转换体验。模型基于先进的3D高斯泼溅技术,通过神经网络单次前馈即可预测数百万个3D高斯球的位置与外观。
MiniMax视频团队开源视觉生成模型关键组件VTP,首次提出tokenizer的scaling性质。技术通过融合多种表征学习方法,将latent易学性与通用表征学习建立关联,显著提升下游生成系统性能。
OpenAI发布迄今最先进的智能体编码模型GPT-5.2-Codex,模型在复杂软件工程任务中实现重大突破。新版本显著提升了指令遵循能力、长上下文理解及网络安全防护性能,在SWE-Bench Pro和Terminal-Bench 2.0等基准测试中达到最先进水平。独特的上下文压缩技术可高效处理大型代码库,支持复杂重构与迁移任务。
美团发布并开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar,模型在动作拟真度、长视频稳定性与身份一致性三大维度实现显著突破。模型原生支持音视频联合生成及视频续写等功能,通过创新的跨片段隐空间拼接技术,有效解决了长视频生成中的画质退化问题,可稳定生成5分钟高质量视频。
爱诗科技与阿里云签署全面合作协议,双方将在AI视频生成领域建立深度协同。阿里云将为爱诗科技提供全栈AI支持,涵盖基础设施及大模型服务,助力其自研视频生成模型PixVerse的全球化部署。
瑞典AI编程初创公司Lovable近日完成新一轮融资,估值飙升至66亿美元,较半年前暴涨超三倍,成为欧洲最具价值初创公司之一。本轮融资吸引了Accel等知名风投参与,标志着AI编程工具赛道竞争加剧。
Meta发布首个统一多模态音频分离模型SAM Audio,支持通过文本、视觉或时间段提示从复杂音频中精准提取目标声音。模型基于感知编码器视听技术,用户可点击视频中物体分离对应音频,或输入”狗吠”等文本指令过滤噪音。
阶跃星辰宣布其GUI Agent模型Step-GUI全面升级,新版模型支持200多个任务场景,具备更长推理步骤、更强语义理解与泛化能力。模型可在手机、PC、汽车等多端使用,并实现最短10分钟快速部署。公司开放了API供免费使用,并公开发布了技术报告与GUI-MCP协议。
字节跳动正式发布通用Agent模型Seed1.8,模型集成了搜索、代码生成与图形界面交互等多元能力,支持图文输入并具备原生视觉理解功能。在多项基准测试中表现优异,其在GUI Agent任务上的OSWorld得分达61.9,搜索任务BrowseComp-en得分67.6,均处于行业领先水平。
谷歌正式发布高速、低成本模型Gemini 3 Flash,模型在多项基准测试中表现优异,其性能已超越前代Gemini 2.5 Pro,在部分指标上接近Gemini 3 Pro和GPT-5.2等前沿模型。新模型具备前沿级推理与多模态能力,响应速度提升3倍,同时显著降低了成本。