小红书开源 InstanceAssemble:让 AI 精准还原复杂图像排版
小红书与复旦大学联合推出布局控制生成方案InstanceAssemble,通过创新“实例组装注意力”机制,实现了从简单布局到密集复杂场景的精准图像生成。技术能根据用户指定的物体位置和内容描述,在对应位置高精度生成图像,解决了布局对齐不准的行业难题。
小红书与复旦大学联合推出布局控制生成方案InstanceAssemble,通过创新“实例组装注意力”机制,实现了从简单布局到密集复杂场景的精准图像生成。技术能根据用户指定的物体位置和内容描述,在对应位置高精度生成图像,解决了布局对齐不准的行业难题。
Skywork Sheets 2.0版本近日正式上线,核心突破在于实现了“表格与报告的深度融合”。用户仅需输入数据,AI即可自动完成整理分析、生成可视化图表并撰写完整报告,实现“输入数据,输出成果”的闭环。
通义千问Qwen Code发布v0.5.0版本,实现从命令行工具向开发生态的关键升级。本次更新重磅推出VSCode插件,开发者可在IDE内直接唤出AI对话界面进行编程。同时发布的TypeScript SDK允许开发者以编程方式集成其智能能力,便于构建Web或移动应用。
杭州灵巧手企业曦诺未来今日宣布完成超亿元天使轮融资,由宁德时代旗下溥泉资本领投,小米战投等跟投。该公司成立数月即研发出全球首款全自研高自由度腱绳驱动灵巧手Xynova Flex 1,拥有25个自由度,自重仅380克,负载超30公斤。
智谱推出AI编程工具Zcode,深度融合AI Agent与开发工具链。工具支持跨仓库全代码库理解、多仓库上下文推理及自动化代码审查,具备对话变更自动保存、代码回滚、可视化Git界面等功能,针对前端开发集成内置浏览器和元素选择器,助力开发者高效协作,无缝融入现有工作流。
生数科技联合清华大学开源视频生成加速框架TurboDiffusion,最高可实现200倍推理加速,推动AI视频生成迈入“实时生成”时代。框架通过低比特注意力加速、稀疏-线性注意力等四项核心技术,在单张RTX 5090显卡上能将生成1080P高清视频的时间从分钟级压缩至秒级,几乎不影响生成质量。
阿里开源图像编辑模型Qwen-Image-Edit-2511,显著提升人物一致性与风格稳定性,集成LoRA模块实现光照、材质及视角控制。实测显示其人像融合、文字渲染效果自然,但几何推理与精细镜头控制仍有不足。
杭州云深处科技股份有限公司已启动上市辅导,辅导机构为中信建投证券。公司成立于2017年,专注于四足及人形机器人研发,创始人朱秋国为浙江大学副教授,目前合计控制公司32.60%的股份。云深处科技近期完成了超5亿元人民币的C轮融资,并于11月初完成股改。
全国首个规划资源领域AI大模型“云宇星空”(专业版)近日在上海正式发布。模型由上海市规划资源局与商汤科技联合研发,具备“问不倒、能调图、会统计、能识图、会报告”五大核心能力,参数量达6000亿。
字节跳动Seed团队发布新一代形式化数学推理模型Seed Prover 1.5。模型采用全新的Agentic Prover架构,能自主调用数学库搜索、代码执行等工具进行增量式证明。在IMO 2025测试中,模型以35/42的成绩达到金牌分数线;在Putnam竞赛历史题集上解决率达88%,刷新多项SOTA记录。
钉钉发布AI工作操作系统“Agent OS”,重构企业工作方式。系统作为全球首个为AI打造的工作智能操作系统,可统一调度和管理各类AI智能体。核心组件包括交互界面“钉钉ONE”、通用智能体“悟空”及企业级AI硬件“DingTalk Real”。
面壁智能近日宣布完成数亿元融资,投资方包括京国瑞、国科投资、中金保时捷基金等多家机构。本轮融资将主要用于加大端侧高效大模型的研发投入,加速端侧AI的商业化进程。
阿里通义发布新一代端到端语音交互模型Fun-Audio-Chat,模型采用创新的端到端序列到序列架构,实现从语音输入直接生成语音输出,无需传统ASR+LLM+TTS多模块拼接,显著降低延迟。在OpenAudioBench、MMAU等多个权威评测中,模型在同尺寸模型中排名第一,综合性能超越GLM4-Voice、Kimi-Audio等主流产品。
MiniMax发布新一代大模型MiniMax M2.1,该版本在多语言编程与真实世界复杂任务处理上实现显著突破。模型系统性提升了Rust、Java、Golang等十余种编程语言能力,在SWE-bench Verified基准测试中获得74分,超越Claude Sonnet 4.5。其创新的VIBE基准测试显示,M2.1在全栈应用构建能力上接近顶级闭源模型水平。
智谱AI正式上线并开源新一代大模型GLM-4.7,该版本在编码、推理与智能体能力上实现显著提升。在多项主流基准测试中,编程能力达到开源模型领先水平,在SWE-bench Verified中获得73.8%的SOTA分数,工具调用任务τ²-Bench得分87.4分,超越Claude Sonnet 4.5。
智谱通过港交所聆讯,冲刺港股“大模型第一股”。智谱成立于2019年6月,是中国最大型的独立通用大模型开发商、中国第二大整体通用大模型开发商。其MaaS平台提供语言、多模态、智能体、代码四类模型,支持本地化和云端部署。2025年11月,智谱日均token消耗量达4.2万亿,已为约8000万台设备提供支持。
MiniMax通过港交所聆讯并披露招股书,冲刺IPO。MiniMax成立于2022年初,若成功上市,将是全球从成立到IPO最快的AI公司。2024年,MiniMax收入同比增长782%至3050万美元,净亏损为4.65亿美元。其变现方式包括订阅服务、基于token的应用内购买、线上营销服务以及按使用量计费的企业级API服务。
英伟达开源通用游戏AI模型NitroGen,模型能通过观看游戏画面直接生成手柄操作信号,支持跨1000余款不同类型游戏的零样本游玩。模型基于4万小时游戏视频数据集训练,采用为机器人设计的GR00T架构,具备强大的跨游戏泛化能力。
在火山引擎Force大会上,扣子开发平台正式升级为“扣子编程”并开启免费公开测试。此次升级标志着平台从AI应用搭建工具转型为赋能开发者创造力的平台,推出全新的Vibe Coding开发范式。用户只需用自然语言描述业务需求,即可自动生成智能体、工作流及跨端应用。
苹果公司宣布开源其新型AI模型SHARP,能在一秒内将单张2D照片转换为逼真的3D场景。与传统方案相比,处理速度提升了三个数量级,实现了近乎实时的3D转换体验。模型基于先进的3D高斯泼溅技术,通过神经网络单次前馈即可预测数百万个3D高斯球的位置与外观。
MiniMax视频团队开源视觉生成模型关键组件VTP,首次提出tokenizer的scaling性质。技术通过融合多种表征学习方法,将latent易学性与通用表征学习建立关联,显著提升下游生成系统性能。
OpenAI发布迄今最先进的智能体编码模型GPT-5.2-Codex,模型在复杂软件工程任务中实现重大突破。新版本显著提升了指令遵循能力、长上下文理解及网络安全防护性能,在SWE-Bench Pro和Terminal-Bench 2.0等基准测试中达到最先进水平。独特的上下文压缩技术可高效处理大型代码库,支持复杂重构与迁移任务。
美团发布并开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar,模型在动作拟真度、长视频稳定性与身份一致性三大维度实现显著突破。模型原生支持音视频联合生成及视频续写等功能,通过创新的跨片段隐空间拼接技术,有效解决了长视频生成中的画质退化问题,可稳定生成5分钟高质量视频。
爱诗科技与阿里云签署全面合作协议,双方将在AI视频生成领域建立深度协同。阿里云将为爱诗科技提供全栈AI支持,涵盖基础设施及大模型服务,助力其自研视频生成模型PixVerse的全球化部署。