MiroFlow是强大的多智能体系统开发框架,专为构建复杂、高性能的AI智能体而设计,为MiroThinker等模型生成高质量的智能体轨迹数据。框架具备可复现的性能,在...
MiroFlow是强大的多智能体系统开发框架,专为构建复杂、高性能的AI智能体而设计,为MiroThinker等模型生成高质量的智能体轨迹数据。框架具备可复现的性能,在...
GLM-4.5V是智谱开源的最新一代视觉推理模型。模型基于106B参数规模构建,拥有12B激活能力,是目前领先的视觉语言模型(VLM)。模型在GLM-4.1V-Thinking的基础...
Matrix-Game 2.0 是昆仑万维 SkyWork AI 发布的自研世界模型。是业内首个开源的通用场景实时长序列交互式生成模型,全面开源,推动交互式世界模型领域的发展...
RynnVLA-001 是阿里达摩院推出的视觉-语言-动作模型。模型通过在大量第一人称视角的视频上进行预训练,学习人类操作技能,并隐式迁移到机器人手臂的操控中。
RynnRCP 是阿里达摩院开源的机器人上下文协议(Robotics Context Protocol),能打通具身智能开发全流程。RynnRCP 包含 RCP 框架 和 RobotMotion 两大模块,...
RynnEC是阿里巴巴达摩院推出的世界理解模型 (MLLM),专门用在具身认知任务。模型能从位置、功能、数量等11个维度全面解析场景中的物体,支持物体理解、空间...
Matrix-3D 是昆仑万维 Skywork AI 团队推出的用在生成可探索全景3D世界的框架。框架结合全景视频生成与3D重建,从单图像或文本提示出发,生成高质量、全向可...
AI Sheets 是 Hugging Face 开源的无代码数据处理工具,提供类似 Excel 的界面,让用户通过自然语言提示轻松调用数千种开源 AI 模型,完成数据的构建、丰富和...
Skywork UniPic 2.0 是昆仑万维开源的高效多模态模型,专注于统一的图像生成、编辑和理解能力。模型基于2B参数的SD3.5-Medium架构,通过预训练、渐进式双任务...
Voost 是NXN实验室推出创新的虚拟试穿和试脱模型,基于统一且可扩展的扩散 Transformer(DiT)框架开发。能同时处理虚拟试穿(try-on)和试脱(try-off)任务...
hunyuan-large-vision 是腾讯推出的多模态理解模型,基于MoE架构,激活参数达52B,支持图像、视频和3D空间输入。模型在国际知名的大模型竞技场“LMArena Visio...
Skywork Deep Research Agent v2是昆仑万维推出的升级版深度研究智能体,作为天工超级智能体的核心引擎,具备多模态深度调研能力,首次整合多模态检索、理解...
Mureka V7.5是昆仑万维集团推出的先进AI音乐创作模型。模型在中文歌曲创作上表现卓越,能精准还原音色、演奏技法,提升咬字与情感表现。
Shadow 是开源的AI编程Agent,能帮助开发者理解、推理并贡献现有的代码库。Shadow 支持 GitHub 仓库集成,能生成拉取请求、管理分支,提供实时任务状态更新。...
MoE-TTS 是昆仑万维语音团队推出的首个基于MOE的角色描述语音合成框架,专门用在提升对开放域文本描述的理解能力。模型通过混合专家(Mixture-of-Experts,Mo...
DINOv3 是 Meta 推出的通用的、SOTA 级的视觉基础模型。模型通过无标注数据训练,生成高质量的高分辨率视觉特征,适用图像分类、语义分割、目标检测等多任务。
Genie Envisioner 是智元推出的首个机器人世界模型开源平台。平台通过一个统一的视频生成框架,集成策略学习、评估和仿真功能。核心组件包括 GE-Base(大规模...
VeOmni 是字节跳动 Seed 团队开源的全模态分布式训练框架,基于 PyTorch 设计。VeOmni 以模型为中心,将分布式并行逻辑与模型计算解耦,支持灵活组合多种并行...
OpenDeRisk是AI原生的风险智能管理系统,支持为应用系统提供7×24小时的全面保护。系统基于深度根本原因分析(DeepResearch RCA),快速定位问题根源,结合可...
MemU 是面向AI情感陪伴开源的AI记忆框架。MemU 能记住用户与 AI 的每一次对话,提取重点并建立知识图谱,让 AI 真正理解用户。
Chaterm是开源的智能、安全的AI终端工具,专为云从业者和开发运维人员设计。工具基于AI Agent让用户能用自然语言代替复杂命令行操作,Chaterm提供基于个人知...
AudioGenie是腾讯AI Lab团队推出的多模态音频生成工具,能从视频、文本、图像等多种模态输入生成音效、语音、音乐等多种音频输出。工具采用无训练的多智能体...
Qwen-Image-Edit 是基于 200 亿参数的 Qwen-Image 架构构建的全能图像编辑模型。模型兼具语义与外观的双重编辑能力,能进行低层次的视觉外观编辑(如添加、删...
Open-Lovable 是由 Firecrawl 团队推出的开源项目,通过 AI 技术快速将任意网站克隆为现代 React 应用。用户输入目标网站 URL 后,通过 Firecrawl 抓取内容,...