Llama Nemotron是NVIDIA推出的一系列推理模型,专注于推理和多种智能代理(agentic AI)任务。模型基于Llama开源模型,经过NVIDIA的后训练,加入推理能力,在...
Llama Nemotron是NVIDIA推出的一系列推理模型,专注于推理和多种智能代理(agentic AI)任务。模型基于Llama开源模型,经过NVIDIA的后训练,加入推理能力,在...
Miracle F1 是美图 WHEE 推出的全新AI图像生成模型。具备强大的图像生成能力,能像摄影师、建筑师和画家一样精准地处理光影、空间和材质效果,生成的图像真实...
Lipsync-2 是 Sync Labs 推出的全球首个零-shot 嘴型同步模型。无需针对特定演讲者进行预训练,能即时学习并生成符合独特说话风格的嘴型同步效果。
EasyControl 是 Tiamat AI 开源的基于扩散变换器(Diffusion Transformer,DiT)架构的高效灵活控制框架,通过轻量级条件注入 LoRA 模块,独立处理条件信号,...
OmniSVG 是复旦大学和 StepFun 联合开发的全球首个端到端多模态 SVG(可缩放矢量图形)生成模型。基于预训练视觉语言模型(VLM),通过创新的 SVG 标记化方法...
A2A(Agent2Agent)是谷歌开源的首个标准智能体交互协议,让不同框架和供应商构建的AI智能体相互协作。A2A基于标准化的通信方式,打破系统孤岛,让智能体安全...
DCEdit 是新型的双层控制图像编辑方法,是北京交通大学和美图2MT实验室联合推出的。DCEdit基于精确语义定位策略(PSL),用视觉和文本自注意力优化交叉注意力...
LocAgent是斯坦福大学、耶鲁大学和南加州大学等机构联合推出的,专注于代码定位任务的框架,帮助开发者快速准确地找到代码库中需要修改的部分。LocAgent将代...
Multi-SWE-bench 是字节跳动豆包大模型团队开源的首个多语言代码修复基准。在SWE-bench基础上,首次覆盖Python之外的7种主流编程语言,包括Java、TypeScript...
Gemini 2.5 Flash 是 Google 推出的高效、低延迟的 AI 模型,基于 Gemini 2.5 模型构建。Gemini 2.5 Flash在保持低延迟和成本效益的同时,引入思考能力。
DevDocs 是专为程序员和开发者设计的开源技术文档爬取和处理工具,基于智能爬虫技术,快速爬取、整理技术文档,将理解文档的时间从数周缩短至几小时。DevDocs...
AutoRAG 是Cloudflare 推出的全托管的检索增强生成(RAG)管道,帮助开发者轻松将上下文感知的 AI 集成到应用程序中,无需管理基础设施。
MoLing 是无依赖的本地办公自动化助手,是基于计算机和浏览器使用的 MCP 服务器。MoLing 基于操作系统 API 实现系统交互,支持文件系统操作(如读写、合并、...
Versatile-OCR-Program是为教育场景和机器学习训练定制的开源多模态OCR工具。结合DocLayout-YOLO、Google Vision和MathPix等技术,精准识别文本、数学公式、...
Kimi-VL 是月之暗面开源的轻量级多模态视觉语言模型,基于轻量级MoE模型Moonlight(16B总参数,2.8B激活参数)和原生分辨率的MoonViT视觉编码器(400M参数)...
FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型,...
BrowseComp 是 OpenAI 开源的用于评估 AI Agent网络浏览能力的基准测试。包含 1266 个极具挑战性的问题,覆盖电影、科学与技术、艺术、历史、体育、音乐、电...
日日新SenseNova V6是商汤推出的日日新第六代多模态融合大模型系列,基于6000亿参数的多模态MoE架构,实现文本、图像和视频的原生融合。日日新SenseNova V6在...
明岐是上海交通大学计算机学院LoCCS实验室推出的首个精准诊断罕见病的医学多模态大模型。基于“大模型能力矩阵 + 专家路由协同”的双引擎驱动架构,整合医学影...
Fourier N1 是通用机器人公司傅利叶发布的首款开源人形机器人。身高1.3米,体重38公斤,拥有23个自由度,采用铝合金与工程塑料复合结构,兼具强度与灵活性。...
ScholarCopilot 是加拿大滑铁卢大学与卡内基梅隆大学的研究团队开发的专为学术写作设计的人工智能工具,基于 Qwen-2.5-7B 模型,通过动态检索引用和联合优化...
AgentPrune 是同济大学、香港中文大学等机构联合提出的针对大型语言模型(LLM)驱动的多智能体系统通信优化框架,通过“剪枝”技术,剔除冗余或有害的通信内容...
心影大模型是心影随形顶尖AI团队研发的AI大模型,正式通过国家生成式人工智能服务备案。模型专注于游戏领域,深度融合游戏攻略与角色陪伴场景,全面应用于“逗...
FlexIP 是腾讯提出的面向图像合成的灵活主体属性编辑框架,平衡图像生成中的身份保持和个性化编辑。框架采用双适配器架构,将身份保持与个性化编辑解耦,通过...