VersaGen是文本到图像合成的生成式AI代理,能实现灵活的视觉控制能力。VersaGen能处理包括单一视觉主体、多个视觉主体、场景背景,这些元素的任意组合在内的...
VersaGen是文本到图像合成的生成式AI代理,能实现灵活的视觉控制能力。VersaGen能处理包括单一视觉主体、多个视觉主体、场景背景,这些元素的任意组合在内的...
ILLUME是华为诺亚方舟实验室提出的统一多模态大模型,将视觉理解与生成能力融入同一框架中。模型以大型语言模型(LLM)为核心,采用“连续图像输入 + 离散图像...
AIGCPanel是开源AI数字人系统,以简洁易用著称,支持视频合成、声音合成和声音克隆等核心功能。系统基于TypeScript开发,跨平台兼容,遵循AGPL-3.0协议,便于...
HuatuoGPT-o1是香港中文大学(深圳)和深圳大数据研究院联合推出的,针对医学领域开发的复杂推理模型,基于复杂的推理能力提高解决医学问题的性能。模型用两...
LangGraph是为构建状态化、多智能体(Multi-Agent) 系统而设计的,特别是与大型语言模型(LLMs)一起使用时,用在创建代理和多代理工作流。作为 LangChain ...
R2R是先进的AI检索系统,专注于Retrieval-Augmented Generation(增强型检索生成)。R2R集成多模态内容摄取、混合搜索、知识图谱构建、GraphRAG聚类分析、用...
Eliza 是开源的多代理模拟框架,由 ai16z 开发,旨在创建、部署和管理自主 AI 代理。 以 TypeScript 作为编程语言开发,为构建智能代理提供了一个灵活、可扩...
MagicMirror是开源的AI换脸、换发型和穿搭应用,通过深度学习技术让用户能够一键变换形象。应用的特点简单易用、硬件友好、隐私保护和轻量级设计,无需高端GP...
PanoDreamer是能够从单张图像生成连贯的360° 3D场景的新方法。这种方法不同于现有技术,它将问题构建为单图像全景和深度估计的两个优化任务,并引入交替最小...
VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目,基于视频扩散模型(VDM)的零样本定制视频生成框架。与传统方法不同,VideoMaker无需额...
TITAN是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能在无需微调或临床标签的情况下提取通用的切片表示...
TANGOFLUX是高效的文本到音频生成模型,是新加坡科技设计大学(SUTD)和NVIDIA共同推出的。模型拥有约5.15亿参数,能在单个A40 GPU上仅用3.7秒生成长达30秒的...
MMedAgent是专为医疗领域设计的多模态AI智能体,通过整合各种开源医疗模型来管理多种医疗任务。系统包括一个指令调整的多模态大型语言模型(MLLM),作为行动...
VITRON是Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大型语言模型(LLM),能全面理解和处理静态图像与动态视频,对图像和视频进行理解、...
n8n是开源的自动化工作流管理系统,提供一个低代码平台,支持用户用拖放的方式创建复杂的工作流,无需编写代码。n8n支持400多个应用程序和服务的集成,包括AI...
SoulChat2.0是华南理工大学未来技术学院-广东省数字孪生人重点实验室基于SoulChat1.0模型推出的心理咨询师数字孪生大语言模型。首次定义了特定心理咨询师的数...
SAC-KG是基于大型语言模型(LLMs)自动构建领域知识图谱的通用框架。由生成器、验证器和剪枝器三个主要组件构成,能自动从原始领域语料库中生成特定领域的一...
TryOffAnyone是能将穿着服装的人物照片转换成平铺的服装展示图的AI工具。基于先进的Latent Diffusion Models技术,自动识别并提取照片中的服装区域,然后将其...
LongDocURL是中国科学院自动化研究所和阿里巴巴淘宝天猫集团联合发布的多模态长文档理解基准数据集。专注于评估模型在处理长文档、复杂元素和多样化任务中的...
DeepSeek Artifacts是Hugging Face推出的免费AI编程工具,能生成React和Tailwind CSS的前端代码。工具基于DeepSeek V3,主要目标是构建公共的前端代码数据集...
Jina Reader 是 Jina AI 推出的开源工具,能将互联网上的 HTML 网页内容转换为适合大型语言模型(LLMs)处理的纯文本格式。用户只需在网址前添加特定前缀,即...
Memory Layers是Meta推出的用可训练的键值查找机制为模型增加额外参数的方法,它不会增加浮点运算次数(FLOPs)。基于稀疏激活补充计算密集型的前馈层,提供...
Cognita是开源的模块化RAG(Retrieval Augmented Generation)框架,能帮助开发者构建模块化、易于扩展和部署的生产级应用程序。Cognita用Langchain/LlamaInd...
LAM是微软推出的名为“Large Action Model”(简称 LAM)的新人工智能模型。与传统语言模型不同,LAM能够自主操作Windows程序,实现真实任务执行。 能理解文本...