OpenEMMA - 德克萨斯联合多伦多等大学开源的端到端自动驾驶多模态模型
OpenEMMA是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型(MLLMs)处理视觉数据和复杂驾驶...
OpenEMMA是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型(MLLMs)处理视觉数据和复杂驾驶...
RAG Logger是开源的日志记录工具,专为检索增强生成(RAG)应用设计。作为LangSmith的轻量级替代品,专注于满足RAG应用的日志记录需求。RAG Logger提供查询跟...
GLM-Zero是智谱AI基于扩展强化学习技术的推理模型,专注于提升模型的深度推理能力。擅长处理数理逻辑、代码编写和复杂问题解决,在AIME 2024、MATH500和LiveC...
AutoRAG是中国科学院计算技术研究所(ICT/CAS)、中国科学院的人工智能安全重点实验室及中国科学院大学的研究人员共同推出的新型自主迭代检索模型,专为大型...
MARS(Market Simulation)是微软亚洲研究院推出的金融市场模拟预测引擎,基于生成型基础模型LMM(Large Market Model)模拟金融市场中的订单流和市场动态。M...
StoryWeaver是厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室推出的AI模型,能用知识增强的故事角色定制实现高质量的故事可视化...
StockMixer是上海交通大学推出的用在股票价格预测的多层感知器(MLP)架构,具备简单和强大的预测能力。架构基于指标混合、时间混合和股票混合三个步骤处理和...
LaDeCo是西安交通大学和微软研究院联合推出的自动图形设计构图方法,基于将设计任务分解为层次化的步骤来实现。LaDeCo对输入的设计元素进行层规划,将它们分...
SEMIKONG是专门为半导体行业定制的大型语言模型(LLM),是Aitomatic、FPT Software和东京电子有限公司联合推出的。基于深入的领域知识,解决半导体制造和设...
MinT(Mind the Time)是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架,基于精确的时间控制,根据文本提示生成包含多个事件的视频序...
Wonderland是多伦多大学、Snap和UCLA的研究团队推出的技术,能够从单张图像生成高质量、广范围的3D场景,允许控制摄像轨迹。证明了三维重建模型可以有效地建...
VersaGen是文本到图像合成的生成式AI代理,能实现灵活的视觉控制能力。VersaGen能处理包括单一视觉主体、多个视觉主体、场景背景,这些元素的任意组合在内的...
ILLUME是华为诺亚方舟实验室提出的统一多模态大模型,将视觉理解与生成能力融入同一框架中。模型以大型语言模型(LLM)为核心,采用“连续图像输入 + 离散图像...
AIGCPanel是开源AI数字人系统,以简洁易用著称,支持视频合成、声音合成和声音克隆等核心功能。系统基于TypeScript开发,跨平台兼容,遵循AGPL-3.0协议,便于...
HuatuoGPT-o1是香港中文大学(深圳)和深圳大数据研究院联合推出的,针对医学领域开发的复杂推理模型,基于复杂的推理能力提高解决医学问题的性能。模型用两...
LangGraph是为构建状态化、多智能体(Multi-Agent) 系统而设计的,特别是与大型语言模型(LLMs)一起使用时,用在创建代理和多代理工作流。作为 LangChain ...
R2R是先进的AI检索系统,专注于Retrieval-Augmented Generation(增强型检索生成)。R2R集成多模态内容摄取、混合搜索、知识图谱构建、GraphRAG聚类分析、用...
Eliza 是开源的多代理模拟框架,由 ai16z 开发,旨在创建、部署和管理自主 AI 代理。 以 TypeScript 作为编程语言开发,为构建智能代理提供了一个灵活、可扩...
MagicMirror是开源的AI换脸、换发型和穿搭应用,通过深度学习技术让用户能够一键变换形象。应用的特点简单易用、硬件友好、隐私保护和轻量级设计,无需高端GP...
PanoDreamer是能够从单张图像生成连贯的360° 3D场景的新方法。这种方法不同于现有技术,它将问题构建为单图像全景和深度估计的两个优化任务,并引入交替最小...
VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目,基于视频扩散模型(VDM)的零样本定制视频生成框架。与传统方法不同,VideoMaker无需额...
TITAN是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能在无需微调或临床标签的情况下提取通用的切片表示...
TANGOFLUX是高效的文本到音频生成模型,是新加坡科技设计大学(SUTD)和NVIDIA共同推出的。模型拥有约5.15亿参数,能在单个A40 GPU上仅用3.7秒生成长达30秒的...
MMedAgent是专为医疗领域设计的多模态AI智能体,通过整合各种开源医疗模型来管理多种医疗任务。系统包括一个指令调整的多模态大型语言模型(MLLM),作为行动...