Sapiens - Meta推出的AI视觉模型,能理解图片和视频中的人类动作
Sapiens是Meta实验室推出的AI视觉模型,专为理解图片和视频中的人类动作设计。支持二维姿势预估、身体部位分割、深度估计和表面法线预测等任务,采用视觉转换...
Sapiens是Meta实验室推出的AI视觉模型,专为理解图片和视频中的人类动作设计。支持二维姿势预估、身体部位分割、深度估计和表面法线预测等任务,采用视觉转换...
OpenCity是由香港大学联合华南理工大学和百度共同研发的交通预测模型。OpenCity采用Transformer架构和图神经网络,通过大规模预训练学习交通数据的时空依赖关...
Eagle是英伟达推出的多模态大模型,擅长处理高达1024×1024像素的图像,显著提升视觉问答和文档理解能力。Eagle模型采用多专家视觉编码器架构,通过简单高效的...
PGTFormer是先进的视频人脸修复框架,通过解析引导的时间一致性变换器来恢复视频中的高保真细节,同时增强时间连贯性。该方法无需预对齐,基于语义解析选择最...
HivisionIDPhoto 是一款基于 AI 的轻量级证件照制作工具,它能智能识别和抠图,快速生成符合多种规格的证件照。支持自定义背景色和尺寸,未来还将推出美颜和...
Step-1X 是阶跃星辰推出的AI图像生成大模型,采用自研的 DiT 架构,擅长深度语义理解和细节生成。Step-1X支持长达2000字符的复杂指令,能精准匹配图文,适用...
Melty是一款开源AI编程助手,专为提升开发者的编码效率和代码质量而设计。Melty通过实时理解开发者的编程活动,从终端操作到 GitHub 交互,提供智能协作和代...
Yi-Coder是零一万物推出的开源编程助手系列模型,专为提升代码生成、理解、调试和补全等任务的效率而设计。Yi-Coder系列模型包含1.5B和9B两种参数规模的版本...
VideoGameBunny(VGB)是一个专为视频游戏设计的开源大型多模态模型,由加拿大阿尔伯塔大学研究团队开发。它能理解和生成多种语言的游戏相关内容,支持高度定...
LanceDB 是一款专为人工智能应用设计的无服务器向量数据库,支持向量搜索、全文搜索和SQL查询,优化了多模态数据处理。它采用向量索引技术,实现高效相似度搜...
NNanoFlow 是一个高性能的服务框架,专为大型语言模型(LLMs)设计,以提高模型的推理吞吐量。它通过在单个设备内部并行使用计算、内存和网络资源,优化了模...
ChatLearn 是由阿里云推出的一个灵活、易用、高效的大规模Alignmant 训练框架。ChatLearn是为了支持大型语言模型(LLMs)的 Alignment 训练而设计的。ChatLea...
Docmatix 是一个用于文档视觉问答(Document Visual Question Answering,简称 DocVQA)任务设计的大规模数据集。它包含了240万张图像和950万个问题答案对,...
Kotaemon 是一款基于 RAG 技术的开源工具,支持用户通过自然语言与文档进行互动,快速检索和理解信息。适合需要处理大量文档的场合,如学术研究、企业文档管...
Stable Diffusion整合包是B站UP主秋葉aaaki发布的SD绘画本地部署解决方案,包含了Stable Diffusion WebUI、必要的运行环境、预装模型以及一些常用插件的集合...
MiniCPM 3.0是面壁智能推出的一款高性能端侧AI模型,具备4B参数,以较小的模型规模实现了超越GPT-3.5的性能表现。MiniCPM 3.0采用LLMxMapReduce技术,支持无...
Reflection 70B是HyperWrite公司推出的开源AI大模型,以卓越的性能在多个基准测试中超越了GPT-4o和Llama 3.1。Reflection 70B基于Meta的Llama 3.1 70B Instru...
Loopy是字节跳动推出的音频驱动的AI视频生成模型,用户可以让一张静态照片动起来,照片中的人物根据给定的音频文件进行面部表情和头部动作的同步,生成逼真的...
xLAM 是 Salesforce 开源的一款大型语言模型,专为功能调用任务设计。模型能理解和执行基于自然语言指令的 API 调用,它在自动化任务和与各种数字服务交互方...
CodeFormer是一款由南洋理工大学和商汤科技联合开发的AI照片和视频修复工具。融合了变分自动编码器(VQGAN)和Transformer技术,对模糊和马赛克的照片或视频...
Mini-Omni 是一个开源的端到端语音对话模型,具备实时语音输入和输出的能力,能在对话中实现“边思考边说话”的功能。模型的设计支持在不需要额外的自动语音识...
Composio 是一个AI智能体开发辅助工具,提供100+集成工具,简化了 AI Agent的开发和部署,支持开发者通过一行代码调用多种工具和框架,如 OpenAI 和 Claude、...
DeepSeek-V2.5 是DeepSeek推出的融合通用与代码能力的全新开源模型。保留了之前 Chat 模型的通用对话能力以及 Coder 模型的代码处理能力,更好地对齐了人类的...
MLE-Agent 是一款专为机器学习工程师和研究人员设计的智能助手,通过自动化基线创建、集成最新研究资源、智能调试、文件系统和工具集成,以及交互式命令行聊...