Loopy是字节跳动推出的音频驱动的AI视频生成模型,用户可以让一张静态照片动起来,照片中的人物根据给定的音频文件进行面部表情和头部动作的同步,生成逼真的...
Loopy是字节跳动推出的音频驱动的AI视频生成模型,用户可以让一张静态照片动起来,照片中的人物根据给定的音频文件进行面部表情和头部动作的同步,生成逼真的...
xLAM 是 Salesforce 开源的一款大型语言模型,专为功能调用任务设计。模型能理解和执行基于自然语言指令的 API 调用,它在自动化任务和与各种数字服务交互方...
CodeFormer是一款由南洋理工大学和商汤科技联合开发的AI照片和视频修复工具。融合了变分自动编码器(VQGAN)和Transformer技术,对模糊和马赛克的照片或视频...
Mini-Omni 是一个开源的端到端语音对话模型,具备实时语音输入和输出的能力,能在对话中实现“边思考边说话”的功能。模型的设计支持在不需要额外的自动语音识...
Composio 是一个AI智能体开发辅助工具,提供100+集成工具,简化了 AI Agent的开发和部署,支持开发者通过一行代码调用多种工具和框架,如 OpenAI 和 Claude、...
DeepSeek-V2.5 是DeepSeek推出的融合通用与代码能力的全新开源模型。保留了之前 Chat 模型的通用对话能力以及 Coder 模型的代码处理能力,更好地对齐了人类的...
MLE-Agent 是一款专为机器学习工程师和研究人员设计的智能助手,通过自动化基线创建、集成最新研究资源、智能调试、文件系统和工具集成,以及交互式命令行聊...
ViewCrafter 是北大和港中文联合腾讯提出的一种先进的视频扩散模型,能从单个或少量图像中合成高保真的新视图。结合了视频扩散模型的生成能力和基于点的3D表...
FluxMusic 是一个开源的音乐生成模型,基于扩散模型和 Transformer 架构将文本描述转换成音乐。模型能处理复杂的文本指令,生成具有特定情感、风格和乐器的音...
LightEval是Hugging Face推出的一款轻量级AI评估工具,专门用于评估大型语言模型(LLMs)。LightEval支持多任务处理和复杂模型配置,能在多种硬件上运行,包...
RegionDrag是由香港大学和牛津大学联合开发的一种基于区域的图像编辑技术。基于扩散模型,让用户定义手柄区域和目标区域来表达编辑意图,实现快速且精确的图...
LinFusion 是新加坡国立大学研究团队开发的一种创新图像生成模型,基于线性注意力机制来处理高分辨率图像生成任务。使模型在处理大量像素时的计算复杂度保持...
Deepfake Defenders是由中国科学院自动化研究所的团队VisionRush开发的一款开源AI模型,旨在识别和防御Deepfake技术生成的伪造图像和视频。模型通过分析媒体...
蓝心大模型是vivo发布的全新自研通用大模型矩阵,包括语言大模型、端侧大模型、语音大模型、图像大模型以及多模态大模型。在多个领域和场景中发挥着重要作用...
VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视...
MagicMan 是清华大学深圳国际研究生院、腾讯AI实验室、香港科技大学、斯坦福大学和香港中文大学的研究团队共同推出的AI项目,专注于基于深度学习技术从单张2D...
DeepSeek-Coder-V2 是由DeepSeek推出的开源代码语言模型,在代码特定任务中的表现与 GPT4-Turbo 相媲美。模型在 DeepSeek-V2 的基础上,额外预训练了 6 万亿...
AppFlowy 是一个开源的笔记和任务管理工具,被设计为 Notion 的替代品,提供了更好的隐私保护。使用 Rust 和 Flutter 构建,遵循极简原则,提供了足够的调整...
丰语大模型是顺丰科技推出的物流行业专用大语言模型。顺丰科技表示,丰语大模型以更小的尺寸模型对更大尺寸通用模型在物流垂域的全面超越。丰语大模型已在市...
SAM2Point是基于SAM2的3D分割技术,无需额外训练或 2D-3D 投影,直接对任意3D数据进行零样本分割。通过将3D数据体素化,模拟为多方向视频流,基于SAM2实现精...
CodeFuse-muAgent 是蚂蚁集团 CodeFuse 团队开发的多智能体框架,基于知识图谱引擎来驱动智能体的编排和协作。简化智能体的标准操作程序编排流程。通过集成工...
VoxInstruct 是由清华大学开源的语音合成技术,能根据人类语言指令生成高度符合用户需求的语音。系统采用统一的多语言编解码器语言建模框架,将传统的文本到...
Pixtral 12B 是法国AI初创公司Mistral推出的首款多模态AI模型,能同时处理图像和文本。模型拥有 120 亿参数,模型大小约为 24GB,基于文本模型 Nemo 12B构建...
MMRole是由中国人民大学高瓴人工智能学院研究团队推出的的一种多模态角色扮演智能体(MRPA)框架。通过结合图像和文本,使智能体以特定角色进行更自然和沉浸...