PhotoPrism 是一个开源的AI照片管理工具,用 Go 语言编写,旨在为用户提供一个去中心化的照片存储和组织解决方案。支持用户在自己的硬件上运行,完全控制自己...
PhotoPrism 是一个开源的AI照片管理工具,用 Go 语言编写,旨在为用户提供一个去中心化的照片存储和组织解决方案。支持用户在自己的硬件上运行,完全控制自己...
Claude Dev是一个集成在Visual Studio Code中的AI编程助手,基于Anthropic公司的Claude 3.5 Sonnet模型,为开发者提供自动化的编程支持。Claude Dev自动处理...
FaceSwap 是一个开源的AI软件,用于创建深度伪造(Deepfakes)视频和图像。基于深度学习技术,在视频或图片中将一个人的脸替换成另一个人的脸。FaceSwap 支持...
Seed-Music是字节跳动推出的AI音乐生成大模型,将用户录制的 10 秒音频转化为完整的音乐作品。通过自回归语言模型和扩散方法,根据用户的多模态输入(如风格...
ConFiner 是一个创新的视频生成框架,由多所大学和研究机构共同推出。结合多个现成的扩散模型专家,无需额外训练可生成高质量且连贯的视频内容。
M2UGen是先进的多模态音乐理解和生成框架,由腾讯PCG ARC实验室与新加坡国立大学联合推出。结合了大型语言模型(LLM)的能力,能处理包括文本、图像、视频和...
Nemotron-Mini-4B-Instruct是英伟达推出的一款开源小型语言模型,专为角色扮演、检索增强生成(RAG)和函数调用任务优化。模型通过蒸馏、剪枝和量化技术优化...
PoseTalk 是基于文本和音频的姿势控制和运动细化方法的开源项目,用于一次性生成会说话的头部视频。从图像、驱动音频和驱动姿势合成说话人脸视频,为用户提供...
Follow-Your-Canvas 是由腾讯混元团队与清华大学等机构合作推出的一种高分辨率视频扩展技术。通过分布式处理和布局对齐两个核心设计,将视频内容扩展到任意分...
Filmfotos是由DynamicWang推出的的基于Flux架构的LoRA模型,专注于模拟和还原胶片的质感效果。以低饱和度的日系胶片风格为特点,为照片带来柔和、细腻的复古...
Faster Whisper 是一个基于OpenAI Whisper模型的高效语音识别工具,运用CTranslate2引擎实现快速推理。在保持高准确度的同时,提升语音转写速度,降低内存使...
SwiftBrush V2 是文本到图像的单步扩散模型,通过改进训练方法和模型融合技术,实现与多步Stable Diffusion扩散模型相媲美的性能。模型通过更好的权重初始化...
Jina-embeddings-v3 是 Jina AI 推出的一款先进的文本嵌入模型,专为多语言数据处理和长文本上下文检索任务设计。模型拥有 5.7 亿参数,支持长达 8192 个 tok...
Click2Mask 是一种先进的图像编辑技术,支持用户通过在图片上简单点击来实现局部编辑,无需复杂的遮罩或详细描述。通过动态生成遮罩,结合混合潜在扩散(BLD...
DrawingSpinUp 是一种先进的3D动画生成技术,由香港城市大学的研究团队推出。模型将平面的角色绘画转化为具有3D效果的动态动画,同时保留原始艺术作品的风格...
Qwen2.5-Coder 是阿里Qwen 团队推出的全系列代码生成模型,推动开源代码语言模型的发展。在代码生成、代码推理、代码修复等任务上表现出色。系列涵盖了不同规...
Qwen2.5-Math是由阿里巴巴Qwen团队推出的开源AI数学模型,是Qwen2-Math的升级版,支持中英双语。模型通过大规模数学数据预训练,结合CoT、PoT和TIR推理方法,...
Qwen2.5 是阿里通义千问团队最新开源的最强AI大模型,具有多种参数规模的模型,包括 0.5B、1.5B、3B、7B、14B、32B 和 72B。模型在预训练时使用了最新的大规...
abab-video-1是MiniMax公司推出的首款AI高清视频生成模型,模型支持生成最高1280x720分辨率、25fps的高清视频,具备电影感的镜头移动效果,能根据文本描述快...
abab-music-1 是 MiniMax 推出的一款端到端 AI 音乐生成大模型。支持多功能端到端音乐生成,能合成多种音乐形式,包括纯音乐和清唱作品,同时满足伴奏和人声...
FineVideo是由Hugging Face推出的一个大型多模态视频数据集,专注于视频理解领域中的复杂任务,如情绪分析、故事叙述和媒体编辑。FineVideo包含超过43,000个Y...
Void 是基于 Visual Studio Code 构建的开源文本编辑器,集成AI技术增强编程体验。Void支持代码自动补全、内联编辑、AI 驱动的代码搜索,直接与大型语言模型...
Draw an Audio 是中国科学院自动化研究所和美团点评的研究人员推出的视频生成音频系统。根据视频内容自动生成匹配的声音效果,类似于电影制作中的 Foley 艺术...
CogVideoX-5B-I2V 是智谱 AI 开源的一款图生视频模型,通过一张图片和文本提示词生成视频。模型采用了3D 因果变分自编码器和专家自适应 LayerNorm 技术,能输...