PyVideoTrans - 开源的视频翻译和配音工具,支持多种语言
PyVideoTrans 是开源的视频翻译配音工具,将视频内容从一种语言自动翻译成另一种语言,并添加相应的字幕和配音。PyVideoTrans支持多语言,具备高效的语音识别...
PyVideoTrans 是开源的视频翻译配音工具,将视频内容从一种语言自动翻译成另一种语言,并添加相应的字幕和配音。PyVideoTrans支持多语言,具备高效的语音识别...
ongCite是由清华大学推出的项目,旨在提升大型语言模型(LLMs)在长文本问答任务中的可信度和可验证性。项目通过生成细粒度的句子级引用,使用户能验证模型的...
CSGO(Content-Style Composition in Text-to-Image Generation)是由南京理工大学、小红书等机构合作开发的图像风格迁移和文本到图像生成的研究项目。CSGO的...
GameGen-O 是腾讯推出的一款基于 Transformer 架构的游戏视频生成模型,专门用于生成开放世界视频游戏。模型能模拟游戏引擎的多种功能,包括生成游戏角色、动...
mPLUG-DocOwl 2是由阿里巴巴通义实验室mPLUG团队推出的用于多页文档理解的多模态大型语言模型。在不依赖光学字符识别(OCR)技术的情况下,通过高分辨率文档...
SleepFM 是斯坦福大学开源的多模态睡眠分析模型,基于超过14,000名参与者的100,000小时睡眠数据,通过融合大脑活动、心电图和呼吸信号,提供全面的睡眠健康评...
QA-MDT(Quality-aware Masked Diffusion Transformer)是由中国科学技术大学和科大讯飞联合推出的开源音乐生成模型。模型基于文本描述生成高质量且音乐性强...
书生·筑梦2.0(Vchitect 2.0)是由上海人工智能实验室推出的升级版视频生成开源大模型,旨在生成符合中国文化和东方审美的视频内容。模型支持长达20秒的视频...
AI Youtube Shorts Generator 是一款开源的 AI 视频编辑工具,基于 GPT-4、FFmpeg 和 OpenCV 等技术自动分析长视频,提取最精彩的片段,将其裁剪成适合短视频...
PhotoPrism 是一个开源的AI照片管理工具,用 Go 语言编写,旨在为用户提供一个去中心化的照片存储和组织解决方案。支持用户在自己的硬件上运行,完全控制自己...
Claude Dev是一个集成在Visual Studio Code中的AI编程助手,基于Anthropic公司的Claude 3.5 Sonnet模型,为开发者提供自动化的编程支持。Claude Dev自动处理...
FaceSwap 是一个开源的AI软件,用于创建深度伪造(Deepfakes)视频和图像。基于深度学习技术,在视频或图片中将一个人的脸替换成另一个人的脸。FaceSwap 支持...
Seed-Music是字节跳动推出的AI音乐生成大模型,将用户录制的 10 秒音频转化为完整的音乐作品。通过自回归语言模型和扩散方法,根据用户的多模态输入(如风格...
ConFiner 是一个创新的视频生成框架,由多所大学和研究机构共同推出。结合多个现成的扩散模型专家,无需额外训练可生成高质量且连贯的视频内容。
M2UGen是先进的多模态音乐理解和生成框架,由腾讯PCG ARC实验室与新加坡国立大学联合推出。结合了大型语言模型(LLM)的能力,能处理包括文本、图像、视频和...
Nemotron-Mini-4B-Instruct是英伟达推出的一款开源小型语言模型,专为角色扮演、检索增强生成(RAG)和函数调用任务优化。模型通过蒸馏、剪枝和量化技术优化...
PoseTalk 是基于文本和音频的姿势控制和运动细化方法的开源项目,用于一次性生成会说话的头部视频。从图像、驱动音频和驱动姿势合成说话人脸视频,为用户提供...
Follow-Your-Canvas 是由腾讯混元团队与清华大学等机构合作推出的一种高分辨率视频扩展技术。通过分布式处理和布局对齐两个核心设计,将视频内容扩展到任意分...
Filmfotos是由DynamicWang推出的的基于Flux架构的LoRA模型,专注于模拟和还原胶片的质感效果。以低饱和度的日系胶片风格为特点,为照片带来柔和、细腻的复古...
Faster Whisper 是一个基于OpenAI Whisper模型的高效语音识别工具,运用CTranslate2引擎实现快速推理。在保持高准确度的同时,提升语音转写速度,降低内存使...
SwiftBrush V2 是文本到图像的单步扩散模型,通过改进训练方法和模型融合技术,实现与多步Stable Diffusion扩散模型相媲美的性能。模型通过更好的权重初始化...
Jina-embeddings-v3 是 Jina AI 推出的一款先进的文本嵌入模型,专为多语言数据处理和长文本上下文检索任务设计。模型拥有 5.7 亿参数,支持长达 8192 个 tok...
Click2Mask 是一种先进的图像编辑技术,支持用户通过在图片上简单点击来实现局部编辑,无需复杂的遮罩或详细描述。通过动态生成遮罩,结合混合潜在扩散(BLD...
DrawingSpinUp 是一种先进的3D动画生成技术,由香港城市大学的研究团队推出。模型将平面的角色绘画转化为具有3D效果的动态动画,同时保留原始艺术作品的风格...