Voice Changer - Cartesia推出转换声音同时保留原始情感的变声器模型
Voice Changer是Cartesia推出的新模型,能将任何音频剪辑的语音转换成其他音色,且保留原始音频的情感和表达。用户从Cartesia提供的多种高质量声音库中选择,...
Voice Changer是Cartesia推出的新模型,能将任何音频剪辑的语音转换成其他音色,且保留原始音频的情感和表达。用户从Cartesia提供的多种高质量声音库中选择,...
Oasis是世界上首款AI实时生成的游戏,由Decart和Etched联合推出。游戏能以每秒20帧的速度实时渲染交互式视频内容,无需游戏引擎,通过AI模型直接生成。玩家可...
夸克灵知是夸克公司全新推出的智能学习学习大模型,具备博士生级别的推理能力。基于AI技术为用户提供分步骤题目讲解,能随时回答问题。在考研数学等题目的正...
OSAID 1.0(The Open Source AI Definition – 1.0)是Open Source Initiative(OSI)发布的官方标准,用在明确AI系统成为开放源代码的条件。参与制定OSAID 1....
MobileLLM是Meta为移动设备用例优化设计的十亿参数以下的大型语言模型,能解决云成本上升和延迟问题。MobileLLM基于深薄架构、嵌入共享和分组查询注意力机制...
SmolLLM2是Hugging Face推出用在设备端应用的紧凑型大型语言模型,提供1.7B、360M、135M三个不同参数级别的模型,适应不同的应用场景和资源限制。模型在理解...
Genmoai-smol是开源视频生成模型,是Genmoai的txt2video模型的工作进展分支,专为单GPU设备优化,减少显存占用,在资源有限的设备上能进行视频创作。模型用高...
VirSci(Virtual Scientists)是上海人工智能实验室推出的多智能体AI科学研究工具,基于模拟科学家团队的合作过程加速科研创新。系统基于大型语言模型(LLMs...
Self-Lengthen是阿里巴巴千问团队推出的创新的迭代训练框架,能提升大型语言模型(LLMs)生成长文本的能力。框架基于两个角色,生成器和扩展器协同工作,生成...
Amphion是开源的音频、音乐和语音生成工具包,是香港中文大学(深圳)副教授武执政团队联合上海人工智能实验室和深圳市大数据研究院共同推出的。工具包支持可...
LongReward是清华大学、中国科学院、智谱AI联合推出的,基于AI反馈改进长文本大型语言模型(LLMs)性能的方法。LongReward从有用性、逻辑性、忠实性和完整性...
Fish Agent是FishAudio推出的创新的端到端语音处理模型,集成自动语音识别(ASR)和文本到语音(TTS)技术,无需传统的语义编码器/解码器,即可实现语音到语...
MeetingMind是AI驱动的会议助手,基于录音和文件上传功能自动转录会议音频,从中提取关键信息,如任务、决策和问题,帮助用户轻松捕获和分析会议内容,采取行...
星辰大模型平台是中国电信推出的AI大模型集合平台,覆盖语义、视觉、语音等多模态领域。包含不同参数量级的模型,支持长文本处理,具备多语种语音识别和多任...
Fast GraphRAG 是微软推出的高效的知识图谱检索框架,旨在提供可解释性和高精度的代理驱动检索工作流。它结合了检索增强生成(RAG)技术和知识图谱,提升大型...
Stagehand是简单和可扩展的AI网页浏览框架,是Playwright的继承者,提供act、extract和observe三个简单的API,支持自然语言驱动的网页操作。Stagehand提供一...
VideoTuna是集成多种AI视频生成模型的代码库,支持文本到视频、图像到视频和文本到图像的转换。VideoTuna提供预训练、持续训练、后训练对齐和微调等全面视频...
ComfyUI-MochiEdit是基于ComfyUI和Genmo Mochi的开源视频编辑工具,基于将视频转换为噪声、重新采样实现视频编辑,支持局部编辑和视频转视频功能。用户能调整...
HiCo是360 AI研究院推出的基于扩散模型的层次化可控布局到图像生成模型,HiCo基于多分支结构设计,实现对对象位置和文本描述的精确控制。HiCo的关键特点在于...
Ferret-UI 2是苹果公司推出的多模态大型语言模型,用在理解和交互移动用户界面。Ferret-UI 2能识别和理解各种移动设备屏幕上的UI元素,执行复杂的用户指令,...
MMBench-Video是新颖的长视频多题问答基准测试,是浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合推出的。MMBench-Video能全面评估大型视觉...
MiniMates是高性能的轻量级数字人驱动算法,具备语音和表情两种驱动模式,能在普通电脑上实现实时运行。基于先进的技术架构,提供极致的速度体验和个性化定制...
MotionCLR是基于注意力机制的人体动作生成和编辑模型,能根据文本提示生成动作,支持用户进行交互式编辑,如动作强调、减弱、替换、擦除和风格转移。MotionCL...
DocMind是司马阅推出的文档智能大模型,基于Transformer结构,融合深度学习、NLP和CV技术,能处理富文本文档的复杂结构和视觉信息,提高信息抽取准确性。DocM...