ELLA(Efficient Large Language Model Adapter,高效的大模型适配器)是由腾讯的研究人员推出的一种新型方法,旨在提升文本到图像生成模型在处理复杂文本提...
ELLA(Efficient Large Language Model Adapter,高效的大模型适配器)是由腾讯的研究人员推出的一种新型方法,旨在提升文本到图像生成模型在处理复杂文本提...
Transformer Debugger (TDB) 是由 OpenAI 的对齐团队(Superalignment)开发的一款工具,旨在帮助研究人员和开发者更深入地理解和分析 Transformer 模型的内...
Pix2Gif是由微软研究院的研究人员提出的一个基于运动引导的扩散模型,专门用于将静态图像转换成动态的GIF动画/视频。该模型通过运动引导的扩散过程来实现图像...
Follow-Your-Click是一个由来自腾讯公司(混元团队)联合清华大学和香港科技大学的研究人员共同研发的图像到视频(Image-to-Video,简称I2V)生成模型,允许...
AutoDev是由微软的研究人员推出的一个AI编程和程序开发智能体框架,专门设计用于自主规划和执行复杂的软件工程任务,如代码编写、调试、测试和版本控制等。Au...
Grok-1 是由马斯克旗下的人工智能初创公司 xAI 开发的一款大型语言模型,是一个混合专家(MoE)模型,拥有 3140 亿参数,使其成为目前参数量最大的开源大语言...
Open-Sora是由Colossal-AI团队开源的视频生成模型,旨在复现OpenAI的Sora视频生成产品。Open-Sora同样基于DiT架构,通过三个阶段训练:大规模图像预训练、大...
VLOGGER AI是谷歌的研究团队开发的一个多模态扩散模型,专门用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该模型的主要功能在于使用人工智...
Stable Video 3D(简称SV3D)是由Stability AI公司开发的一项先进的3D技术,能够从单张图片生成高质量的新视角视图和3D网格。该模型在之前发布的Stable Video...
AnimateDiff-Lightning由字节跳动的研究人员最新推出的一个高质量视频生成模型,利用了渐进式对抗性扩散蒸馏技术来实现快速的视频生成。该模型旨在解决现有视...
StreamMultiDiffusion是一个实时交互式的图像生成框架,结合了扩散模型的高质量图像合成能力和区域控制的灵活性,可根据用户指定的区域文本提示生成实时、交...
Mora是由来自微软和理海大学的研究人员推出的一个多智能体(AI Agents)框架,专门用于通用视频生成任务,目标是模拟并扩展OpenAI的Sora视频生成模型。该框架...
LATTE3D是由英伟达的研究人员推出的一个文本生成3D对象的模型,能够从文本提示描述快速生成高质量的3D内容(仅需400毫秒)。该技术的核心在于采用了一种称为“...
BrushNet是由腾讯PCG部门的ARC实验室与香港大学的研究人员推出的一个基于扩散模型的即插即用的图像照片修复(Inpainting)模型,通过分解的双分支架构来有效...
SUPIR是一个突破性的图像修复和画质增强方法,利用了大规模的生成模型StableDiffusion-XL(SDXL)和模型扩展技术,通过深度学习和多模态方法,实现了对低质量...
StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型,旨在解决现有模型仅能生成16帧或24帧的高质量短视频,在生成长视频时则会遇到如视频质...
VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构...
Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同提出的一种基于3D的将人物图片转换为视频动画的模型,该方法结合了3D参数化模型(特别是SMPL模型)和潜...
Jamba是由AI21 Labs推出的首个基于Mamba架构的生产级别的大语言模型,目前大部分的大模型(如GPT、Gemini 和 Llama)都是基于 Transformer 结构。而 Jamba 结...
Voice Engine是OpenAI最新推出的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音。该项技术自2022年...
SWE-agent是一个由普林斯顿大学NLP组研究人员开发的开源AI程序员和软件工程师系统,利用大型语言模型(如GPT-4)的能力,可以自动解决GitHub存储库中的问题。...
DreaMoving是一个基于扩散模型的人类视频生成框架,由阿里巴巴集团的研究团队开发。DreaMoving通过视频控制网络和内容引导器实现对人物动作和外观的精确控制...
AniPortrait是腾讯开源的照片对口型AI视频生成框架,类似于此前阿里推出的EMO,能够通过音频和一张参考肖像图片生成高质量的动画。
InstantStyle是小红书的InstantX团队开源的保留风格一致性的个性化文本到图像生成框架,旨在解决文本到图像生成中的一个关键问题:如何在保持风格一致性的同...