Phi-3 - 微软最新推出的新一代小模型系列
Phi-3是微软研究院推出的新一代系列先进的小语言模型,包括phi-3-mini、phi-3-small和phi-3-medium三个不同规模的版本。这些模型在保持较小的参数规模的同时...
Phi-3是微软研究院推出的新一代系列先进的小语言模型,包括phi-3-mini、phi-3-small和phi-3-medium三个不同规模的版本。这些模型在保持较小的参数规模的同时...
Hyper-SD是由字节跳动的研究人员推出的一种高效的图像生成框架,通过轨迹分割一致性蒸馏(TSCD)技术,结合人类反馈学习和分数蒸馏,显著提升了扩散模型在少...
Arctic是由云计算巨头Snowflake的AI研究团队开发的一款高效、开源的企业级大型语言模型,该大模型是一个拥有480亿(480B)的参数规模,由128个细粒度的专家构...
OpenELM是Apple苹果公司最新推出的系列高效开源的语言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本。该大模型利用层...
ID-Animator是由来自腾讯光子工作室、中科大和中科院合肥物质科学研究院的研究人员推出的一种零样本(zero-shot)人类视频生成技术,能够根据单张参考面部图...
IDM-VTON是由韩国科学技术院和OMNIOUS.AI的研究人员提出的一种先进的AI虚拟试穿技术,通过改进扩散模型来生成逼真的人物穿戴图像,实现更真实的虚拟试穿效果。
VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率(VSR)模型,最高可将视频分辨率提升8倍,将模糊的视频放大为具有丰富细节...
Vidu是中国首个长时长、高一致性、高动态性的视频大模型,由生数科技与清华大学联合开发。该AI视频生成模型采用原创的U-ViT架构,结合Diffusion与Transformer...
PuLID是字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸效果。
IC-Light是一款由ControlNet作者张吕敏开发的AI图像打光处理工具,可以对图片进行光源操纵和光影重构,实现与不同背景的完美融合。用户只需上传图片,选择光...
AniTalker是由来自上海交大X-LANCE实验室和思必驰AISpeech的研究人员推出的AI对口型说话视频生成框架,能够将单张静态人像和输入的音频转换成栩栩如生的动画...
混元DiT(Hunyuan-DiT)是由腾讯混元团队开发的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示生成多分辨率的...
Veo是由Google DeepMind开发的一款视频生成模型,用户可以通过文本、图像或视频提示来指导其生成所需的视频内容,能够生成时长超过一分钟1080P分辨率的高质量...
CogVLM2是由智谱AI推出的新一代多模态大模型,在视觉和语言理解方面实现了显著的性能提升,支持高达8K的文本长度和1344*1344分辨率的图像输入,具备强大的文...
Universal-1是AI语音初创公司AssemblyAI推出的一款多语言语音识别和转录模型,经过超过1250万小时的多语种音频数据训练,支持英语、西班牙语、法语和德语等。
Codestral是法国人工智能初创公司Mistral AI推出的一款代码生成AI模型,专为提高软件开发效率而设计,支持超过80种编程语言,包括但不限于Python、Java、C、C...
ChatTTS是一款专为对话场景设计的支持中英文的文本转语音(TTS)模型,基于约10万小时的中英文数据进行训练,能够生成高质量、自然流畅的对话语音。
Seed-TTS是由字节跳动开发的一系列高级文本到语音(Text to Speech,TTS)模型,能够生成与人类语音极为相似的高质量语音,具备出色的上下文学习能力和自然度。
Qwen2是由阿里云通义千问团队开源的新一代大语言模型,该系列涵盖了从0.5B到72B不等的五个规模模型,在中文和英文基础上增加了27种语言的高质量数据,大幅提...
Follow-Your-Emoji是由香港科技大学、腾讯混元和清华大学的研究人员推出的一个基于扩散模型的人像动画框架,利用扩散模型为参考肖像添加目标表情序列,实现动...
ToonCrafter是由腾讯AI实验室、香港中文大学和香港城市大学的研究人员开源的卡通动画视频插值工具,突破了传统卡通动画制作中线性运动的假设限制,采用创新的...
人工智能初创公司Stability AI宣布正式开源发布其最新的文本到图像生成模型——Stable Diffusion 3 Medium(SD3 Medium)。Stable Diffusion 3 Medium 包含 20 ...
MimicBrush是由阿里巴巴、香港大学和蚂蚁集团的研究人员推出的AI图像编辑融合框架,允许用户通过简单的操作,在源图像上指定需要编辑的区域,并提供一个包含...
Hallo是由复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究人员共同提出的一个AI对口型肖像图像动画技术,可基于语音音频输入来驱动生成逼真且动态的...