AIニュース

すべてニュースチュートリアル Wiki AIプロジェクト AIアプリ

AIプロジェクト2025/12/18

InstantStyle - 开源的个性化文本到图像生成框架，保留风格一致性

InstantStyle是小红书的InstantX团队开源的保留风格一致性的个性化文本到图像生成框架，旨在解决文本到图像生成中的一个关键问题：如何在保持风格一致性的同...

AIプロジェクト2025/12/18

DesignEdit - 微软等开源的AI图像分层处理编辑框架

DesignEdit是由微软亚洲研究院和北京大学的研究团队共同开发的一个AI图像编辑框架，引入了设计领域的图层概念，采用多层潜在分解和融合的技术，实现了无需额...

AIプロジェクト2025/12/18

CodeGemma - 谷歌开源推出的代码生成大模型

CodeGemma是由Google发布的专注于代码生成和理解的大型语言模型，该系列包含三种不同规模的模型，分别是2B预训练模型、7B预训练模型和7B指令微调模型，旨在提...

AIプロジェクト2025/12/18

Parler-TTS - Hugging Face开源的文本转语音模型

Parler-TTS是由Hugging Face推出的一款开源的文本到语音（TTS）模型，能够通过输入提示描述模仿特定说话者的风格（性别、音调、说话风格等），生成高质量、听...

AIプロジェクト2025/12/18

VASA-1 - 微软推出的静态照片对口型视频生成框架

VASA-1是由微软亚洲研究院提出的一个将静态照片转换为对口型动态视频的生成框架，能够根据单张静态人脸照片和一段语音音频，实时生成逼真的3D说话面部动画。

AIプロジェクト2025/12/18

Llama 3 - Meta开源推出的新一代大语言模型

Llama 3是Meta公司最新开源推出的新一代大型语言模型（LLM），包含8B和70B两种参数规模的模型，标志着开源人工智能领域的又一重大进步。作为Llama系列的第三...

AIプロジェクト2025/12/18

FunClip - 阿里达摩院开源的AI自动视频剪辑工具

FunClip是阿里达摩院推出的一款完全开源、本地部署的自动化视频剪辑工具，通过调用阿里巴巴通义实验室的FunASR Paraformer系列模型实现视频的自动化语音识别...

AIプロジェクト2025/12/18

Phi-3 - 微软最新推出的新一代小模型系列

Phi-3是微软研究院推出的新一代系列先进的小语言模型，包括phi-3-mini、phi-3-small和phi-3-medium三个不同规模的版本。这些模型在保持较小的参数规模的同时...

AIプロジェクト2025/12/18

Hyper-SD - 字节跳动推出的高效的图像合成框架

Hyper-SD是由字节跳动的研究人员推出的一种高效的图像生成框架，通过轨迹分割一致性蒸馏（TSCD）技术，结合人类反馈学习和分数蒸馏，显著提升了扩散模型在少...

AIプロジェクト2025/12/18

Arctic - Snowflake开源的企业级AI大模型

Arctic是由云计算巨头Snowflake的AI研究团队开发的一款高效、开源的企业级大型语言模型，该大模型是一个拥有480亿（480B）的参数规模，由128个细粒度的专家构...

AIプロジェクト2025/12/18

OpenELM - 苹果开源的高效语言模型系列

OpenELM是Apple苹果公司最新推出的系列高效开源的语言模型，包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本。该大模型利用层...

AIプロジェクト2025/12/18

ID-Animator - 腾讯等推出的个性化人物视频生成框架

ID-Animator是由来自腾讯光子工作室、中科大和中科院合肥物质科学研究院的研究人员推出的一种零样本（zero-shot）人类视频生成技术，能够根据单张参考面部图...

AIプロジェクト2025/12/18

IDM-VTON - 逼真的开源AI虚拟试穿框架

IDM-VTON是由韩国科学技术院和OMNIOUS.AI的研究人员提出的一种先进的AI虚拟试穿技术，通过改进扩散模型来生成逼真的人物穿戴图像，实现更真实的虚拟试穿效果。

AIプロジェクト2025/12/18

VideoGigaGAN - Adobe推出的AI视频分辨率提升模型

VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率（VSR）模型，最高可将视频分辨率提升8倍，将模糊的视频放大为具有丰富细节...

AIプロジェクト2025/12/18

Vidu - 生数科技发布的视频大模型，可生成16秒1080P的视频

Vidu是中国首个长时长、高一致性、高动态性的视频大模型，由生数科技与清华大学联合开发。该AI视频生成模型采用原创的U-ViT架构，结合Diffusion与Transformer...

AIプロジェクト2025/12/18

PuLID - 字节跳动开源的个性化文本到图像生成框架

PuLID是字节跳动的团队开源的一种个性化文本到图像生成技术，通过对比对齐和快速采样方法，实现了无需调整模型的高效ID定制，轻松实现图像换脸效果。

AIプロジェクト2025/12/18

IC-Light - ControlNet作者开源的AI图片打光工具

IC-Light是一款由ControlNet作者张吕敏开发的AI图像打光处理工具，可以对图片进行光源操纵和光影重构，实现与不同背景的完美融合。用户只需上传图片，选择光...

AIプロジェクト2025/12/18

AniTalker - 上海交大开源的对口型说话视频生成框架

AniTalker是由来自上海交大X-LANCE实验室和思必驰AISpeech的研究人员推出的AI对口型说话视频生成框架，能够将单张静态人像和输入的音频转换成栩栩如生的动画...

AIプロジェクト2025/12/18

混元DiT - 腾讯混元开源的文生图扩散模型Hunyuan-DiT

混元DiT（Hunyuan-DiT）是由腾讯混元团队开发的一款高性能的文本到图像的扩散Transformer模型，具备细粒度的中英文理解能力，能够根据文本提示生成多分辨率的...

AIプロジェクト2025/12/18

Veo - 谷歌推出的可生成1分钟1080P的视频模型

Veo是由Google DeepMind开发的一款视频生成模型，用户可以通过文本、图像或视频提示来指导其生成所需的视频内容，能够生成时长超过一分钟1080P分辨率的高质量...

AIプロジェクト2025/12/18

CogVLM2 - 智谱AI推出的新一代多模态大模型

CogVLM2是由智谱AI推出的新一代多模态大模型，在视觉和语言理解方面实现了显著的性能提升，支持高达8K的文本长度和1344*1344分辨率的图像输入，具备强大的文...

AIプロジェクト2025/12/18

Universal-1 - AssemblyAI推出的多语种语音识别和转换模型

Universal-1是AI语音初创公司AssemblyAI推出的一款多语言语音识别和转录模型，经过超过1250万小时的多语种音频数据训练，支持英语、西班牙语、法语和德语等。

AIプロジェクト2025/12/18

Codestral - Mistral AI推出的代码生成模型，支持80+编程语言

Codestral是法国人工智能初创公司Mistral AI推出的一款代码生成AI模型，专为提高软件开发效率而设计，支持超过80种编程语言，包括但不限于Python、Java、C、C...

AIプロジェクト2025/12/18

ChatTTS - 开源的用于对话的生成式语音合成模型

ChatTTS是一款专为对话场景设计的支持中英文的文本转语音（TTS）模型，基于约10万小时的中英文数据进行训练，能够生成高质量、自然流畅的对话语音。

←1...29 30 31 32 33 34 35...137 →

AIニュース

AIプロジェクト2025/12/18

InstantStyle - 开源的个性化文本到图像生成框架，保留风格一致性

AIプロジェクト2025/12/18

DesignEdit - 微软等开源的AI图像分层处理编辑框架

AIプロジェクト2025/12/18

CodeGemma - 谷歌开源推出的代码生成大模型

AIプロジェクト2025/12/18

Parler-TTS - Hugging Face开源的文本转语音模型

AIプロジェクト2025/12/18

VASA-1 - 微软推出的静态照片对口型视频生成框架

AIプロジェクト2025/12/18

Llama 3 - Meta开源推出的新一代大语言模型

AIプロジェクト2025/12/18

FunClip - 阿里达摩院开源的AI自动视频剪辑工具

AIプロジェクト2025/12/18

Phi-3 - 微软最新推出的新一代小模型系列

AIプロジェクト2025/12/18

Hyper-SD - 字节跳动推出的高效的图像合成框架

AIプロジェクト2025/12/18

Arctic - Snowflake开源的企业级AI大模型

AIプロジェクト2025/12/18

OpenELM - 苹果开源的高效语言模型系列

OpenELM是Apple苹果公司最新推出的系列高效开源的语言模型，包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本。该大模型利用层...

AIプロジェクト2025/12/18

ID-Animator - 腾讯等推出的个性化人物视频生成框架

AIプロジェクト2025/12/18

IDM-VTON - 逼真的开源AI虚拟试穿框架

AIプロジェクト2025/12/18

VideoGigaGAN - Adobe推出的AI视频分辨率提升模型

AIプロジェクト2025/12/18

Vidu - 生数科技发布的视频大模型，可生成16秒1080P的视频

AIプロジェクト2025/12/18

PuLID - 字节跳动开源的个性化文本到图像生成框架

AIプロジェクト2025/12/18

IC-Light - ControlNet作者开源的AI图片打光工具

AIプロジェクト2025/12/18

AniTalker - 上海交大开源的对口型说话视频生成框架

AIプロジェクト2025/12/18

混元DiT - 腾讯混元开源的文生图扩散模型Hunyuan-DiT

AIプロジェクト2025/12/18

Veo - 谷歌推出的可生成1分钟1080P的视频模型

AIプロジェクト2025/12/18

CogVLM2 - 智谱AI推出的新一代多模态大模型

AIプロジェクト2025/12/18

Universal-1 - AssemblyAI推出的多语种语音识别和转换模型

AIプロジェクト2025/12/18

Codestral - Mistral AI推出的代码生成模型，支持80+编程语言

AIプロジェクト2025/12/18

すべてのカテゴリ

AIニュース

InstantStyle - 开源的个性化文本到图像生成框架，保留风格一致性

DesignEdit - 微软等开源的AI图像分层处理编辑框架

CodeGemma - 谷歌开源推出的代码生成大模型

Parler-TTS - Hugging Face开源的文本转语音模型

VASA-1 - 微软推出的静态照片对口型视频生成框架

Llama 3 - Meta开源推出的新一代大语言模型

FunClip - 阿里达摩院开源的AI自动视频剪辑工具

Phi-3 - 微软最新推出的新一代小模型系列

Hyper-SD - 字节跳动推出的高效的图像合成框架

Arctic - Snowflake开源的企业级AI大模型

OpenELM - 苹果开源的高效语言模型系列

ID-Animator - 腾讯等推出的个性化人物视频生成框架

IDM-VTON - 逼真的开源AI虚拟试穿框架

VideoGigaGAN - Adobe推出的AI视频分辨率提升模型

Vidu - 生数科技发布的视频大模型，可生成16秒1080P的视频

PuLID - 字节跳动开源的个性化文本到图像生成框架

IC-Light - ControlNet作者开源的AI图片打光工具

AniTalker - 上海交大开源的对口型说话视频生成框架

混元DiT - 腾讯混元开源的文生图扩散模型Hunyuan-DiT

Veo - 谷歌推出的可生成1分钟1080P的视频模型

CogVLM2 - 智谱AI推出的新一代多模态大模型

Universal-1 - AssemblyAI推出的多语种语音识别和转换模型

Codestral - Mistral AI推出的代码生成模型，支持80+编程语言

ChatTTS - 开源的用于对话的生成式语音合成模型

AIニュース

InstantStyle - 开源的个性化文本到图像生成框架，保留风格一致性

DesignEdit - 微软等开源的AI图像分层处理编辑框架

CodeGemma - 谷歌开源推出的代码生成大模型

Parler-TTS - Hugging Face开源的文本转语音模型

VASA-1 - 微软推出的静态照片对口型视频生成框架

Llama 3 - Meta开源推出的新一代大语言模型

FunClip - 阿里达摩院开源的AI自动视频剪辑工具

Phi-3 - 微软最新推出的新一代小模型系列

Hyper-SD - 字节跳动推出的高效的图像合成框架

Arctic - Snowflake开源的企业级AI大模型

OpenELM - 苹果开源的高效语言模型系列

ID-Animator - 腾讯等推出的个性化人物视频生成框架

IDM-VTON - 逼真的开源AI虚拟试穿框架

VideoGigaGAN - Adobe推出的AI视频分辨率提升模型

Vidu - 生数科技发布的视频大模型，可生成16秒1080P的视频

PuLID - 字节跳动开源的个性化文本到图像生成框架

IC-Light - ControlNet作者开源的AI图片打光工具

AniTalker - 上海交大开源的对口型说话视频生成框架

混元DiT - 腾讯混元开源的文生图扩散模型Hunyuan-DiT

Veo - 谷歌推出的可生成1分钟1080P的视频模型

CogVLM2 - 智谱AI推出的新一代多模态大模型

Universal-1 - AssemblyAI推出的多语种语音识别和转换模型

Codestral - Mistral AI推出的代码生成模型，支持80+编程语言

ChatTTS - 开源的用于对话的生成式语音合成模型