AIニュース

すべてニュースチュートリアル Wiki AIプロジェクト AIアプリ

AIプロジェクト2025/12/18

Boximator - 字节推出的控制视频生成中对象运动的框架

Boximator是有字节跳动的研究团队开发的一种视频合成技术，旨在生成丰富且可控的运动，以增强视频合成的质量和控制性。该技术通过引入两种类型的约束框（硬框...

AIプロジェクト2025/12/18

DiT - 基于Transfomer架构的扩散模型

DiT（Diffusion Transformers）是一种新型的扩散模型，由William Peebles（Sora的研发负责人之一）与纽约大学助理教授谢赛宁提出，结合了去噪扩散概率模型（...

AIプロジェクト2025/12/18

VideoPoet - 谷歌推出的AI视频生成模型

VideoPoet是由谷歌的研究团队开发的一种基于大模型的AI视频生成方案，支持从文本、图像或视频输入中合成高质量的视频内容，并生成匹配的音频。VideoPoet的核...

AIプロジェクト2025/12/18

SDXL-Lightning - 字节跳动推出的文本到图像生成模型

SDXL-Lightning是由字节跳动的研究团队推出的一种基于扩散模型的文本到图像生成技术，旨在解决传统扩散模型在图像生成速度和计算成本上的局限性。该模型基于 ...

AIプロジェクト2025/12/18

Stable Diffusion 3 - Stability AI推出的新一代图像生成模型

Stable Diffusion 3 是由 Stability AI 开发的一款先进的文本到图像生成模型，是 Stable Diffusion 系列模型的最新迭代，旨在通过文本提示生成高质量的图像。...

AIプロジェクト2025/12/18

ConsiStory - 免训练实现主题一致性的文生图方法

ConsiStory是由NVIDIA和特拉维夫大学的研究人员共同开发的一种无需训练的文本生成图像的方法，可以实现让图像在保持风格和主题不变的情况下，遵循不同的文本...

AIプロジェクト2025/12/18

ScreenAgent - 基于视觉语言模型的计算机控制智能体

ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体，该智能体是基于视觉语言模型（VLM）构建的，能够与真实计算机屏幕进行交互。Scr...

AIプロジェクト2025/12/18

YOLOv9 - 新一代高效的实时目标检测系统

YOLOv9是一个由台北中研院和台北科技大学等机构的研究团队推出的新一代先进的目标检测系统，是YOLO（You Only Look Once）算法系列的最新版本。YOLOv9在前代...

AIプロジェクト2025/12/18

VideoPrism - 谷歌研究团队推出的通用视频编码器

VideoPrism是一个由谷歌研究团队开发的通用视频编码器，旨在通过一个单一的冻结模型来处理多种视频理解任务。该模型能够从视频中提取丰富的语义表示，使其能...

AIプロジェクト2025/12/18

GPT-SoVITS - 开源的声音克隆项目，只需少量数据即可合成声音

GPT-SoVITS是一个开源的声音克隆项目，该语音合成工具结合了GPT模型和SoVITS变声器技术，仅需通过少量的样本数据实现高质量的语音克隆和文本到语音转换。该工...

AIプロジェクト2025/12/18

OpenCodeInterpreter - 开源的代码解释器，可生成和执行代码

OpenCodeInterpreter是一个开源的代码解释器系统，旨在通过利用大模型结合代码生成、执行和迭代精炼的能力，可以辅助开发者在软件开发过程中生成、测试和优化...

AIプロジェクト2025/12/18

ChatMusician - 可理解和生成音乐的大模型

ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大学的研究人员推出的，一个开源的用于理解和生成音乐的大型语言模型...

AIプロジェクト2025/12/18

EMO - 阿里推出的AI肖像视频生成框架

EMO（Emote Portrait Alive）是一个由阿里巴巴集团智能计算研究院的研究人员开发的框架，一个音频驱动的AI肖像视频生成系统，能够通过输入单一的参考图像和语...

AIプロジェクト2025/12/18

StarCoder 2 - BigCode推出的第二代开源代码大模型

StarCoder 2是由BigCode项目团队开发的新一代大型代码语言模型，旨在为代码生成、编辑和推理任务提供强大的支持。该系列模型在前一代StarCoder模型的基础上进...

AIプロジェクト2025/12/18

MeloTTS - MyShell AI推出的多语言文本到语音转换工具

MeloTTS 是一个由 MyShell AI 开发的开源的高质量多语言文本转语音（TTS）库，能够将文本转换成自然流畅的语音输出，支持多种语言。MeloTTS 的语音合成速度非...

AIプロジェクト2025/12/18

Snap Video - Snapchat公司推出的AI视频生成模型

Snap Video是由Snap公司的研究团队开发的一个AI视频生成模型，目标是通过文本描述来合成视频，即用户可以输入一段描述性的文本，模型能够根据这段文本生成相...

AIプロジェクト2025/12/18

LayerDiffusion - AI生成具有透明度的图像的框架

LayerDiffusion是由来自斯坦福大学的研究人员提出的一种利用大规模预训练的潜在扩散模型生成透明图像的技术，可以帮助用户生成单个透明图像或多个透明图层。...

AIプロジェクト2025/12/18

TextDiffuser-2 - 微软等推出的AI图像文本渲染融合框架

Text-Diffuser 2是由来自微软研究院、香港科技大学和中山大学的研究人员最新推出的一个基于扩散模型的文本渲染方法，旨在解决图像扩散模型生成文字时在灵活性...

AIプロジェクト2025/12/18

UniEdit - 免训练调优的统一视频编辑框架

UniEdit是由浙江大学、微软研究院和北京大学的研究人员推出的一个创新的视频编辑框架，允许用户在不需要进行模型微调的情况下，对视频的运动和外观进行编辑，...

AIプロジェクト2025/12/18

DUSt3R - 从任意图像集合中重建3D场景的框架

DUSt3R是由来自芬兰阿尔托大学和Naver欧洲实验室的研究人员推出的一个3D重建框架，旨在简化从任意图像集合中重建三维场景的过程，而无需事先了解相机校准或视...

AIプロジェクト2025/12/18

ScreenAI - 谷歌推出的可读屏AI视觉模型，可理解UI和信息图表

ScreenAI是一个由谷歌的研究团队推出的可读屏AI视觉语言模型，专门设计用于理解和处理用户界面（UI）和信息图表。该模型基于PaLI架构结合了视觉和语言处理的...

AIプロジェクト2025/12/18

ResAdapter - 字节推出的扩散模型分辨率适配器

ResAdapter是由字节跳动的研究人员推出的一种为扩散模型（如Stable Diffusion）设计的分辨率适配器，允许这些图像生成模型生成具有任意分辨率和宽高比的图像...

AIプロジェクト2025/12/18

AtomoVideo - 阿里推出的高保真图像到视频生成框架

AtomoVideo是由阿里巴巴的研究团队提出的一个高保真图像到视频（I2V）生成框架，旨在从输入的静态图像生成高质量的视频内容。该框架能够保持生成视频与给定参...

AIプロジェクト2025/12/18

Moondream - 开源的轻量级AI视觉语言模型，可在本地快速运行

Moondream是一个免费开源的小型的人工智能视觉语言模型，虽然参数量小但可以提供高性能的视觉处理能力，可在本地计算机甚至移动设备或 Raspberry Pi 上运行，...

←1...27 28 29 30 31 32 33...137 →

AIニュース

AIプロジェクト2025/12/18

Boximator - 字节推出的控制视频生成中对象运动的框架

AIプロジェクト2025/12/18

DiT - 基于Transfomer架构的扩散模型

DiT（Diffusion Transformers）是一种新型的扩散模型，由William Peebles（Sora的研发负责人之一）与纽约大学助理教授谢赛宁提出，结合了去噪扩散概率模型（...

AIプロジェクト2025/12/18

VideoPoet - 谷歌推出的AI视频生成模型

AIプロジェクト2025/12/18

SDXL-Lightning - 字节跳动推出的文本到图像生成模型

AIプロジェクト2025/12/18

Stable Diffusion 3 - Stability AI推出的新一代图像生成模型

Stable Diffusion 3 是由 Stability AI 开发的一款先进的文本到图像生成模型，是 Stable Diffusion 系列模型的最新迭代，旨在通过文本提示生成高质量的图像。...

AIプロジェクト2025/12/18

ConsiStory - 免训练实现主题一致性的文生图方法

AIプロジェクト2025/12/18

ScreenAgent - 基于视觉语言模型的计算机控制智能体

AIプロジェクト2025/12/18

YOLOv9 - 新一代高效的实时目标检测系统

AIプロジェクト2025/12/18

VideoPrism - 谷歌研究团队推出的通用视频编码器

AIプロジェクト2025/12/18

GPT-SoVITS - 开源的声音克隆项目，只需少量数据即可合成声音

AIプロジェクト2025/12/18

OpenCodeInterpreter - 开源的代码解释器，可生成和执行代码

AIプロジェクト2025/12/18

ChatMusician - 可理解和生成音乐的大模型

ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大学的研究人员推出的，一个开源的用于理解和生成音乐的大型语言模型...

AIプロジェクト2025/12/18

EMO - 阿里推出的AI肖像视频生成框架

AIプロジェクト2025/12/18

StarCoder 2 - BigCode推出的第二代开源代码大模型

AIプロジェクト2025/12/18

MeloTTS - MyShell AI推出的多语言文本到语音转换工具

AIプロジェクト2025/12/18

Snap Video - Snapchat公司推出的AI视频生成模型

AIプロジェクト2025/12/18

LayerDiffusion - AI生成具有透明度的图像的框架

AIプロジェクト2025/12/18

TextDiffuser-2 - 微软等推出的AI图像文本渲染融合框架

AIプロジェクト2025/12/18

UniEdit - 免训练调优的统一视频编辑框架

AIプロジェクト2025/12/18

DUSt3R - 从任意图像集合中重建3D场景的框架

AIプロジェクト2025/12/18

ScreenAI - 谷歌推出的可读屏AI视觉模型，可理解UI和信息图表

AIプロジェクト2025/12/18

ResAdapter - 字节推出的扩散模型分辨率适配器

AIプロジェクト2025/12/18

AtomoVideo - 阿里推出的高保真图像到视频生成框架

AIプロジェクト2025/12/18

すべてのカテゴリ

AIニュース

Boximator - 字节推出的控制视频生成中对象运动的框架

DiT - 基于Transfomer架构的扩散模型

VideoPoet - 谷歌推出的AI视频生成模型

SDXL-Lightning - 字节跳动推出的文本到图像生成模型

Stable Diffusion 3 - Stability AI推出的新一代图像生成模型

ConsiStory - 免训练实现主题一致性的文生图方法

ScreenAgent - 基于视觉语言模型的计算机控制智能体

YOLOv9 - 新一代高效的实时目标检测系统

VideoPrism - 谷歌研究团队推出的通用视频编码器

GPT-SoVITS - 开源的声音克隆项目，只需少量数据即可合成声音

OpenCodeInterpreter - 开源的代码解释器，可生成和执行代码

ChatMusician - 可理解和生成音乐的大模型

EMO - 阿里推出的AI肖像视频生成框架

StarCoder 2 - BigCode推出的第二代开源代码大模型

MeloTTS - MyShell AI推出的多语言文本到语音转换工具

Snap Video - Snapchat公司推出的AI视频生成模型

LayerDiffusion - AI生成具有透明度的图像的框架

TextDiffuser-2 - 微软等推出的AI图像文本渲染融合框架

UniEdit - 免训练调优的统一视频编辑框架

DUSt3R - 从任意图像集合中重建3D场景的框架

ScreenAI - 谷歌推出的可读屏AI视觉模型，可理解UI和信息图表

ResAdapter - 字节推出的扩散模型分辨率适配器

AtomoVideo - 阿里推出的高保真图像到视频生成框架

Moondream - 开源的轻量级AI视觉语言模型，可在本地快速运行

AIニュース

Boximator - 字节推出的控制视频生成中对象运动的框架

DiT - 基于Transfomer架构的扩散模型

VideoPoet - 谷歌推出的AI视频生成模型

SDXL-Lightning - 字节跳动推出的文本到图像生成模型

Stable Diffusion 3 - Stability AI推出的新一代图像生成模型

ConsiStory - 免训练实现主题一致性的文生图方法

ScreenAgent - 基于视觉语言模型的计算机控制智能体

YOLOv9 - 新一代高效的实时目标检测系统

VideoPrism - 谷歌研究团队推出的通用视频编码器

GPT-SoVITS - 开源的声音克隆项目，只需少量数据即可合成声音

OpenCodeInterpreter - 开源的代码解释器，可生成和执行代码

ChatMusician - 可理解和生成音乐的大模型

EMO - 阿里推出的AI肖像视频生成框架

StarCoder 2 - BigCode推出的第二代开源代码大模型

MeloTTS - MyShell AI推出的多语言文本到语音转换工具

Snap Video - Snapchat公司推出的AI视频生成模型

LayerDiffusion - AI生成具有透明度的图像的框架

TextDiffuser-2 - 微软等推出的AI图像文本渲染融合框架

UniEdit - 免训练调优的统一视频编辑框架

DUSt3R - 从任意图像集合中重建3D场景的框架

ScreenAI - 谷歌推出的可读屏AI视觉模型，可理解UI和信息图表

ResAdapter - 字节推出的扩散模型分辨率适配器

AtomoVideo - 阿里推出的高保真图像到视频生成框架

Moondream - 开源的轻量级AI视觉语言模型，可在本地快速运行