AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

VideoPrism - 谷歌研究团队推出的通用视频编码器

VideoPrism是一个由谷歌研究团队开发的通用视频编码器，旨在通过一个单一的冻结模型来处理多种视频理解任务。该模型能够从视频中提取丰富的语义表示，使其能...

AI Projects12/18/2025

GPT-SoVITS - 开源的声音克隆项目，只需少量数据即可合成声音

GPT-SoVITS是一个开源的声音克隆项目，该语音合成工具结合了GPT模型和SoVITS变声器技术，仅需通过少量的样本数据实现高质量的语音克隆和文本到语音转换。该工...

AI Projects12/18/2025

OpenCodeInterpreter - 开源的代码解释器，可生成和执行代码

OpenCodeInterpreter是一个开源的代码解释器系统，旨在通过利用大模型结合代码生成、执行和迭代精炼的能力，可以辅助开发者在软件开发过程中生成、测试和优化...

AI Projects12/18/2025

ChatMusician - 可理解和生成音乐的大模型

ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大学的研究人员推出的，一个开源的用于理解和生成音乐的大型语言模型...

AI Projects12/18/2025

EMO - 阿里推出的AI肖像视频生成框架

EMO（Emote Portrait Alive）是一个由阿里巴巴集团智能计算研究院的研究人员开发的框架，一个音频驱动的AI肖像视频生成系统，能够通过输入单一的参考图像和语...

AI Projects12/18/2025

StarCoder 2 - BigCode推出的第二代开源代码大模型

StarCoder 2是由BigCode项目团队开发的新一代大型代码语言模型，旨在为代码生成、编辑和推理任务提供强大的支持。该系列模型在前一代StarCoder模型的基础上进...

AI Projects12/18/2025

MeloTTS - MyShell AI推出的多语言文本到语音转换工具

MeloTTS 是一个由 MyShell AI 开发的开源的高质量多语言文本转语音（TTS）库，能够将文本转换成自然流畅的语音输出，支持多种语言。MeloTTS 的语音合成速度非...

AI Projects12/18/2025

Snap Video - Snapchat公司推出的AI视频生成模型

Snap Video是由Snap公司的研究团队开发的一个AI视频生成模型，目标是通过文本描述来合成视频，即用户可以输入一段描述性的文本，模型能够根据这段文本生成相...

AI Projects12/18/2025

LayerDiffusion - AI生成具有透明度的图像的框架

LayerDiffusion是由来自斯坦福大学的研究人员提出的一种利用大规模预训练的潜在扩散模型生成透明图像的技术，可以帮助用户生成单个透明图像或多个透明图层。...

AI Projects12/18/2025

TextDiffuser-2 - 微软等推出的AI图像文本渲染融合框架

Text-Diffuser 2是由来自微软研究院、香港科技大学和中山大学的研究人员最新推出的一个基于扩散模型的文本渲染方法，旨在解决图像扩散模型生成文字时在灵活性...

AI Projects12/18/2025

UniEdit - 免训练调优的统一视频编辑框架

UniEdit是由浙江大学、微软研究院和北京大学的研究人员推出的一个创新的视频编辑框架，允许用户在不需要进行模型微调的情况下，对视频的运动和外观进行编辑，...

AI Projects12/18/2025

DUSt3R - 从任意图像集合中重建3D场景的框架

DUSt3R是由来自芬兰阿尔托大学和Naver欧洲实验室的研究人员推出的一个3D重建框架，旨在简化从任意图像集合中重建三维场景的过程，而无需事先了解相机校准或视...

AI Projects12/18/2025

ScreenAI - 谷歌推出的可读屏AI视觉模型，可理解UI和信息图表

ScreenAI是一个由谷歌的研究团队推出的可读屏AI视觉语言模型，专门设计用于理解和处理用户界面（UI）和信息图表。该模型基于PaLI架构结合了视觉和语言处理的...

AI Projects12/18/2025

ResAdapter - 字节推出的扩散模型分辨率适配器

ResAdapter是由字节跳动的研究人员推出的一种为扩散模型（如Stable Diffusion）设计的分辨率适配器，允许这些图像生成模型生成具有任意分辨率和宽高比的图像...

AI Projects12/18/2025

AtomoVideo - 阿里推出的高保真图像到视频生成框架

AtomoVideo是由阿里巴巴的研究团队提出的一个高保真图像到视频（I2V）生成框架，旨在从输入的静态图像生成高质量的视频内容。该框架能够保持生成视频与给定参...

AI Projects12/18/2025

Moondream - 开源的轻量级AI视觉语言模型，可在本地快速运行

Moondream是一个免费开源的小型的人工智能视觉语言模型，虽然参数量小但可以提供高性能的视觉处理能力，可在本地计算机甚至移动设备或 Raspberry Pi 上运行，...

AI Projects12/18/2025

PixArt-Σ - 华为推出的可生成4K高清图像的文生图模型

PixArt-Σ是由来自华为诺亚方舟实验室、大连理工大学和香港大学的研究人员推出的一个基于扩散Transformer架构（DiT）的文生图模型，专门设计用于从文本提示直...

AI Projects12/18/2025

ELLA - 腾讯推出的扩散模型适配器，可增强语义对齐

ELLA（Efficient Large Language Model Adapter，高效的大模型适配器）是由腾讯的研究人员推出的一种新型方法，旨在提升文本到图像生成模型在处理复杂文本提...

AI Projects12/18/2025

Transformer Debugger - OpenAI开源的理解和分析大模型内部的工具

Transformer Debugger (TDB) 是由 OpenAI 的对齐团队（Superalignment）开发的一款工具，旨在帮助研究人员和开发者更深入地理解和分析 Transformer 模型的内...

AI Projects12/18/2025

Pix2Gif - 微软推出的静态图像转动态GIF的扩散模型

Pix2Gif是由微软研究院的研究人员提出的一个基于运动引导的扩散模型，专门用于将静态图像转换成动态的GIF动画/视频。该模型通过运动引导的扩散过程来实现图像...

AI Projects12/18/2025

Follow-Your-Click - 腾讯等开源的图像到视频模型，可生成局部动画

Follow-Your-Click是一个由来自腾讯公司（混元团队）联合清华大学和香港科技大学的研究人员共同研发的图像到视频（Image-to-Video，简称I2V）生成模型，允许...

AI Projects12/18/2025

AutoDev - 微软推出的AI编程和程序开发智能体框架

AutoDev是由微软的研究人员推出的一个AI编程和程序开发智能体框架，专门设计用于自主规划和执行复杂的软件工程任务，如代码编写、调试、测试和版本控制等。Au...

AI Projects12/18/2025

Grok-1 - 马斯克旗下xAI开源的大模型，参数量3140亿

Grok-1 是由马斯克旗下的人工智能初创公司 xAI 开发的一款大型语言模型，是一个混合专家（MoE）模型，拥有 3140 亿参数，使其成为目前参数量最大的开源大语言...

AI Projects12/18/2025

Open-Sora - 开源的类Sora架构的视频生成模型和复现方案

Open-Sora是由Colossal-AI团队开源的视频生成模型，旨在复现OpenAI的Sora视频生成产品。Open-Sora同样基于DiT架构，通过三个阶段训练：大规模图像预训练、大...

←1...27 28 29 30 31 32 33...137 →

AI News

AI Projects12/18/2025

VideoPrism - 谷歌研究团队推出的通用视频编码器

AI Projects12/18/2025

GPT-SoVITS - 开源的声音克隆项目，只需少量数据即可合成声音

AI Projects12/18/2025

OpenCodeInterpreter - 开源的代码解释器，可生成和执行代码

AI Projects12/18/2025

ChatMusician - 可理解和生成音乐的大模型

ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大学的研究人员推出的，一个开源的用于理解和生成音乐的大型语言模型...

AI Projects12/18/2025

EMO - 阿里推出的AI肖像视频生成框架

AI Projects12/18/2025

StarCoder 2 - BigCode推出的第二代开源代码大模型

AI Projects12/18/2025

MeloTTS - MyShell AI推出的多语言文本到语音转换工具

AI Projects12/18/2025

Snap Video - Snapchat公司推出的AI视频生成模型

AI Projects12/18/2025

LayerDiffusion - AI生成具有透明度的图像的框架

AI Projects12/18/2025

TextDiffuser-2 - 微软等推出的AI图像文本渲染融合框架

AI Projects12/18/2025

UniEdit - 免训练调优的统一视频编辑框架

AI Projects12/18/2025

DUSt3R - 从任意图像集合中重建3D场景的框架

AI Projects12/18/2025

ScreenAI - 谷歌推出的可读屏AI视觉模型，可理解UI和信息图表

AI Projects12/18/2025

ResAdapter - 字节推出的扩散模型分辨率适配器

AI Projects12/18/2025

AtomoVideo - 阿里推出的高保真图像到视频生成框架

AI Projects12/18/2025

Moondream - 开源的轻量级AI视觉语言模型，可在本地快速运行

AI Projects12/18/2025

PixArt-Σ - 华为推出的可生成4K高清图像的文生图模型

AI Projects12/18/2025

ELLA - 腾讯推出的扩散模型适配器，可增强语义对齐

AI Projects12/18/2025

Transformer Debugger - OpenAI开源的理解和分析大模型内部的工具

Transformer Debugger (TDB) 是由 OpenAI 的对齐团队（Superalignment）开发的一款工具，旨在帮助研究人员和开发者更深入地理解和分析 Transformer 模型的内...

AI Projects12/18/2025

Pix2Gif - 微软推出的静态图像转动态GIF的扩散模型

AI Projects12/18/2025

Follow-Your-Click - 腾讯等开源的图像到视频模型，可生成局部动画

AI Projects12/18/2025

AutoDev - 微软推出的AI编程和程序开发智能体框架

AI Projects12/18/2025

Grok-1 - 马斯克旗下xAI开源的大模型，参数量3140亿

AI Projects12/18/2025

All Categories

AI News

VideoPrism - 谷歌研究团队推出的通用视频编码器

GPT-SoVITS - 开源的声音克隆项目，只需少量数据即可合成声音

OpenCodeInterpreter - 开源的代码解释器，可生成和执行代码

ChatMusician - 可理解和生成音乐的大模型

EMO - 阿里推出的AI肖像视频生成框架

StarCoder 2 - BigCode推出的第二代开源代码大模型

MeloTTS - MyShell AI推出的多语言文本到语音转换工具

Snap Video - Snapchat公司推出的AI视频生成模型

LayerDiffusion - AI生成具有透明度的图像的框架

TextDiffuser-2 - 微软等推出的AI图像文本渲染融合框架

UniEdit - 免训练调优的统一视频编辑框架

DUSt3R - 从任意图像集合中重建3D场景的框架

ScreenAI - 谷歌推出的可读屏AI视觉模型，可理解UI和信息图表

ResAdapter - 字节推出的扩散模型分辨率适配器

AtomoVideo - 阿里推出的高保真图像到视频生成框架

Moondream - 开源的轻量级AI视觉语言模型，可在本地快速运行

PixArt-Σ - 华为推出的可生成4K高清图像的文生图模型

ELLA - 腾讯推出的扩散模型适配器，可增强语义对齐

Transformer Debugger - OpenAI开源的理解和分析大模型内部的工具

Pix2Gif - 微软推出的静态图像转动态GIF的扩散模型

Follow-Your-Click - 腾讯等开源的图像到视频模型，可生成局部动画

AutoDev - 微软推出的AI编程和程序开发智能体框架

Grok-1 - 马斯克旗下xAI开源的大模型，参数量3140亿

Open-Sora - 开源的类Sora架构的视频生成模型和复现方案

AI News

VideoPrism - 谷歌研究团队推出的通用视频编码器

GPT-SoVITS - 开源的声音克隆项目，只需少量数据即可合成声音

OpenCodeInterpreter - 开源的代码解释器，可生成和执行代码

ChatMusician - 可理解和生成音乐的大模型

EMO - 阿里推出的AI肖像视频生成框架

StarCoder 2 - BigCode推出的第二代开源代码大模型

MeloTTS - MyShell AI推出的多语言文本到语音转换工具

Snap Video - Snapchat公司推出的AI视频生成模型

LayerDiffusion - AI生成具有透明度的图像的框架

TextDiffuser-2 - 微软等推出的AI图像文本渲染融合框架

UniEdit - 免训练调优的统一视频编辑框架

DUSt3R - 从任意图像集合中重建3D场景的框架

ScreenAI - 谷歌推出的可读屏AI视觉模型，可理解UI和信息图表

ResAdapter - 字节推出的扩散模型分辨率适配器

AtomoVideo - 阿里推出的高保真图像到视频生成框架

Moondream - 开源的轻量级AI视觉语言模型，可在本地快速运行

PixArt-Σ - 华为推出的可生成4K高清图像的文生图模型

ELLA - 腾讯推出的扩散模型适配器，可增强语义对齐

Transformer Debugger - OpenAI开源的理解和分析大模型内部的工具

Pix2Gif - 微软推出的静态图像转动态GIF的扩散模型

Follow-Your-Click - 腾讯等开源的图像到视频模型，可生成局部动画

AutoDev - 微软推出的AI编程和程序开发智能体框架

Grok-1 - 马斯克旗下xAI开源的大模型，参数量3140亿

Open-Sora - 开源的类Sora架构的视频生成模型和复现方案