AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

美图奇想大模型 - 美图公司推出的AI视觉大模型

美图奇想大模型（MiracleVision）是美图公司推出的一款AI视觉大模型，专注于美学创作，包括东方美学、人像和商业设计等。模型完成了视频生成能力的全面升级，...

AI Projects12/18/2025

SafeEar - 浙大和清华联合开源的AI音频伪造检测框架

SafeEar是由浙江大学和清华大学联合开发的AI音频伪造检测框架，保护用户隐私的同时检测音频伪造。采用基于神经音频编解码器的解耦模型，分离语音的声学信息和...

AI Projects12/18/2025

PDF2Audio - 将PDF文档转换成音频博客的开源工具

PDF2Audio 是一个开源工具，能将 PDF 文档转换成音频内容，适合制作播客、讲座或摘要。它基于 OpenAI 的 GPT 模型生成播客脚本，通过文本到语音技术转化为音频。

AI Projects12/18/2025

GraphReasoning - 将科学论文转换成知识图谱的AI应用框架

GraphReasoning是一种基于人工智能技术将大量科学论文转换成知识图谱的方法。通过结构化分析，计算节点度、识别社区及其连通性，评估关键节点的中心性，来揭...

AI Projects12/18/2025

Comic Translate - 开源的漫画翻译工具，自动翻译主流漫画阅读语言

Comic Translate 是一个开源的漫画翻译工具，由开发者 ogkalu2 推出。帮助用户自动翻译全球各地的漫画，支持英语、韩语、日语、法语、简体中文、繁体中文、俄...

AI Projects12/18/2025

PearAI - 开源的AI代码编辑器，基于VSCode开发直接与代码库对话

PearAI 是一个开源的 AI 驱动的代码编辑器，基于 Visual Studio Code (VSCode) 开发。PearAI 集成AI技术，减少编程工作量提高开发效率。PearAI 支持开发者直...

AI Projects12/18/2025

EzAudio - 腾讯联合约翰霍普金斯大学推出的文本到音频生成模型

EzAudio是由约翰霍普金斯大学和腾讯AI实验室共同推出的一款文本到音频（Text-to-Audio, T2A）生成模型。基于一种高效的扩散变换器技术，用在从文本提示生成高...

AI Projects12/18/2025

FLUX-Controlnet-Inpainting - 阿里妈妈推出的开源AI图像修复工具

FLUX-Controlnet-Inpainting 是阿里妈妈（Alibaba's Alimama）推出的一款图像修复工具，融合 ControlNet 和 FLUX.1-dev 技术。工具根据用户指定的掩码区域进...

AI Projects12/18/2025

Rope - 基于深度学习模型开源的AI换脸技术

Rope是一款开源的AI换脸工具，基于insightface的inswapper_128模型构建，提供一个用户友好的图形界面。用户通过上传图片或视频，在几秒钟内完成换脸操作，效...

AI Projects12/18/2025

Westlake-Omni - 西湖心辰开源的中文情感端到端语音交互模型

Westlake-Omni 是西湖心辰推出的全球首个开源中文情感端到端语音交互大模型。模型采用离散表示法，统一文本和语音模态的处理，特别强调实时性，快速响应用户...

AI Projects12/18/2025

AutoGen Studio - 微软开源的零代码构建多智能体系统的AI工具

AutoGen Studio 是微软研究院推出的一款开源界面工具，旨在简化多智能体系统的构建、调试和评估过程。AutoGen Studio提供一个基于 Web 的交互式界面和 Python...

AI Projects12/18/2025

IDIFY - 开源的在线AI证件照生成工具，本地浏览器自动处理图片

IDIFY是一款免费开源的在线证件照生成工具，通过AI技术实现自动抠图，帮助用户快速生成符合标准的证件照。用户只需在浏览器中上传照片，选择尺寸和背景色，可...

AI Projects12/18/2025

Emu3 - 北京智源推出的统一输入与生成多模态模型

Emu3是由北京智源人工智能研究院推出的一款原生多模态世界模型，采用智源自研的多模态自回归技术路径，在图像、视频、文字上联合训练，使模型具备原生多模态...

AI Projects12/18/2025

CCI 3.0 - 智源研究院发布的大规模的中文互联网语料库

CCI 3.0是智源研究院发布的一个大规模的中文互联网语料库，包含了1000GB的数据集和498GB的高质量子集CCI 3.0-HQ。该版本在数据规模上相较于CCI 2.0扩大了近一...

AI Projects12/18/2025

MemFree - 开源的混合AI搜索引擎，支持多模态搜索和提问

MemFree是一款开源的混合AI搜索引擎，通过整合多种AI模型和搜索引擎，提供高效、多样化的搜索体验。可以用文本、图像、文件和网页等多种方式进行搜索和提问，...

AI Projects12/18/2025

GarDiff - AI虚拟试穿技术，生成高保真试穿图像保留服装细节

GarDiff是一种创新的虚拟试穿技术，通过使用CLIP和VAE编码来提取服装的外观先验，结合服装聚焦适配器和高频细节增强算法，生成高保真且细节丰富的试穿图像。...

AI Projects12/18/2025

NeMo - 英伟达推出的用于构建、定制和部署生成式AI模型

NeMo 是由 NVIDIA 提供的端到端云原生框架，用于构建、定制和部署生成式 AI 模型。支持大型语言模型（LLMs）、多模态模型、语音识别和文本转语音（TTS）等应...

AI Projects12/18/2025

Oryx - 腾讯联合清华和南洋理工大学推出的多模态大语言模型

Oryx是由清华大学、腾讯和南洋理工大学联合推出的多模态大型语言模型（MLLM），基于两项核心创新来处理视觉数据，预训练的OryxViT模型和动态压缩模块。OryxVi...

AI Projects12/18/2025

I2VEdit - AI视频编辑技术，基于扩散模型实现首帧编辑引导

I2VEdit是一个先进的视频编辑框架，通过图像到视频的扩散模型实现首帧引导的视频编辑。用户只需编辑视频的第一帧，I2VEdit能自动将编辑效果应用到整个视频。

AI Projects12/18/2025

HouseCrafter - 东北大学和 Stability AI推出2D转换3D室内场景的技术

HouseCrafter 是由东北大学和 Stability AI 推出的先进技术，将二维平面图自动转换成三维室内场景。基于一个网络规模图像训练的2D扩散模型，生成一致的多视图...

AI Projects12/18/2025

AMD-135M - AMD推出的首款小型语言模型

AMD-135M是AMD推出的首款小型语言模型（SLM），为特定用例提供性能与资源消耗之间的平衡。基于LLaMA2模型架构，在AMD Instinct MI250加速器上训练，基于670亿...

AI Projects12/18/2025

JoyHallo - 京东推出的音频驱动视频生成AI数字人模型

JoyHallo 是京东开源的AI数字人模型，专为普通话设计，能根据音频生成逼真的说话视频。特别适合处理普通话的复杂口型和语调，具有跨语言生成视频的能力。

AI Projects12/18/2025

Seed-VC - 零样本实现声音克隆和转换的技术

Seed-VC 是一种零样本声音转换技术，基于上下文学习实现高质量的音频输出和音色相似度。用户无需进行特定训练，只需提供1到30秒的参考语音样本，实现声音的克...

AI Projects12/18/2025

Phidias - 检索增强的3D内容生成模型，支持多模态输入

Phidias是一个先进的3D内容生成模型，将检索增强生成（RAG）的概念引入到3D建模领域。模型能基于用户提供的或从大型数据库中检索到的3D参考模型，辅助生成新...

←1...41 42 43 44 45 46 47...137 →

AI News

AI Projects12/18/2025

美图奇想大模型 - 美图公司推出的AI视觉大模型

AI Projects12/18/2025

SafeEar - 浙大和清华联合开源的AI音频伪造检测框架

AI Projects12/18/2025

PDF2Audio - 将PDF文档转换成音频博客的开源工具

AI Projects12/18/2025

GraphReasoning - 将科学论文转换成知识图谱的AI应用框架

AI Projects12/18/2025

Comic Translate - 开源的漫画翻译工具，自动翻译主流漫画阅读语言

AI Projects12/18/2025

PearAI - 开源的AI代码编辑器，基于VSCode开发直接与代码库对话

PearAI 是一个开源的 AI 驱动的代码编辑器，基于 Visual Studio Code (VSCode) 开发。PearAI 集成AI技术，减少编程工作量提高开发效率。PearAI 支持开发者直...

AI Projects12/18/2025

EzAudio - 腾讯联合约翰霍普金斯大学推出的文本到音频生成模型

AI Projects12/18/2025

FLUX-Controlnet-Inpainting - 阿里妈妈推出的开源AI图像修复工具

FLUX-Controlnet-Inpainting 是阿里妈妈（Alibaba's Alimama）推出的一款图像修复工具，融合 ControlNet 和 FLUX.1-dev 技术。工具根据用户指定的掩码区域进...

AI Projects12/18/2025

Rope - 基于深度学习模型开源的AI换脸技术

AI Projects12/18/2025

Westlake-Omni - 西湖心辰开源的中文情感端到端语音交互模型

AI Projects12/18/2025

AutoGen Studio - 微软开源的零代码构建多智能体系统的AI工具

AI Projects12/18/2025

IDIFY - 开源的在线AI证件照生成工具，本地浏览器自动处理图片

AI Projects12/18/2025

Emu3 - 北京智源推出的统一输入与生成多模态模型

AI Projects12/18/2025

CCI 3.0 - 智源研究院发布的大规模的中文互联网语料库

AI Projects12/18/2025

MemFree - 开源的混合AI搜索引擎，支持多模态搜索和提问

AI Projects12/18/2025

GarDiff - AI虚拟试穿技术，生成高保真试穿图像保留服装细节

AI Projects12/18/2025

NeMo - 英伟达推出的用于构建、定制和部署生成式AI模型

AI Projects12/18/2025

Oryx - 腾讯联合清华和南洋理工大学推出的多模态大语言模型

AI Projects12/18/2025

I2VEdit - AI视频编辑技术，基于扩散模型实现首帧编辑引导

AI Projects12/18/2025

HouseCrafter - 东北大学和 Stability AI推出2D转换3D室内场景的技术

AI Projects12/18/2025

AMD-135M - AMD推出的首款小型语言模型

AI Projects12/18/2025

JoyHallo - 京东推出的音频驱动视频生成AI数字人模型

AI Projects12/18/2025

Seed-VC - 零样本实现声音克隆和转换的技术

AI Projects12/18/2025

All Categories

AI News

美图奇想大模型 - 美图公司推出的AI视觉大模型

SafeEar - 浙大和清华联合开源的AI音频伪造检测框架

PDF2Audio - 将PDF文档转换成音频博客的开源工具

GraphReasoning - 将科学论文转换成知识图谱的AI应用框架

Comic Translate - 开源的漫画翻译工具，自动翻译主流漫画阅读语言

PearAI - 开源的AI代码编辑器，基于VSCode开发直接与代码库对话

EzAudio - 腾讯联合约翰霍普金斯大学推出的文本到音频生成模型

FLUX-Controlnet-Inpainting - 阿里妈妈推出的开源AI图像修复工具

Rope - 基于深度学习模型开源的AI换脸技术

Westlake-Omni - 西湖心辰开源的中文情感端到端语音交互模型

AutoGen Studio - 微软开源的零代码构建多智能体系统的AI工具

IDIFY - 开源的在线AI证件照生成工具，本地浏览器自动处理图片

Emu3 - 北京智源推出的统一输入与生成多模态模型

CCI 3.0 - 智源研究院发布的大规模的中文互联网语料库

MemFree - 开源的混合AI搜索引擎，支持多模态搜索和提问

GarDiff - AI虚拟试穿技术，生成高保真试穿图像保留服装细节

NeMo - 英伟达推出的用于构建、定制和部署生成式AI模型

Oryx - 腾讯联合清华和南洋理工大学推出的多模态大语言模型

I2VEdit - AI视频编辑技术，基于扩散模型实现首帧编辑引导

HouseCrafter - 东北大学和 Stability AI推出2D转换3D室内场景的技术

AMD-135M - AMD推出的首款小型语言模型

JoyHallo - 京东推出的音频驱动视频生成AI数字人模型

Seed-VC - 零样本实现声音克隆和转换的技术

Phidias - 检索增强的3D内容生成模型，支持多模态输入

AI News

美图奇想大模型 - 美图公司推出的AI视觉大模型

SafeEar - 浙大和清华联合开源的AI音频伪造检测框架

PDF2Audio - 将PDF文档转换成音频博客的开源工具

GraphReasoning - 将科学论文转换成知识图谱的AI应用框架

Comic Translate - 开源的漫画翻译工具，自动翻译主流漫画阅读语言

PearAI - 开源的AI代码编辑器，基于VSCode开发直接与代码库对话

EzAudio - 腾讯联合约翰霍普金斯大学推出的文本到音频生成模型

FLUX-Controlnet-Inpainting - 阿里妈妈推出的开源AI图像修复工具

Rope - 基于深度学习模型开源的AI换脸技术

Westlake-Omni - 西湖心辰开源的中文情感端到端语音交互模型

AutoGen Studio - 微软开源的零代码构建多智能体系统的AI工具

IDIFY - 开源的在线AI证件照生成工具，本地浏览器自动处理图片

Emu3 - 北京智源推出的统一输入与生成多模态模型

CCI 3.0 - 智源研究院发布的大规模的中文互联网语料库

MemFree - 开源的混合AI搜索引擎，支持多模态搜索和提问

GarDiff - AI虚拟试穿技术，生成高保真试穿图像保留服装细节

NeMo - 英伟达推出的用于构建、定制和部署生成式AI模型

Oryx - 腾讯联合清华和南洋理工大学推出的多模态大语言模型

I2VEdit - AI视频编辑技术，基于扩散模型实现首帧编辑引导

HouseCrafter - 东北大学和 Stability AI推出2D转换3D室内场景的技术

AMD-135M - AMD推出的首款小型语言模型

JoyHallo - 京东推出的音频驱动视频生成AI数字人模型

Seed-VC - 零样本实现声音克隆和转换的技术

Phidias - 检索增强的3D内容生成模型，支持多模态输入