AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

Buzz - 免费开源的AI语音转文字工具

Buzz是一款基于OpenAI Whisper模型构建的离线语音转文字工具，适用于Windows、macOS和Linux系统。Buzz能将麦克风输入或音频、视频文件实时转换为文字，支持多...

AI Projects12/18/2025

HoloDreamer - AI文本驱动3D场景生成框架

HoloDreamer是北京大学联合鹏城实验室推出的AI文本驱动3D场景生成框架。通过两个核心模块：风格化全景图生成和增强两阶段全景图重建，从文本描述中快速生成沉...

AI Projects12/18/2025

HumanVid - 专为人类图像动画生成而设计的高质量数据集

HumanVid是香港中文大学和上海人工智能实验室共同推出的高质量数据集，专为人类图像动画训练设计。结合了现实世界视频和合成数据，通过精心设计的规则筛选高...

AI Projects12/18/2025

ORMBG - 开源的AI图像分割工具

ORMBG是开源的AI图像分割工具，由开发者schirrmacher在GitHub上发起。ORMBG专注于从图片中准确去除背景，用先进的图像处理技术，实现对图像中前景和背景的精...

AI Projects12/18/2025

Cradle - 通用计算机控制的多模态AI Agent框架

Cradle是面向通用计算机控制（General Computer Control, GCC）的多模态AI Agent框架，由昆仑万维携手北京智源人工智能研究院、新加坡南洋理工大学、北京大学...

AI Projects12/18/2025

Linly-Dubbing - 开源AI视频工具，支持配音、翻译、对口型

Linly-Dubbing是一个开源的智能视频多语言AI配音和翻译工具，能自动将视频内容翻译成多种语言，并生成字幕。通过WhisperX和FunASR进行精准语音识别，基于Edge...

AI Projects12/18/2025

VITA - 腾讯推出的开源多模态AI模型

VITA是腾讯优图实验室推出的全球首个开源多模态大语言模型（MLLM），能理解和处理视频、图像、文本和音频。基于Mixtral 8×7B模型，扩展了中文词汇量，进行了...

AI Projects12/18/2025

AI Scientist - Sakana AI推出的全自动科学发现AI系统

AI Scientist是Sakana AI推出的首个全自动科学发现AI系统。能独立完成从创意生成、编码、实验执行到撰写科学论文的整个研究流程。

AI Projects12/18/2025

ControlNeXt - AI图像和视频可控生成框架

ControlNeXt是一种新型的AI图像和视频可控生成框架，由香港中文大学和商汤科技联合开发。采用轻量化控制模块和创新的交叉归一化技术，大幅降低计算资源和训练...

AI Projects12/18/2025

FancyVideo - 360推出的AI文生视频模型

FancyVideo是360联合中山大学推出的AI文生视频模型。基于创新的跨帧文本引导模块（Cross-frame Textual Guidance Module, CTGM），能根据文本提示生成动态丰...

AI Projects12/18/2025

MovieDreamer - 专为长视频研发的AI视频生成框架

MovieDreamer是浙江大学联合阿里巴巴专为长视频研发的AI视频生成框架。结合自回归模型和扩散渲染技术，能生成具有复杂情节和高视觉质量的长视频。

AI Projects12/18/2025

Glyph-ByT5 - 多语言视觉文本渲染项目

Glyph-ByT5-v2由微软亚洲研究院、清华大学、北京大学和利物浦大学联合开发的多语言视觉文本渲染项目。Glyph-ByT5-v2支持10种不同语言的准确视觉文本渲染，审...

AI Projects12/18/2025

Llama-3.1-Minitron - 英伟达联合Meta推出的Llama 3.1 4B参数模型

Llama-3.1-Minitron是由英伟达和Meta合作开发的AI模型，通过剪枝和知识蒸馏技术从Llama 3.1 8B模型精炼而成的更小型4B参数模型。这种优化减少了模型大小和复...

AI Projects12/18/2025

CrewAI - 构建多个 AI Agents 高效协作的开源平台

CrewAI是专注于构建多个 AI Agents 高效协作的开源平台，通过简化 AI Agents 框架的使用，企业能快速构建和部署智能自动化解决方案。CrewAI平台的核心优势在...

AI Projects12/18/2025

HybridRAG - 黑石联合英伟达推出的混合检索增强生成架构

HybridRAG 是黑石联合英伟达推出的混合检索增强生成架构，结合了检索增强生成（Retrieval-Augmented Generation）模型的机器学习架构。模型通过检索系统寻找...

AI Projects12/18/2025

DeepSeek-Prover-V1.5 - 70亿参数的开源数学大模型

DeepSeek-Prover-V1.5是由DeepSeek团队开发的开源数学大模型，拥有70亿参数。模型通过结合强化学习（RLPAF）和蒙特卡洛树搜索（特别是RMaxTS变体），在数学定...

AI Projects12/18/2025

SadTalker - 开源AI数字人项目，一键让照片说话

SadTalker是西安交通大学、腾讯AI实验室和蚂蚁集团联合推出的开源AI数字人项目。SadTalker专注于通过单张人脸图像和语音音频，利用3D运动系数生成逼真的说话...

AI Projects12/18/2025

xGen-MM - Salesforce推出的开源多模态AI模型

xGen-MM是Salesforce推出的一款开源多模态AI模型，具有处理交错数据的能力，能同时理解和生成文本、图像等多种数据类型。xGen-MM通过学习大量的图片和文字信...

AI Projects12/18/2025

Phi-3.5 - 微软推出的新一代AI模型，mini、MoE混合和视觉模型

Phi-3.5是微软推出的新一代AI模型系列，包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三个版本，分别针对轻量级推理、混合...

AI Projects12/18/2025

TrackGo - 先进的可控AI视频生成技术

TrackGo是先进的可控AI视频生成技术，通过用自由形状的遮罩和箭头，为用户提供了一种灵活而精确的机制来控制视频中对象的运动。技术的核心是TrackAdapter，一...

AI Projects12/18/2025

GPT Pilot - AI编程工具，让95%的开发者实现自动写代码

GPT Pilot 是一款AI编程工具，通过模仿人类开发者的工作流程，帮助从零开始构建应用程序。能编写代码、调试程序、与用户讨论问题，并请求代码审查，是真正的 ...

AI Projects12/18/2025

GaussianEditor - 一种3D编辑算法，支持快速且精确地修改3D场景

GaussianEditor 是一种基于高斯飞溅（Gaussian Splatting）的3D编辑算法，支持用户快速而精确地修改3D场景。通过高斯语义跟踪和分层高斯飞溅，提供了高度的编...

AI Projects12/18/2025

Seed-ASR - 字节跳动推出的AI语音识别模型

Seed-ASR是字节跳动开发的一款基于大型语言模型（LLM）的语音识别（ASR）模型。在超过2000万小时的语音数据和近90万小时的配对ASR数据上训练，支持普通话和13...

AI Projects12/18/2025

mPLUG-Owl3 - 阿里巴巴推出的通用多模态AI模型

mPLUG-Owl3是阿里巴巴推出的先进通用多模态大模型，专为理解和处理多图及长视频设计。在保持准确性的同时，显著提升了推理效率，能在4秒内分析完2小时电影。

←1...33 34 35 36 37 38 39...137 →

AI News

AI Projects12/18/2025

Buzz - 免费开源的AI语音转文字工具

AI Projects12/18/2025

HoloDreamer - AI文本驱动3D场景生成框架

AI Projects12/18/2025

HumanVid - 专为人类图像动画生成而设计的高质量数据集

AI Projects12/18/2025

ORMBG - 开源的AI图像分割工具

AI Projects12/18/2025

Cradle - 通用计算机控制的多模态AI Agent框架

AI Projects12/18/2025

Linly-Dubbing - 开源AI视频工具，支持配音、翻译、对口型

AI Projects12/18/2025

VITA - 腾讯推出的开源多模态AI模型

AI Projects12/18/2025

AI Scientist - Sakana AI推出的全自动科学发现AI系统

AI Scientist是Sakana AI推出的首个全自动科学发现AI系统。能独立完成从创意生成、编码、实验执行到撰写科学论文的整个研究流程。

AI Projects12/18/2025

ControlNeXt - AI图像和视频可控生成框架

AI Projects12/18/2025

FancyVideo - 360推出的AI文生视频模型

FancyVideo是360联合中山大学推出的AI文生视频模型。基于创新的跨帧文本引导模块（Cross-frame Textual Guidance Module, CTGM），能根据文本提示生成动态丰...

AI Projects12/18/2025

MovieDreamer - 专为长视频研发的AI视频生成框架

MovieDreamer是浙江大学联合阿里巴巴专为长视频研发的AI视频生成框架。结合自回归模型和扩散渲染技术，能生成具有复杂情节和高视觉质量的长视频。

AI Projects12/18/2025

Glyph-ByT5 - 多语言视觉文本渲染项目

AI Projects12/18/2025

Llama-3.1-Minitron - 英伟达联合Meta推出的Llama 3.1 4B参数模型

AI Projects12/18/2025

CrewAI - 构建多个 AI Agents 高效协作的开源平台

AI Projects12/18/2025

HybridRAG - 黑石联合英伟达推出的混合检索增强生成架构

AI Projects12/18/2025

DeepSeek-Prover-V1.5 - 70亿参数的开源数学大模型

AI Projects12/18/2025

SadTalker - 开源AI数字人项目，一键让照片说话

AI Projects12/18/2025

xGen-MM - Salesforce推出的开源多模态AI模型

AI Projects12/18/2025

Phi-3.5 - 微软推出的新一代AI模型，mini、MoE混合和视觉模型

Phi-3.5是微软推出的新一代AI模型系列，包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三个版本，分别针对轻量级推理、混合...

AI Projects12/18/2025

TrackGo - 先进的可控AI视频生成技术

AI Projects12/18/2025

GPT Pilot - AI编程工具，让95%的开发者实现自动写代码

AI Projects12/18/2025

GaussianEditor - 一种3D编辑算法，支持快速且精确地修改3D场景

AI Projects12/18/2025

Seed-ASR - 字节跳动推出的AI语音识别模型

AI Projects12/18/2025

All Categories

AI News

Buzz - 免费开源的AI语音转文字工具

HoloDreamer - AI文本驱动3D场景生成框架

HumanVid - 专为人类图像动画生成而设计的高质量数据集

ORMBG - 开源的AI图像分割工具

Cradle - 通用计算机控制的多模态AI Agent框架

Linly-Dubbing - 开源AI视频工具，支持配音、翻译、对口型

VITA - 腾讯推出的开源多模态AI模型

AI Scientist - Sakana AI推出的全自动科学发现AI系统

ControlNeXt - AI图像和视频可控生成框架

FancyVideo - 360推出的AI文生视频模型

MovieDreamer - 专为长视频研发的AI视频生成框架

Glyph-ByT5 - 多语言视觉文本渲染项目

Llama-3.1-Minitron - 英伟达联合Meta推出的Llama 3.1 4B参数模型

CrewAI - 构建多个 AI Agents 高效协作的开源平台

HybridRAG - 黑石联合英伟达推出的混合检索增强生成架构

DeepSeek-Prover-V1.5 - 70亿参数的开源数学大模型

SadTalker - 开源AI数字人项目，一键让照片说话

xGen-MM - Salesforce推出的开源多模态AI模型

Phi-3.5 - 微软推出的新一代AI模型，mini、MoE混合和视觉模型

TrackGo - 先进的可控AI视频生成技术

GPT Pilot - AI编程工具，让95%的开发者实现自动写代码

GaussianEditor - 一种3D编辑算法，支持快速且精确地修改3D场景

Seed-ASR - 字节跳动推出的AI语音识别模型

mPLUG-Owl3 - 阿里巴巴推出的通用多模态AI模型

AI News

Buzz - 免费开源的AI语音转文字工具

HoloDreamer - AI文本驱动3D场景生成框架

HumanVid - 专为人类图像动画生成而设计的高质量数据集

ORMBG - 开源的AI图像分割工具

Cradle - 通用计算机控制的多模态AI Agent框架

Linly-Dubbing - 开源AI视频工具，支持配音、翻译、对口型

VITA - 腾讯推出的开源多模态AI模型

AI Scientist - Sakana AI推出的全自动科学发现AI系统

ControlNeXt - AI图像和视频可控生成框架

FancyVideo - 360推出的AI文生视频模型

MovieDreamer - 专为长视频研发的AI视频生成框架

Glyph-ByT5 - 多语言视觉文本渲染项目

Llama-3.1-Minitron - 英伟达联合Meta推出的Llama 3.1 4B参数模型

CrewAI - 构建多个 AI Agents 高效协作的开源平台

HybridRAG - 黑石联合英伟达推出的混合检索增强生成架构

DeepSeek-Prover-V1.5 - 70亿参数的开源数学大模型

SadTalker - 开源AI数字人项目，一键让照片说话

xGen-MM - Salesforce推出的开源多模态AI模型

Phi-3.5 - 微软推出的新一代AI模型，mini、MoE混合和视觉模型

TrackGo - 先进的可控AI视频生成技术

GPT Pilot - AI编程工具，让95%的开发者实现自动写代码

GaussianEditor - 一种3D编辑算法，支持快速且精确地修改3D场景

Seed-ASR - 字节跳动推出的AI语音识别模型

mPLUG-Owl3 - 阿里巴巴推出的通用多模态AI模型