AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

FineWeb 2 - Hugging Face推出的多语言预训练数据集

FineWeb 2是Hugging Face推出的多语言预训练数据集，覆盖超过1000种语言。FineWeb 2基于定制化的数据管道处理，包括语言识别、去重、内容过滤和PII匿名化，适...

AI Projects12/18/2025

Gemini 2.0 - 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型

Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型，以多模态输入输出和Agent技术为核心，速度比 1.5 Pro快两倍...

AI Projects12/18/2025

书生·万象InternVL 2.5 - 上海 AI Lab 开源的多模态大语言模型系列

书生·万象InternVL 2.5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言模型（MLLM）系列。该系列模型在InternVL 2.0的基础上进行显著增强，特别是在...

AI Projects12/18/2025

ChatTTSPlus - 开源文本转语音工具，ChatTTS扩展版支持语音克隆

ChatTTSPlus是ChatTTS的扩展版本，基于集成TensorRT加速、语音克隆和移动模型部署等先进技术，提升语音合成的性能和灵活性。在Windows平台上，能实现超过3倍...

AI Projects12/18/2025

MMAudio - 基于多模态联合训练实现高质量 AI 音频合成项目

MMAudio是先进视频到音频合成技术，基于多模态联合训练，让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块，确保生成的音频与视频帧精...

AI Projects12/18/2025

Ultravox - 端到端多模态大模型，直接理解文本和人类语音

Ultravox是新型的多模态大型语言模型（LLM），能直接理解文本和人类语音，无需依赖单独的自动语音识别（ASR）阶段。基于多模态投影器技术将音频数据转换为高...

AI Projects12/18/2025

Project Mariner - 谷歌推出的浏览网站智能体，能帮用户操作表格、在线购物

Project Mariner 是谷歌 DeepMind 推出的浏览器助手。Project Mariner基于 Gemini 2.0 技术，用 Chrome 扩展程序实现浏览器自动化，理解和执行网页任务。Proj...

AI Projects12/18/2025

TEN Agent - 开源的实时多模态 AI 代理框架

TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互，支持高性能的实时通信，具备低延...

AI Projects12/18/2025

FLOAT - 基于流匹配的音频驱动说话人头像生成模型

FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型，基于流匹配生成模型，学习运动潜在空间实现高效的时间一致性运动设计。模型基...

AI Projects12/18/2025

SynCamMaster - 快手联合浙大、清华等机构推出的多视角视频生成模型

SynCamMaster是浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型，能结合6自由度相机姿势，从任意视点生成开...

AI Projects12/18/2025

STIV - 苹果公司推出的视频生成大模型

STIV（Scalable Text and Image Conditioned Video Generation）是苹果公司推出的视频生成大模型。STIV拥有8.7亿参数，能处理文本到视频（T2V）和文本图像到...

AI Projects12/18/2025

DiffSensei - AI 漫画生成框架，能生成可控的黑白漫画面板

DiffSensei是北京大学、上海AI实验室及南洋理工大学的研究人员共同推出的漫画生成框架，能生成可控的黑白漫画面板。DiffSensei整合基于扩散的图像生成器和多...

AI Projects12/18/2025

Maya - 开源多语言多模态模型，能处理和理解八种不同语言

Maya是开源的多语言多模态模型，基于指令微调扩展模型在多种语言和文化背景下的能力。Maya基于LLaVA框架，包含新创建的包含八种语言的预训练数据集，提高视觉...

AI Projects12/18/2025

千影 QianYing - 巨人网络推出的有声游戏生成大模型

千影 QianYing是巨人网络推出的有声游戏生成大模型，包含游戏视频生成大模型YingGame和视频配音大模型YingSound。YingGame面向开放世界游戏，是巨人网络AI La...

AI Projects12/18/2025

Promptic - 轻量级LLM应用开发框架，通过一行代码切换不同LLM

Promptic是轻量级的LLM应用开发框架，提供高效且符合Python风格的开发方式。基于LiteLLM，Promptic支持开发者能轻松切换不同的LLM服务提供商，只需更改一行代...

AI Projects12/18/2025

SwiftEdit - AI文本引导图像编辑框架，0.23秒内实现高质量的图像编辑

SwiftEdit是由VinAI Research团队推出的文本引导的图像编辑工具，基于创新的一步扩散技术，能在0.23秒内实现快速且高质量的图像编辑。工具的核心优势在于一步...

AI Projects12/18/2025

ChatMCP - AI 聊天客户端，基于 MCP 支持多语言和自动化安装

ChatMCP 是基于模型上下文协议（MCP）的 AI 聊天客户端，支持与各种大型语言模型（LLM）如 OpenAI、Claude 和 OLLama 等进行交互。ChatMCP具备自动化安装 MCP...

AI Projects12/18/2025

Multimodal Live API - 谷歌推出支持多模态交互、低延迟实时互动的AI接口

Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口，支持文本、音频和视频输入，用音频和文本形式输出，能帮助开发者构建具有实时音频和视频流功能...

AI Projects12/18/2025

CodeArena - 用于测试不同LLM编程能力的在线平台

CodeArena是在线平台，基于让多个大型语言模型（LLM）同时构建相同的应用程序，实时显示排名结果，比较LLM生成代码的能力。CodeArena平台主要评估和比较不同L...

AI Projects12/18/2025

Phi-4 - 微软开源的14B参数小语言模型，擅长数学等领域的复杂推理

Phi-4是微软推出的14亿参数小型语言模型，在数学等领域的复杂推理以及传统语言处理方面表现出色。Phi-4用数据质量为核心训练重点，大量融入合成数据，提升模...

AI Projects12/18/2025

Insight-V - 提升长链视觉推理能力的多模态模型

Insight-V是南洋理工大学、腾讯公司和清华大学的研究者们共同推出的多模态模型，能提升多模态大型语言模型在长链视觉推理方面的能力。基于可扩展的数据生成流...

AI Projects12/18/2025

SVDQuant - MIT 推出的扩散模型后训练量化技术

SVDQuant是MIT研究团队推出的后训练量化技术，针对扩散模型，将模型的权重和激活值量化至4位，减少内存占用加速推理过程。SVDQuant引入高精度的低秩分支吸收...

AI Projects12/18/2025

Meta Motivo - Meta 推出控制数字智能体动作的人工智能模型

Meta Motivo 是 Meta 公司推出的AI模型，能提升元宇宙体验的真实性。Meta Motivo基于控制虚拟人形智能体的全身动作，模拟人类行为，增强用户互动。模型采用无...

AI Projects12/18/2025

Step-1o Audio - 阶跃星辰推出的国内首个千亿参数端到端语音大模型

Step-1o Audio是阶跃星辰推出的国内首个千亿参数端到端语音大模型。具备强大的情绪感知能力，能精准识别用户语气中的情感，结合语境做出贴心回应。

←1...61 62 63 64 65 66 67...137 →

AI News

AI Projects12/18/2025

All Categories

AI News

FineWeb 2 - Hugging Face推出的多语言预训练数据集

Gemini 2.0 - 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型

书生·万象InternVL 2.5 - 上海 AI Lab 开源的多模态大语言模型系列

ChatTTSPlus - 开源文本转语音工具，ChatTTS扩展版支持语音克隆

MMAudio - 基于多模态联合训练实现高质量 AI 音频合成项目

Ultravox - 端到端多模态大模型，直接理解文本和人类语音

Project Mariner - 谷歌推出的浏览网站智能体，能帮用户操作表格、在线购物

TEN Agent - 开源的实时多模态 AI 代理框架

FLOAT - 基于流匹配的音频驱动说话人头像生成模型

SynCamMaster - 快手联合浙大、清华等机构推出的多视角视频生成模型

STIV - 苹果公司推出的视频生成大模型

DiffSensei - AI 漫画生成框架，能生成可控的黑白漫画面板

Maya - 开源多语言多模态模型，能处理和理解八种不同语言

千影 QianYing - 巨人网络推出的有声游戏生成大模型

Promptic - 轻量级LLM应用开发框架，通过一行代码切换不同LLM

SwiftEdit - AI文本引导图像编辑框架，0.23秒内实现高质量的图像编辑

ChatMCP - AI 聊天客户端，基于 MCP 支持多语言和自动化安装

Multimodal Live API - 谷歌推出支持多模态交互、低延迟实时互动的AI接口

CodeArena - 用于测试不同LLM编程能力的在线平台

Phi-4 - 微软开源的14B参数小语言模型，擅长数学等领域的复杂推理

Insight-V - 提升长链视觉推理能力的多模态模型

SVDQuant - MIT 推出的扩散模型后训练量化技术

Meta Motivo - Meta 推出控制数字智能体动作的人工智能模型

Step-1o Audio - 阶跃星辰推出的国内首个千亿参数端到端语音大模型

AI News

FineWeb 2 - Hugging Face推出的多语言预训练数据集

Gemini 2.0 - 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型

书生·万象InternVL 2.5 - 上海 AI Lab 开源的多模态大语言模型系列

ChatTTSPlus - 开源文本转语音工具，ChatTTS扩展版支持语音克隆

MMAudio - 基于多模态联合训练实现高质量 AI 音频合成项目

Ultravox - 端到端多模态大模型，直接理解文本和人类语音

Project Mariner - 谷歌推出的浏览网站智能体，能帮用户操作表格、在线购物

TEN Agent - 开源的实时多模态 AI 代理框架

FLOAT - 基于流匹配的音频驱动说话人头像生成模型

SynCamMaster - 快手联合浙大、清华等机构推出的多视角视频生成模型

STIV - 苹果公司推出的视频生成大模型

DiffSensei - AI 漫画生成框架，能生成可控的黑白漫画面板

Maya - 开源多语言多模态模型，能处理和理解八种不同语言

千影 QianYing - 巨人网络推出的有声游戏生成大模型

Promptic - 轻量级LLM应用开发框架，通过一行代码切换不同LLM

SwiftEdit - AI文本引导图像编辑框架，0.23秒内实现高质量的图像编辑

ChatMCP - AI 聊天客户端，基于 MCP 支持多语言和自动化安装

Multimodal Live API - 谷歌推出支持多模态交互、低延迟实时互动的AI接口

CodeArena - 用于测试不同LLM编程能力的在线平台

Phi-4 - 微软开源的14B参数小语言模型，擅长数学等领域的复杂推理

Insight-V - 提升长链视觉推理能力的多模态模型

SVDQuant - MIT 推出的扩散模型后训练量化技术

Meta Motivo - Meta 推出控制数字智能体动作的人工智能模型

Step-1o Audio - 阶跃星辰推出的国内首个千亿参数端到端语音大模型