AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

TEN VAD - AI实时语音活动检测系统，低延迟、轻量级、高精度

TEN VAD 是高性能的实时语音活动检测系统，专为企业级应用设计。TEN VAD能精确地检测音频流中的语音活动，具有低延迟、轻量级和高精度的特点。TEN VAD 基于先...

AI Projects12/18/2025

Google AI Edge Gallery - 谷歌推出的AI应用，支持手机端离线运行AI模型

Google AI Edge Gallery 是谷歌推出的实验性应用，支持让用户在本地设备上体验和使用机器学习（ML）及生成式人工智能（GenAI）模型。应用目前支持在 Android...

AI Projects12/18/2025

VRAG-RL - 阿里通义推出的多模态RAG推理框架

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，专注于提升视觉语言模型（VLMs）在处理视觉丰富信息时的检索、推理和理解能力。基...

AI Projects12/18/2025

Jaaz - 开源的AI设计Agent，本地免费Lovart平替项目

Jaaz 是开源的AI设计Agent，本地免费 Lovart 平替项目。具备强大的 AI 设计能力，能智能生成设计提示，批量生成图像、海报、故事板等。

AI Projects12/18/2025

OCode - 终端原生AI编程助手，直接在shell环境中运行

OCode 是终端原生 AI 编程助手，为开发者提供深度代码库智能和自动任务执行功能。与本地 Ollama 模型无缝集成，将企业级 AI 辅助直接融入开发流程中。终端原...

AI Projects12/18/2025

Firesearch - Mendable AI推出的AI深度研究工具

Firesearch 是 Mendable AI 团队推出的 AI 驱动的深度研究工具。基于 Firecrawl 多源网络内容提取技术，结合 OpenAI GPT-4o 的搜索规划和内容生成能力，将复...

AI Projects12/18/2025

PlayDiffusion - Play AI开源的音频编辑模型

PlayDiffusion是PlayAI推出的新型音频编辑模型，基于扩散模型技术，专门用在音频的精细编辑和修复。模型将音频编码为离散的标记序列，对需要修改的部分进行掩...

AI Projects12/18/2025

Auto Think - 快手开源的自动思考大模型

Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型，模型针对深度思考大模型存在的“过度思考”问题进行了深入研究，提出了一种...

AI Projects12/18/2025

OmniAudio - 阿里通义推出的空间音频生成模型

OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频（FOA）的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sp...

AI Projects12/18/2025

OpenAudio S1 - Fish Audio推出的新一代语音生成模型

OpenAudio S1是Fish Audio推出的文本转语音（TTS）模型，基于超过200万小时的音频数据训练，支持13种语言。采用双自回归（Dual-AR）架构和强化学习与人类反馈...

AI Projects12/18/2025

MoonCast - 零样本AI播客生成项目，合成自然的播客风格

MoonCast 是零样本AI播客生成项目，从纯文本源合成自然的播客风格语音。通过长上下文语言模型和大规模语音数据训练，能生成几分钟长的播客音频，支持中文和英...

AI Projects12/18/2025

Gemini Fullstack LangGraph Quickstart - 谷歌DeepMind开源的全栈AI研究助手

Gemini Fullstack LangGraph Quickstart 是谷歌DeepMind推出的开源项目，帮助开发者快速搭建基于 Google Gemini 2.5 和 LangGraph 的全栈智能研究助手。

AI Projects12/18/2025

DecipherIt - AI研究助手，支持多源研究整合和分析

DecipherIt是AI驱动的研究助手工具，基于智能化手段简化和优化研究过程。工具支持将各种主题、链接和文件转化为AI生成的研究笔记本，提供全面的总结、互动问...

AI Projects12/18/2025

Qwen3 Embedding - 阿里通义开源的文本嵌入模型系列

Qwen3 Embedding 是基于 Qwen3 基础模型开发的文本表征、检索与排序专用模型。继承了 Qwen3 的先进架构，如 Grouped Query Attention、SwiGLU 激活函数等，通...

AI Projects12/18/2025

Qwen3 Reranker - 阿里通义开源的文本重排序模型

Qwen3 Reranker是阿里巴巴通义千问团队发布的文本重排序模型，属于Qwen3模型家族。采用单塔交叉编码器架构，输入文本对后输出相关性得分。模型通过多阶段训练...

AI Projects12/18/2025

Eleven v3 - ElevenLabs推出的AI文本转语音模型

Eleven v3是ElevenLabs推出的先进文本转语音模型。通过内联音频标签实现情感和语调的精确控制，支持多说话人对话，对话更自然。模型支持超70种语言，文本理解...

AI Projects12/18/2025

MiniCPM 4.0 - 面壁智能开源极致高效的端侧大模型

MiniCPM 4.0 是面壁智能推出的端侧大模型。模型分为 8B 和 0.5B 两种参数规模。8B 闪电稀疏版采用创新稀疏架构，能高效处理长文本任务；0.5B 版本以低计算资...

AI Projects12/18/2025

dots.llm1 - 小红书hi lab开源的文本大模型

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts（MoE）文本大模型，具有 1420 亿参数，激活参数为 140 亿。模型在 11.2T 高质量 token 数据上...

AI Projects12/18/2025

MonkeyOCR - 华中科技联合金山办公推出的文档解析模型

MonkeyOCR 是华中科技大学联合金山办公（Kingsoft Office）推出的文档解析模型，模型支持高效地将非结构化文档内容转换为结构化信息。基于精确的布局分析、内...

AI Projects12/18/2025

Playmate - 趣丸科技团队推出的人脸动画生成框架

Playmate是广州趣丸科技团队推出的人脸动画生成框架。框架基于3D隐式空间引导扩散模型，用双阶段训练框架，根据音频和指令精准控制人物的表情和头部姿态，生...

AI Projects12/18/2025

Time-R1 - 基于3B参数模型的时间推理语言模型

Time-R1是伊利诺伊大学香槟分校研究团队开发的基于3B参数的语言模型，通过独特的三阶段强化学习训练方法，在时间推理能力上取得了显著突破。

AI Projects12/18/2025

MiniMax-Remover - AI视频目标移除方法，实现高质量移除效果

MiniMax-Remover 是新型的视频目标移除方法，解决现有技术中常见的幻觉物体、视觉伪影以及推理速度缓慢等问题。采用两阶段方法：第一阶段基于简化版的 DiT 架...

AI Projects12/18/2025

MAS-Zero - Salesforce推出的多智能体系统设计框架

MAS-Zero是 Salesforce 推出的多智能体系统（MAS）设计框架，能在无需人类监督的情况下自动设计和优化MAS。框架基于元级设计，在推理时动态地对每个问题实例...

AI Projects12/18/2025

MultiTalk - 音频驱动的多人对话视频生成框架

MultiTalk 是中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。框架根据多声道音频输入、参考图像和文本提示，生成包含人...

←1...107 108 109 110 111 112 113...137 →

AI News

AI Projects12/18/2025

TEN VAD - AI实时语音活动检测系统，低延迟、轻量级、高精度

AI Projects12/18/2025

Google AI Edge Gallery - 谷歌推出的AI应用，支持手机端离线运行AI模型

AI Projects12/18/2025

VRAG-RL - 阿里通义推出的多模态RAG推理框架

AI Projects12/18/2025

Jaaz - 开源的AI设计Agent，本地免费Lovart平替项目

Jaaz 是开源的AI设计Agent，本地免费 Lovart 平替项目。具备强大的 AI 设计能力，能智能生成设计提示，批量生成图像、海报、故事板等。

AI Projects12/18/2025

OCode - 终端原生AI编程助手，直接在shell环境中运行

AI Projects12/18/2025

Firesearch - Mendable AI推出的AI深度研究工具

Firesearch 是 Mendable AI 团队推出的 AI 驱动的深度研究工具。基于 Firecrawl 多源网络内容提取技术，结合 OpenAI GPT-4o 的搜索规划和内容生成能力，将复...

AI Projects12/18/2025

PlayDiffusion - Play AI开源的音频编辑模型

AI Projects12/18/2025

Auto Think - 快手开源的自动思考大模型

AI Projects12/18/2025

OmniAudio - 阿里通义推出的空间音频生成模型

AI Projects12/18/2025

OpenAudio S1 - Fish Audio推出的新一代语音生成模型

AI Projects12/18/2025

MoonCast - 零样本AI播客生成项目，合成自然的播客风格

AI Projects12/18/2025

Gemini Fullstack LangGraph Quickstart - 谷歌DeepMind开源的全栈AI研究助手

Gemini Fullstack LangGraph Quickstart 是谷歌DeepMind推出的开源项目，帮助开发者快速搭建基于 Google Gemini 2.5 和 LangGraph 的全栈智能研究助手。

AI Projects12/18/2025

DecipherIt - AI研究助手，支持多源研究整合和分析

AI Projects12/18/2025

Qwen3 Embedding - 阿里通义开源的文本嵌入模型系列

Qwen3 Embedding 是基于 Qwen3 基础模型开发的文本表征、检索与排序专用模型。继承了 Qwen3 的先进架构，如 Grouped Query Attention、SwiGLU 激活函数等，通...

AI Projects12/18/2025

Qwen3 Reranker - 阿里通义开源的文本重排序模型

AI Projects12/18/2025

Eleven v3 - ElevenLabs推出的AI文本转语音模型

AI Projects12/18/2025

MiniCPM 4.0 - 面壁智能开源极致高效的端侧大模型

AI Projects12/18/2025

dots.llm1 - 小红书hi lab开源的文本大模型

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts（MoE）文本大模型，具有 1420 亿参数，激活参数为 140 亿。模型在 11.2T 高质量 token 数据上...

AI Projects12/18/2025

MonkeyOCR - 华中科技联合金山办公推出的文档解析模型

AI Projects12/18/2025

Playmate - 趣丸科技团队推出的人脸动画生成框架

AI Projects12/18/2025

Time-R1 - 基于3B参数模型的时间推理语言模型

Time-R1是伊利诺伊大学香槟分校研究团队开发的基于3B参数的语言模型，通过独特的三阶段强化学习训练方法，在时间推理能力上取得了显著突破。

AI Projects12/18/2025

MiniMax-Remover - AI视频目标移除方法，实现高质量移除效果

AI Projects12/18/2025

MAS-Zero - Salesforce推出的多智能体系统设计框架

AI Projects12/18/2025

All Categories

AI News

TEN VAD - AI实时语音活动检测系统，低延迟、轻量级、高精度

Google AI Edge Gallery - 谷歌推出的AI应用，支持手机端离线运行AI模型

VRAG-RL - 阿里通义推出的多模态RAG推理框架

Jaaz - 开源的AI设计Agent，本地免费Lovart平替项目

OCode - 终端原生AI编程助手，直接在shell环境中运行

Firesearch - Mendable AI推出的AI深度研究工具

PlayDiffusion - Play AI开源的音频编辑模型

Auto Think - 快手开源的自动思考大模型

OmniAudio - 阿里通义推出的空间音频生成模型

OpenAudio S1 - Fish Audio推出的新一代语音生成模型

MoonCast - 零样本AI播客生成项目，合成自然的播客风格

Gemini Fullstack LangGraph Quickstart - 谷歌DeepMind开源的全栈AI研究助手

DecipherIt - AI研究助手，支持多源研究整合和分析

Qwen3 Embedding - 阿里通义开源的文本嵌入模型系列

Qwen3 Reranker - 阿里通义开源的文本重排序模型

Eleven v3 - ElevenLabs推出的AI文本转语音模型

MiniCPM 4.0 - 面壁智能开源极致高效的端侧大模型

dots.llm1 - 小红书hi lab开源的文本大模型

MonkeyOCR - 华中科技联合金山办公推出的文档解析模型

Playmate - 趣丸科技团队推出的人脸动画生成框架

Time-R1 - 基于3B参数模型的时间推理语言模型

MiniMax-Remover - AI视频目标移除方法，实现高质量移除效果

MAS-Zero - Salesforce推出的多智能体系统设计框架

MultiTalk - 音频驱动的多人对话视频生成框架

AI News

TEN VAD - AI实时语音活动检测系统，低延迟、轻量级、高精度

Google AI Edge Gallery - 谷歌推出的AI应用，支持手机端离线运行AI模型

VRAG-RL - 阿里通义推出的多模态RAG推理框架

Jaaz - 开源的AI设计Agent，本地免费Lovart平替项目

OCode - 终端原生AI编程助手，直接在shell环境中运行

Firesearch - Mendable AI推出的AI深度研究工具

PlayDiffusion - Play AI开源的音频编辑模型

Auto Think - 快手开源的自动思考大模型

OmniAudio - 阿里通义推出的空间音频生成模型

OpenAudio S1 - Fish Audio推出的新一代语音生成模型

MoonCast - 零样本AI播客生成项目，合成自然的播客风格

Gemini Fullstack LangGraph Quickstart - 谷歌DeepMind开源的全栈AI研究助手

DecipherIt - AI研究助手，支持多源研究整合和分析

Qwen3 Embedding - 阿里通义开源的文本嵌入模型系列

Qwen3 Reranker - 阿里通义开源的文本重排序模型

Eleven v3 - ElevenLabs推出的AI文本转语音模型

MiniCPM 4.0 - 面壁智能开源极致高效的端侧大模型

dots.llm1 - 小红书hi lab开源的文本大模型

MonkeyOCR - 华中科技联合金山办公推出的文档解析模型

Playmate - 趣丸科技团队推出的人脸动画生成框架

Time-R1 - 基于3B参数模型的时间推理语言模型

MiniMax-Remover - AI视频目标移除方法，实现高质量移除效果

MAS-Zero - Salesforce推出的多智能体系统设计框架

MultiTalk - 音频驱动的多人对话视频生成框架