AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

Cube 3D - Roblox 推出的 AI 3D 生成模型

Cube 3D 是 Roblox 推出的AI 3D生成大模型，基于 AI 技术高效生成 3D 模型和环境。Cube 3D支持直接从文本描述生成完整的 3D 对象，与游戏引擎兼容。Cube 3D能...

AI Projects12/18/2025

SmolDocling - 轻量级的多模态文档处理模型

SmolDocling（SmolDocling-256M-preview ）是高效轻量级的多模态文档处理模型。能将文档图像端到端地转换为结构化文本，支持文本、公式、图表等多种元素识别...

AI Projects12/18/2025

GR00T N1 - 英伟达开源的人形机器人基础模型

GR00T N1 是英伟达推出的全球首个开源基础模型，专为通用人形机器人设计。基于多模态输入（如语言和图像）实现多样化环境中的操作任务。GR00T N1 基于大规模...

AI Projects12/18/2025

UniFluid - 谷歌联合麻省理工推出的多模态图像生成与理解框架

UniFluid 是谷歌 DeepMind 和麻省理工学院联合推出的，统一的自回归框架，用在联合视觉生成和理解任务。基于连续视觉标记处理多模态图像和文本输入，生成离散...

AI Projects12/18/2025

Multi-Speaker - AudioShake 推出的多说话人声分离模型

Multi-Speaker是AudioShake推出的全球首个高分辨率多说话人分离模型。支持将音频中的多个说话人精准分离到不同轨道，解决传统音频工具在处理重叠语音时的难题...

AI Projects12/18/2025

UniAct - 清华、商汤、北大、上海AI Lab共同推出的具身基础模型框架

UniAct 是新型的具身基础模型框架，解决不同机器人之间行为异构性的问题。通过学习通用行为，捕捉不同机器人共享的原子行为特征，消除因物理形态和控制接口差...

AI Projects12/18/2025

ReCamMaster - 浙大联合快手等推出的视频重渲染框架

ReCamMaster 是浙江大学、快手科技等联合推出的视频重渲染框架，能根据新的相机轨迹重新生成视频内容。通过预训练模型和帧维度条件机制，结合多相机同步数据...

AI Projects12/18/2025

Stable Virtual Camera - Stability AI 等机构推出的 AI 模型，2D图像转3D视频

Stable Virtual Camera 是 Stability AI 推出的 AI 模型，能将 2D 图像转换为具有真实深度和透视感的 3D 视频。用户可以通过指定相机轨迹和多种动态路径（如...

AI Projects12/18/2025

Instella - AMD开源的30亿参数系列语言模型

Instella是AMD推出的系列30亿参数的开源语言模型。模型完全从零开始在AMD Instinct™ MI300X GPU上训练而成，基于自回归Transformer架构，包含36个解码器层和3...

AI Projects12/18/2025

Maestro - 开源的端到端自动化测试框架

Maestro是用在移动和Web应用的端到端自动化测试框架。基于内置的容错能力和延迟容忍机制，解决传统测试中常见的不稳定性和等待问题。Maestro基于声明式语法，...

AI Projects12/18/2025

OLMo 2 32B - Ai2 推出的最新开源语言模型

OLMo 2 32B 是 Allen Institute for AI（Ai2）推出的最新开源语言模型，是 OLMo 2 系列的重要成果。拥有 320 亿参数，是首个在多技能学术基准测试中超越 GPT-...

AI Projects12/18/2025

InternVL - OpenGVLab 推出的多模态大模型

InternVL 是上海人工智能实验室 OpenGVLab 推出的多模态大模型，专注于视觉与语言任务。采用 ViT-MLP-LLM 架构，通过视觉模块（如 InternViT）和语言模块（如...

AI Projects12/18/2025

Umi-OCR - 免费 OCR 文字识别工具，支持截图、批量图片排版解析

Umi-OCR 是免费开源的离线 OCR 文字识别软件。无需联网，解压即用，支持截图、批量图片、PDF 扫描件的文字识别，能识别数学公式、二维码，可生成双层可搜索 P...

AI Projects12/18/2025

Orpheus TTS - 开源AI语音合成系统，支持多种语音风格

Orpheus TTS 是基于 Llama-3b 架构的开源文本到语音（TTS）系统。Orpheus TTS 支持生成自然、富有情感且接近人类水平的语音，具备零样本语音克隆能力，无需预...

AI Projects12/18/2025

o1-pro - OpenAI 推出的升级版推理模型

o1-pro是 OpenAI 正式推出的 o1 系列的升级版本，o1-pro 是目前 OpenAI 最强大的推理模型，核心优势在于显著提升的计算能力，能更好地应对复杂问题，提供更一...

AI Projects12/18/2025

Crack Coder - AI技术面试工具，提供实时编程问题支持

Crack Coder 是开源的隐形 AI 辅助工具，专为技术面试设计。Crack Coder支持在后台运行，完全隐形，无法被屏幕录制或监控软件检测到。Crack Coder提供实时 AI...

AI Projects12/18/2025

YT Navigator - AI YouTube 内容搜索工具，自然语言查询定位关键信息

YT Navigator 是 AI 驱动的 YouTube 内容搜索工具，帮助用户高效地搜索和浏览 YouTube 频道内容。YT Navigator自然语言查询功能，让用户快速定位到特定频道视...

AI Projects12/18/2025

Step-Video-TI2V - 阶跃星辰开源的图生视频模型

Step-Video-TI2V 是阶跃星辰（StepFun）推出的开源图生视频（Image-to-Video）生成模型，拥有 300 亿参数，能根据文本描述和图像输入生成最长 102 帧的视频。...

AI Projects12/18/2025

Dify-Plus - 基于 Dify 二次开发的企业级增强版项目

Dify-Plus 是基于 Dify 二次开发的企业级增强版项目，集成基于 gin-vue-admin 的管理中心。Dify-Plus在 Dify 基础上新增用户额度、密钥额度、Web 公开页登录...

AI Projects12/18/2025

gpt-4o-transcribe - OpenAI 推出的语音转文本模型

gpt-4o-transcribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构，用海量多样化音频数据训练，精准捕捉语音细微差别，显著降低单词错误率（...

AI Projects12/18/2025

GPT-4o mini TTS - OpenAI 推出的文本转语音模型

GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型，支持将文本内容转换为自然流畅语音的同时，开发者能用指令控制语音的语调、情感和风格，例如“平静”“...

AI Projects12/18/2025

福棠·百川 - 百川智能联合北京儿童等推出的儿科大模型

福棠·百川是是国家儿童医学中心、首都医科大学附属北京儿童医院联合百川智能、小儿方健康共同发布的全球首个儿科大模型。覆盖了儿童常见病及疑难病症的立体化...

AI Projects12/18/2025

Agent TARS - 字节跳动开源的多模态 AI Agent 项目

Agent TARS 是字节跳动开源的多模态 AI 代理工具。基于视觉解释网页内容，与浏览器、命令行和文件系统无缝集成，实现复杂任务的规划与执行。Agent TARS 提供...

AI Projects12/18/2025

gpt-4o-mini-transcribe - OpenAI 推出的语音转文本模型

gpt-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型，gpt-4o-transcribe的精简版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架构，用知识蒸馏技术从大...

←1...90 91 92 93 94 95 96...137 →

AI News

AI Projects12/18/2025

Cube 3D - Roblox 推出的 AI 3D 生成模型

AI Projects12/18/2025

SmolDocling - 轻量级的多模态文档处理模型

AI Projects12/18/2025

GR00T N1 - 英伟达开源的人形机器人基础模型

AI Projects12/18/2025

UniFluid - 谷歌联合麻省理工推出的多模态图像生成与理解框架

AI Projects12/18/2025

Multi-Speaker - AudioShake 推出的多说话人声分离模型

AI Projects12/18/2025

UniAct - 清华、商汤、北大、上海AI Lab共同推出的具身基础模型框架

AI Projects12/18/2025

ReCamMaster - 浙大联合快手等推出的视频重渲染框架

AI Projects12/18/2025

Stable Virtual Camera - Stability AI 等机构推出的 AI 模型，2D图像转3D视频

Stable Virtual Camera 是 Stability AI 推出的 AI 模型，能将 2D 图像转换为具有真实深度和透视感的 3D 视频。用户可以通过指定相机轨迹和多种动态路径（如...

AI Projects12/18/2025

Instella - AMD开源的30亿参数系列语言模型

AI Projects12/18/2025

Maestro - 开源的端到端自动化测试框架

AI Projects12/18/2025

OLMo 2 32B - Ai2 推出的最新开源语言模型

OLMo 2 32B 是 Allen Institute for AI（Ai2）推出的最新开源语言模型，是 OLMo 2 系列的重要成果。拥有 320 亿参数，是首个在多技能学术基准测试中超越 GPT-...

AI Projects12/18/2025

InternVL - OpenGVLab 推出的多模态大模型

AI Projects12/18/2025

Umi-OCR - 免费 OCR 文字识别工具，支持截图、批量图片排版解析

AI Projects12/18/2025

Orpheus TTS - 开源AI语音合成系统，支持多种语音风格

AI Projects12/18/2025

o1-pro - OpenAI 推出的升级版推理模型

AI Projects12/18/2025

Crack Coder - AI技术面试工具，提供实时编程问题支持

AI Projects12/18/2025

YT Navigator - AI YouTube 内容搜索工具，自然语言查询定位关键信息

YT Navigator 是 AI 驱动的 YouTube 内容搜索工具，帮助用户高效地搜索和浏览 YouTube 频道内容。YT Navigator自然语言查询功能，让用户快速定位到特定频道视...

AI Projects12/18/2025

Step-Video-TI2V - 阶跃星辰开源的图生视频模型

AI Projects12/18/2025

Dify-Plus - 基于 Dify 二次开发的企业级增强版项目

Dify-Plus 是基于 Dify 二次开发的企业级增强版项目，集成基于 gin-vue-admin 的管理中心。Dify-Plus在 Dify 基础上新增用户额度、密钥额度、Web 公开页登录...

AI Projects12/18/2025

gpt-4o-transcribe - OpenAI 推出的语音转文本模型

AI Projects12/18/2025

GPT-4o mini TTS - OpenAI 推出的文本转语音模型

AI Projects12/18/2025

福棠·百川 - 百川智能联合北京儿童等推出的儿科大模型

AI Projects12/18/2025

Agent TARS - 字节跳动开源的多模态 AI Agent 项目

AI Projects12/18/2025

gpt-4o-mini-transcribe - OpenAI 推出的语音转文本模型

gpt-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型，gpt-4o-transcribe的精简版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架构，用知识蒸馏技术从大...

All Categories

AI News

Cube 3D - Roblox 推出的 AI 3D 生成模型

SmolDocling - 轻量级的多模态文档处理模型

GR00T N1 - 英伟达开源的人形机器人基础模型

UniFluid - 谷歌联合麻省理工推出的多模态图像生成与理解框架

Multi-Speaker - AudioShake 推出的多说话人声分离模型

UniAct - 清华、商汤、北大、上海AI Lab共同推出的具身基础模型框架

ReCamMaster - 浙大联合快手等推出的视频重渲染框架

Stable Virtual Camera - Stability AI 等机构推出的 AI 模型，2D图像转3D视频

Instella - AMD开源的30亿参数系列语言模型

Maestro - 开源的端到端自动化测试框架

OLMo 2 32B - Ai2 推出的最新开源语言模型

InternVL - OpenGVLab 推出的多模态大模型

Umi-OCR - 免费 OCR 文字识别工具，支持截图、批量图片排版解析

Orpheus TTS - 开源AI语音合成系统，支持多种语音风格

o1-pro - OpenAI 推出的升级版推理模型

Crack Coder - AI技术面试工具，提供实时编程问题支持

YT Navigator - AI YouTube 内容搜索工具，自然语言查询定位关键信息

Step-Video-TI2V - 阶跃星辰开源的图生视频模型

Dify-Plus - 基于 Dify 二次开发的企业级增强版项目

gpt-4o-transcribe - OpenAI 推出的语音转文本模型

GPT-4o mini TTS - OpenAI 推出的文本转语音模型

福棠·百川 - 百川智能联合北京儿童等推出的儿科大模型

Agent TARS - 字节跳动开源的多模态 AI Agent 项目

gpt-4o-mini-transcribe - OpenAI 推出的语音转文本模型

AI News

Cube 3D - Roblox 推出的 AI 3D 生成模型

SmolDocling - 轻量级的多模态文档处理模型

GR00T N1 - 英伟达开源的人形机器人基础模型

UniFluid - 谷歌联合麻省理工推出的多模态图像生成与理解框架

Multi-Speaker - AudioShake 推出的多说话人声分离模型

UniAct - 清华、商汤、北大、上海AI Lab共同推出的具身基础模型框架

ReCamMaster - 浙大联合快手等推出的视频重渲染框架

Stable Virtual Camera - Stability AI 等机构推出的 AI 模型，2D图像转3D视频

Instella - AMD开源的30亿参数系列语言模型

Maestro - 开源的端到端自动化测试框架

OLMo 2 32B - Ai2 推出的最新开源语言模型

InternVL - OpenGVLab 推出的多模态大模型

Umi-OCR - 免费 OCR 文字识别工具，支持截图、批量图片排版解析

Orpheus TTS - 开源AI语音合成系统，支持多种语音风格

o1-pro - OpenAI 推出的升级版推理模型

Crack Coder - AI技术面试工具，提供实时编程问题支持

YT Navigator - AI YouTube 内容搜索工具，自然语言查询定位关键信息

Step-Video-TI2V - 阶跃星辰开源的图生视频模型

Dify-Plus - 基于 Dify 二次开发的企业级增强版项目

gpt-4o-transcribe - OpenAI 推出的语音转文本模型

GPT-4o mini TTS - OpenAI 推出的文本转语音模型

福棠·百川 - 百川智能联合北京儿童等推出的儿科大模型

Agent TARS - 字节跳动开源的多模态 AI Agent 项目

gpt-4o-mini-transcribe - OpenAI 推出的语音转文本模型