AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

TimesFM 2.0 - 谷歌研究团队开源的时间序列预测模型

TimesFM 2.0是谷歌研究团队推出的开源时间序列预测模型。具备强大的预测能力，可处理长达2048个时间点的单变量时间序列，支持任意预测时间跨度。模型采用仅解...

AI Projects12/18/2025

NeuralSVG - 文本驱动矢量图形生成技术，转化为有层次结构的矢量图形

NeuralSVG是创新的文本驱动矢量图形生成技术。通过一个小型的多层感知器网络，将文本提示转化为具有层次结构的矢量图形。该网络以形状索引为输入，输出形状参...

AI Projects12/18/2025

ViTPose - 基于 Transformer 架构的人体姿态估计模型

ViTPose 是基于 Transformer 架构的人体姿态估计模型。以普通视觉 Transformer 作为骨干网络，通过将输入图像切块并送入 Transformer block 来提取特征，再经...

AI Projects12/18/2025

Nemotron-CC - 英伟达推出的大型预训练数据集

Nemotron-CC是NVIDIA团队推出的大型预训练数据集，能将Common Crawl数据转化为适用于长序列预训练的高质量语料。Nemotron-CC数据集结合分类器集成、合成数据...

AI Projects12/18/2025

NVIDIA-Ingest - 英伟达开源的智能文档提取及结构化工具

NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。NVIDIA-Ingest能将文档转换为元数据和文本，便于嵌入到检索系统中...

AI Projects12/18/2025

Eko - Fellou AI 推出的开源 AI 代理开发框架

Eko是Fellou AI推出的生产就绪型JavaScript框架，基于自然语言驱动的方式，帮助开发者轻松创建从简单指令到复杂流程的可靠智能代理。Eko支持所有平台，包括计...

AI Projects12/18/2025

Emotion-LLaMA - 多模态情绪识别与推理模型，融合音频、视觉和文本输入

Emotion-LLaMA是多模态情绪识别与推理模型，融合了音频、视觉和文本输入，通过特定情绪编码器整合信息。模型基于修改版LLaMA，经指令调整以提升情感识别能力...

AI Projects12/18/2025

GR00T-Teleop - 英伟达发布通过 Apple Vision Pro 捕捉人类动作的技术

GR00T-Teleop是NVIDIA Isaac GR00T的一部分，用在捕获远程操作数据的关键技术。基于NVIDIA CloudXR连接Apple Vision Pro头显，用专门设计的人形远程操作自定...

AI Projects12/18/2025

MiniRAG - 港大推出高效部署小语言模型的新型 RAG 系统

MiniRAG是香港大学推出的新型检索增强型生成（RAG）系统，专为在资源受限的场景下高效部署小型语言模型（SLMs）设计。MiniRAG基于两个关键技术实现这一目标：...

AI Projects12/18/2025

Riona-AI-Agent - AI社交工具，可在社交媒体平台自动化交互点赞评论

Riona-AI-Agent是Node.js 和 TypeScript 构建的 AI 驱动的自动化工具，能与 Instagram、Twitter 和 GitHub 等社交媒体平台进行交互。Riona-AI-Agent能生成引...

AI Projects12/18/2025

Prometheus - 浙大联合蚂蚁等高校推出的3D感知潜在扩散模型

Prometheus是创新的3D感知潜在扩散模型，专门用于快速生成文本到3D场景的内容。能在几秒钟内完成对象和场景级别的3D生成，同时保持高质量的输出和良好的泛化...

AI Projects12/18/2025

MinMo - 阿里通义实验室推出的多模态语音交互大模型

MinMo是阿里巴巴通义实验室FunAudioLLM团队推出的多模态大模型，专注于实现无缝语音交互。MinMo拥有约80亿参数，基于多阶段训练，在140万小时多样化语音数据...

AI Projects12/18/2025

MiniMax-01 - MiniMax开源的全新系列模型

MiniMax-01是MiniMax推出的全新系列模型，包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax-01首次大规模实现线性注意力机制，打...

AI Projects12/18/2025

讯飞星火X1 - 科大讯飞推出的首个全国产深度推理大模型

讯飞星火X1是科大讯飞于2025年1月15日发布的国内首个基于全国产算力平台训练的具备深度思考和推理能力的大模型。在解题过程中更接近人类的“慢思考”方式，仅用...

AI Projects12/18/2025

星火语音同传大模型 - 科大讯飞推出的端到端语音同传大模型

星火语音同传大模型是科大讯飞于2025年1月15日发布的国内首个具备端到端语音同传能力的大模型。模型在内容完整度、信息准确度以及语言质量上均处于行业领先水...

AI Projects12/18/2025

Titans - 谷歌推出的新型神经记忆架构

Titans是谷歌推出的新型神经网络架构，能突破Transformer在处理长序列数据时的记忆瓶颈。Titans引入神经长期记忆模块，模拟人脑记忆机制，特别强化对意外事件...

AI Projects12/18/2025

moonshot-v1-vision-preview - 月之暗面推出的多模态图片理解模型

moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型，模型完善了 moonshot-v1 模型系列的多模态能力，具备强大的图像识别能力，能精准区分复杂...

AI Projects12/18/2025

MiniCPM-o 2.6 - 面壁智能开源的多模态大模型，性能媲美GPT-4o

MiniCPM-o 2.6 是MiniCPM-o 系列最新、性能最佳的多模态大模型，具有 8B 参数量。MiniCPM-o 2.6在视觉、语音和多模态直播等多个领域表现出色，达到与 GPT-4o ...

AI Projects12/18/2025

FlowiseAI - AI应用构建工具，拖拽可视化组件自定义LLM应用

Flowise 是开源的低代码/无代码拖放工具，通过拖拽可视化组件，用户可以快速构建自定义的 LLM 应用程序。提供了一套易于使用的工具和组件，无需或仅需少量编...

AI Projects12/18/2025

LlamaV-o1 - 多模态视觉推理模型，采用逐步推理学习方法解决复杂任务

LlamaV-o1是阿联酋穆罕默德·本·扎耶德人工智能大学等机构提出的新多模态视觉推理模型，提升大型语言模型的逐步视觉推理能力。引入视觉推理链基准测试VRC-Benc...

AI Projects12/18/2025

Kokoro-TTS - 轻量级文本转语音模型，支持多语言多语音风格生成

Kokoro-TTS 是 hexgrad 开发的轻量级文本转语音（TTS）模型，具有 8200 万参数。基于 StyleTTS 2 和 ISTFTNet 的混合架构，采用纯解码器设计，不使用扩散模型...

AI Projects12/18/2025

KHOJ - 开源 AI 个人化助手，一站式知识管理工具

KHOJ是开源的个人化AI助手，帮助用户整合和检索知识。可连接用户的在线和本地文档，如PDF、Markdown、纯文本、GitHub和Notion文件等，通过语义搜索功能，快速...

AI Projects12/18/2025

Luma Ray2 - Luma AI 推出的最新视频生成模型

Luma Ray2 是 Luma AI 推出的最新视频生成模型，Ray2 基于 Luma 新的多模态架构训练后展现出先进功能，该架构的计算能力是 Ray1 的 10 倍。能生成快速连贯的...

AI Projects12/18/2025

RAIN - 视频流制作实时动画生成和真人表情移植解决方案

RAIN（Real-time Animation Of Infinite Video Stream）是创新的实时动画解决方案，基于消费级硬件，如单个RTX 4090 GPU，实现无限视频流的实时动画化。核心...

←1...71 72 73 74 75 76 77...137 →

AI News

AI Projects12/18/2025

TimesFM 2.0 - 谷歌研究团队开源的时间序列预测模型

AI Projects12/18/2025

NeuralSVG - 文本驱动矢量图形生成技术，转化为有层次结构的矢量图形

AI Projects12/18/2025

ViTPose - 基于 Transformer 架构的人体姿态估计模型

ViTPose 是基于 Transformer 架构的人体姿态估计模型。以普通视觉 Transformer 作为骨干网络，通过将输入图像切块并送入 Transformer block 来提取特征，再经...

AI Projects12/18/2025

Nemotron-CC - 英伟达推出的大型预训练数据集

AI Projects12/18/2025

NVIDIA-Ingest - 英伟达开源的智能文档提取及结构化工具

AI Projects12/18/2025

Eko - Fellou AI 推出的开源 AI 代理开发框架

AI Projects12/18/2025

Emotion-LLaMA - 多模态情绪识别与推理模型，融合音频、视觉和文本输入

AI Projects12/18/2025

GR00T-Teleop - 英伟达发布通过 Apple Vision Pro 捕捉人类动作的技术

GR00T-Teleop是NVIDIA Isaac GR00T的一部分，用在捕获远程操作数据的关键技术。基于NVIDIA CloudXR连接Apple Vision Pro头显，用专门设计的人形远程操作自定...

AI Projects12/18/2025

MiniRAG - 港大推出高效部署小语言模型的新型 RAG 系统

AI Projects12/18/2025

Riona-AI-Agent - AI社交工具，可在社交媒体平台自动化交互点赞评论

Riona-AI-Agent是Node.js 和 TypeScript 构建的 AI 驱动的自动化工具，能与 Instagram、Twitter 和 GitHub 等社交媒体平台进行交互。Riona-AI-Agent能生成引...

AI Projects12/18/2025

Prometheus - 浙大联合蚂蚁等高校推出的3D感知潜在扩散模型

AI Projects12/18/2025

MinMo - 阿里通义实验室推出的多模态语音交互大模型

AI Projects12/18/2025

MiniMax-01 - MiniMax开源的全新系列模型

MiniMax-01是MiniMax推出的全新系列模型，包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax-01首次大规模实现线性注意力机制，打...

AI Projects12/18/2025

讯飞星火X1 - 科大讯飞推出的首个全国产深度推理大模型

AI Projects12/18/2025

星火语音同传大模型 - 科大讯飞推出的端到端语音同传大模型

AI Projects12/18/2025

Titans - 谷歌推出的新型神经记忆架构

AI Projects12/18/2025

moonshot-v1-vision-preview - 月之暗面推出的多模态图片理解模型

AI Projects12/18/2025

MiniCPM-o 2.6 - 面壁智能开源的多模态大模型，性能媲美GPT-4o

MiniCPM-o 2.6 是MiniCPM-o 系列最新、性能最佳的多模态大模型，具有 8B 参数量。MiniCPM-o 2.6在视觉、语音和多模态直播等多个领域表现出色，达到与 GPT-4o ...

AI Projects12/18/2025

FlowiseAI - AI应用构建工具，拖拽可视化组件自定义LLM应用

AI Projects12/18/2025

LlamaV-o1 - 多模态视觉推理模型，采用逐步推理学习方法解决复杂任务

AI Projects12/18/2025

Kokoro-TTS - 轻量级文本转语音模型，支持多语言多语音风格生成

Kokoro-TTS 是 hexgrad 开发的轻量级文本转语音（TTS）模型，具有 8200 万参数。基于 StyleTTS 2 和 ISTFTNet 的混合架构，采用纯解码器设计，不使用扩散模型...

AI Projects12/18/2025

KHOJ - 开源 AI 个人化助手，一站式知识管理工具

AI Projects12/18/2025

Luma Ray2 - Luma AI 推出的最新视频生成模型

AI Projects12/18/2025

RAIN - 视频流制作实时动画生成和真人表情移植解决方案

RAIN（Real-time Animation Of Infinite Video Stream）是创新的实时动画解决方案，基于消费级硬件，如单个RTX 4090 GPU，实现无限视频流的实时动画化。核心...

All Categories

AI News

TimesFM 2.0 - 谷歌研究团队开源的时间序列预测模型

NeuralSVG - 文本驱动矢量图形生成技术，转化为有层次结构的矢量图形

ViTPose - 基于 Transformer 架构的人体姿态估计模型

Nemotron-CC - 英伟达推出的大型预训练数据集

NVIDIA-Ingest - 英伟达开源的智能文档提取及结构化工具

Eko - Fellou AI 推出的开源 AI 代理开发框架

Emotion-LLaMA - 多模态情绪识别与推理模型，融合音频、视觉和文本输入

GR00T-Teleop - 英伟达发布通过 Apple Vision Pro 捕捉人类动作的技术

MiniRAG - 港大推出高效部署小语言模型的新型 RAG 系统

Riona-AI-Agent - AI社交工具，可在社交媒体平台自动化交互点赞评论

Prometheus - 浙大联合蚂蚁等高校推出的3D感知潜在扩散模型

MinMo - 阿里通义实验室推出的多模态语音交互大模型

MiniMax-01 - MiniMax开源的全新系列模型

讯飞星火X1 - 科大讯飞推出的首个全国产深度推理大模型

星火语音同传大模型 - 科大讯飞推出的端到端语音同传大模型

Titans - 谷歌推出的新型神经记忆架构

moonshot-v1-vision-preview - 月之暗面推出的多模态图片理解模型

MiniCPM-o 2.6 - 面壁智能开源的多模态大模型，性能媲美GPT-4o

FlowiseAI - AI应用构建工具，拖拽可视化组件自定义LLM应用

LlamaV-o1 - 多模态视觉推理模型，采用逐步推理学习方法解决复杂任务

Kokoro-TTS - 轻量级文本转语音模型，支持多语言多语音风格生成

KHOJ - 开源 AI 个人化助手，一站式知识管理工具

Luma Ray2 - Luma AI 推出的最新视频生成模型

RAIN - 视频流制作实时动画生成和真人表情移植解决方案

AI News

TimesFM 2.0 - 谷歌研究团队开源的时间序列预测模型

NeuralSVG - 文本驱动矢量图形生成技术，转化为有层次结构的矢量图形

ViTPose - 基于 Transformer 架构的人体姿态估计模型

Nemotron-CC - 英伟达推出的大型预训练数据集

NVIDIA-Ingest - 英伟达开源的智能文档提取及结构化工具

Eko - Fellou AI 推出的开源 AI 代理开发框架

Emotion-LLaMA - 多模态情绪识别与推理模型，融合音频、视觉和文本输入

GR00T-Teleop - 英伟达发布通过 Apple Vision Pro 捕捉人类动作的技术

MiniRAG - 港大推出高效部署小语言模型的新型 RAG 系统

Riona-AI-Agent - AI社交工具，可在社交媒体平台自动化交互点赞评论

Prometheus - 浙大联合蚂蚁等高校推出的3D感知潜在扩散模型

MinMo - 阿里通义实验室推出的多模态语音交互大模型

MiniMax-01 - MiniMax开源的全新系列模型

讯飞星火X1 - 科大讯飞推出的首个全国产深度推理大模型

星火语音同传大模型 - 科大讯飞推出的端到端语音同传大模型

Titans - 谷歌推出的新型神经记忆架构

moonshot-v1-vision-preview - 月之暗面推出的多模态图片理解模型

MiniCPM-o 2.6 - 面壁智能开源的多模态大模型，性能媲美GPT-4o

FlowiseAI - AI应用构建工具，拖拽可视化组件自定义LLM应用

LlamaV-o1 - 多模态视觉推理模型，采用逐步推理学习方法解决复杂任务

Kokoro-TTS - 轻量级文本转语音模型，支持多语言多语音风格生成

KHOJ - 开源 AI 个人化助手，一站式知识管理工具

Luma Ray2 - Luma AI 推出的最新视频生成模型

RAIN - 视频流制作实时动画生成和真人表情移植解决方案