AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

Qwen2.5-Omni - 阿里开源的端到端多模态模型

Qwen2.5-Omni 是阿里开源的 Qwen 系列旗舰级多模态模型，拥有7B参数，Qwen2.5-Omni具备强大的多模态感知能力，能处理文本、图像、音频和视频输入，支持流式文...

AI Projects12/18/2025

Cosmos-Reason1 - NVIDIA推出的系列多模态大语言模型

Cosmos-Reason1 是NVIDIA推出的系列多模态大语言模型，模型能生成基于物理现实的响应。Cosmos-Reason1 包含两个模型：Cosmos-Reason1-7B 和 Cosmos-Reason1-5...

AI Projects12/18/2025

RF-DETR - Roboflow推出的实时目标检测模型

RF-DETR是Roboflow推出的实时目标检测模型。RF-DETR是首个在COCO数据集上达到60+平均精度均值（mAP）的实时模型，性能优于现有的目标检测模型。RF-DETR结合LW...

AI Projects12/18/2025

Bolt3D - 牛津大学联合谷歌推出的 3D 场景生成技术

Bolt3D 是谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术，是潜在扩散模型，能在单个 GPU 上，仅需不到七秒的时间，直接从一...

AI Projects12/18/2025

Piece it Together - Bria AI等机构推出的图像生成框架

Piece it Together （PiT）是Bria AI等机构推出的创新图像生成框架，专门用在从部分视觉组件生成完整的概念图像。基于特定领域的先验知识，将用户提供的碎片...

AI Projects12/18/2025

TripoSR是Stability AI和VAST联合推出的开源3D生成模型，能在不到0.5秒内从单张2D图像快速生成高质量的3D模型。模型基于Transformer架构，采用了大型重建模型...

AI Projects12/18/2025

ModelEngine 是华为开源的全流程 AI 开发工具链，围绕数据使能、模型使能和应用使能三大核心功能展开，解决 AI 行业化落地过程中数据工程耗时长、模型训练和...

AI Projects12/18/2025

BizGen是清华大学和微软研究院联合推出的AI信息图生成工具，专注于文章级别的视觉文本渲染。能一键将长篇文章内容转化为专业级的信息图和幻灯片，解决传统工...

AI Projects12/18/2025

Ideogram 3.0 是Ideogram推出的 AI 图像生成模型。Ideogram 3.0在图像生成质量上实现飞跃，具备高度的真实感、出色的文本渲染和强大的语言理解能力，支持生成...

AI Projects12/18/2025

QVQ-Max 是阿里通义推出的视觉推理模型，是QVQ-72B-Preview的正式升级版。QVQ-Max能“看懂”图片和视频内容，结合信息进行分析、推理和解决问题。QVQ-Max支持应...

AI Projects12/18/2025

TxGemma 是谷歌推出的用于药物发现的通用人工智能模型，通过 AI 技术加速药物研发进程。基于 Google 的 Gemma 框架开发，能理解常规文本以及化学物质、分子和...

AI Projects12/18/2025

TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流（Rectified Flow, RF）模型的高保真 3D 形状合成技术，通过大规模修正流变换器架构、混合监督训练...

AI Projects12/18/2025

TripoSF是VAST推出的新一代3D基础模型，突破传统3D建模在细节、复杂结构和扩展性上的瓶颈。采用SparseFlex表示方法，结合稀疏体素结构，仅在物体表面附近的区...

AI Projects12/18/2025

DistilQwen2.5-R1 是阿里巴巴推出的基于知识蒸馏技术的小型化系列深度推理模型，包含3B、7B、14B和32B四个参数量级的模型。DistilQwen2.5-R1将超大规模模型（...

AI Projects12/18/2025

PaddleSpeech 是百度飞桨团队开源的语音处理工具，提供全面的语音处理功能，包括语音识别、语音合成、声纹识别、语音翻译等。PaddleSpeech提供命令行界面、服...

AI Projects12/18/2025

ChatAnyone是阿里巴巴通义实验室推出的实时风格化肖像视频生成框架。通过音频输入，生成具有丰富表情和上半身动作的肖像视频。采用高效分层运动扩散模型和混...

AI Projects12/18/2025

Math24o 是中文大模型测评基准 SuperCLUE 开源的高中奥林匹克数学竞赛级别的数学推理测评基准。主要用于评估大型语言模型在数学推理方面的能力。使用2024年全...

AI Projects12/18/2025

RoboBrain是智源研究院推出的开源具身大脑模型，推动单机智能迈向群体智能。由三个模块组成：用于任务规划的基座模型、用于可操作区域感知的A-LoRA模块和用于...

AI Projects12/18/2025

RoboOS是智源研究院推出的首个跨本体具身大小脑协作框架。基于“大脑-小脑”分层架构，具身大脑RoboBrain负责全局感知与决策，小脑技能库负责低延迟精准执行，...

AI Projects12/18/2025

Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。支持生成1080p高清视频，画质细腻，细节丰富，能...

AI Projects12/18/2025

ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型，解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。将物...

AI Projects12/18/2025

PhysGen3D 是创新的框架，能将单张图像转换为交互式的 3D 场景，生成具有物理真实感的视频。结合了基于图像的几何和语义理解以及基于物理的模拟，通过从单张...

AI Projects12/18/2025

EmotiVoice是网易有道开源的多语言、多声音和提示控制的文本到语音（TTS）系统。EmotiVoice支持英语和中文，提供超过2000种声音，支持基于提示生成带有不同情...

AI Projects12/18/2025

Vibe Draw是开源的 AI 3D建模工具，支持将用户在2D画布上绘制的涂鸦草图转化为精美的3D模型。用户能用文本提示或继续绘制迭代优化模型，一键导出为标准格式（...

......

AI News

AI Projects12/18/2025

Qwen2.5-Omni - 阿里开源的端到端多模态模型

AI Projects12/18/2025

Cosmos-Reason1 - NVIDIA推出的系列多模态大语言模型

Cosmos-Reason1 是NVIDIA推出的系列多模态大语言模型，模型能生成基于物理现实的响应。Cosmos-Reason1 包含两个模型：Cosmos-Reason1-7B 和 Cosmos-Reason1-5...

AI Projects12/18/2025

RF-DETR - Roboflow推出的实时目标检测模型

AI Projects12/18/2025

Bolt3D - 牛津大学联合谷歌推出的 3D 场景生成技术

AI Projects12/18/2025

Piece it Together - Bria AI等机构推出的图像生成框架

AI Projects12/18/2025

TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流（Rectified Flow, RF）模型的高保真 3D 形状合成技术，通过大规模修正流变换器架构、混合监督训练...

AI Projects12/18/2025

......

All Categories

AI News

Qwen2.5-Omni - 阿里开源的端到端多模态模型

Cosmos-Reason1 - NVIDIA推出的系列多模态大语言模型

RF-DETR - Roboflow推出的实时目标检测模型

Bolt3D - 牛津大学联合谷歌推出的 3D 场景生成技术

Piece it Together - Bria AI等机构推出的图像生成框架

AI News

Qwen2.5-Omni - 阿里开源的端到端多模态模型

Cosmos-Reason1 - NVIDIA推出的系列多模态大语言模型

RF-DETR - Roboflow推出的实时目标检测模型

Bolt3D - 牛津大学联合谷歌推出的 3D 场景生成技术

Piece it Together - Bria AI等机构推出的图像生成框架

TripoSR - Stability AI 联合 VAST 开源的 3D 生成模型

ModelEngine - 华为开源的全流程 AI 开发工具链

BizGen - 清华大学联合微软推出的AI信息图生成工具

Ideogram 3.0 - Ideogram推出的 AI 图像生成模型

QVQ-Max - 阿里通义推出的视觉推理模型

TxGemma - 谷歌推出的通用医学治疗大模型

TripoSG - VAST AI 开源的高保真 3D 形状合成技术

TripoSF - VAST AI 开源的新一代 3D 基础模型

DistilQwen2.5-R1 - 阿里推出的小型系列深度推理模型

PaddleSpeech - 百度飞桨团队开源的语音处理工具

ChatAnyone - 阿里通义推出的实时风格化肖像视频生成框架

Math24o - SuperCLUE 开源的高中奥林匹克数学竞赛推理测评基准

RoboBrain - 智源研究院开源的具身大脑模型

RoboOS - 智源研究院推出的首个跨本体具身大小脑协作框架

Vidu Q1 - 生数科技推出的高可控视频大模型

ObjectMover - 港大联合 Adobe 推出的新型图像编辑模型

PhysGen3D - 清华等高校联合推出的单图创建交互式 3D 场景

EmotiVoice - 网易有道开源的AI语音合成系统

Vibe Draw - AI 3D建模工具，涂鸦草图一键转为3D模型