AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

CSM - Sesame团队推出的语音对话模型

CSM（Conversational Speech Model）是Sesame团队推出的新型语音对话模型，提升语音助手的自然度和情感交互能力。CSM基于多模态学习框架，结合文本和语音数据...

AI Projects12/18/2025

AgiBot Digital World - 智元机器人推出的机器人仿真框架

AgiBot Digital World 是智元机器人推出的高保真机器人仿真框架，为机器人操作技能研究与应用提供高效支持。AgiBot Digital World集成海量逼真的三维资产、多...

AI Projects12/18/2025

ARTalk - 东京大学等机构推出的3D头部动画生成框架

ARTalk是东京大学和日本理化学研究所推出的新型语音驱动3D头部动画生成框架，基于自回归模型实现实时、高同步性的唇部动作和自然的面部表情及头部姿势生成。A...

AI Projects12/18/2025

LuminaBrush - AI光源绘制工具，手绘光影线条自动生成光影效果

LuminaBrush 是用在图像上绘制照明效果的交互式工具。LuminaBrush基于 Flux 文生图项目，用两阶段方法：第一阶段将图像转换为“均匀照明”的外观，第二阶段根据...

AI Projects12/18/2025

HumanOmni - 阿里通义等推出专注人类中心场景的多模态大模型

HumanOmni 是专注于人类中心场景的多模态大模型，视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入，能全面理解人类行为、情感和交互。模型基于...

AI Projects12/18/2025

Spark-TTS 是SparkAudio 团队开源的基于大型语言模型（LLM）的高效文本转语音（TTS）工具，无需额外的生成模型，直接从 LLM 预测的编码中重建音频，实现零样...

AI Projects12/18/2025

ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理，解决传统方法在处理复杂...

AI Projects12/18/2025

Shandu 是开源的 AI 研究自动化工具，结合了 LangChain 和 LangGraph 技术，能自动化地进行多层次信息挖掘和分析，生成结构化的研究报告。Shandu 的核心功能...

AI Projects12/18/2025

LCVD（Lighting Controllable Video Diffusion Model）是四川大学推出的高保真、光照可控的肖像动画生成框架。LCVD基于分离肖像的内在特征（如身份和外观）与...

AI Projects12/18/2025

SepLLM是香港大学、华为诺亚方舟实验室等机构联合提出的用于加速大语言模型（LLM）的高效框架，通过压缩段落信息并消除冗余标记，显著提高了模型的推理速度和...

AI Projects12/18/2025

CogView4 是智谱推出的开源文生图模型，具有60亿参数，支持原生中文输入和中文文字生成。模型在 DPG-Bench 基准测试中综合评分排名第一，达到开源文生图模型...

AI Projects12/18/2025

PRefLexOR（Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning）是MIT团队提出的新型自学习AI框架，结合了偏好优化...

AI Projects12/18/2025

Probly 是 AI 驱动的电子表格工具，结合电子表格功能与 Python 数据分析能力。Probly基于 WebAssembly 在浏览器中运行 Python 代码，支持交互式电子表格、数...

AI Projects12/18/2025

MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型，能将脑部功能性磁共振成像（fMRI）信号解码为自然语言文本。MindLLM基于一个主体无关（subjec...

AI Projects12/18/2025

MiniMind 是开源的超小型语言模型项目，极低成本帮助个人开发者从零开始训练自己的语言模型。MiniMind 基于轻量级设计，最小版本仅需25.8M参数，体积仅为GPT-...

AI Projects12/18/2025

Fractal Generative Models（分形生成模型）是麻省理工学院计算机科学与人工智能实验室和Google DeepMind团队推出的新型图像生成方法。Fractal Generative Mo...

AI Projects12/18/2025

Image-01 是 MiniMax 推出的先进文本到图像生成模型，具备卓越的图像生成能力。能将用户输入的文本描述精准转化为高质量图像，支持多种纵横比和高分辨率输出...

AI Projects12/18/2025

SuperGPQA 是字节跳动豆包大模型团队联合 M-A-P 推出的全面覆盖 285 个研究生级学科、包含 26529 道专业题目的知识推理基准测试集。解决传统评测基准学科覆盖...

AI Projects12/18/2025

SpeciesNet 是 Google 开源的人工智能模型，通过分析相机陷阱拍摄的照片来识别动物物种。基于超过 6500 万张图像训练而成，能识别超过 2000 种标签，包括动物...

AI Projects12/18/2025

GaussianCity 是南洋理工大学 S-Lab 团队推出的高效无边界3D城市生成框架，基于3D高斯绘制（3D-GS）技术。引入紧凑的 BEV-Point 表示方法，将场景的显存（VRA...

AI Projects12/18/2025

Asyncflow v1.0 是播客平台 Podcastle 推出的 AI 文本转语音模型。支持超过 450 种语音选项，能为文本内容生成高质量的语音朗读，适用于多种语言和风格。

AI Projects12/18/2025

ART（Anonymous Region Transformer）是新型的多层透明图像生成技术，能根据全局文本提示和匿名区域布局直接生成多个独立的透明图层（支持 RGBA 格式），图...

AI Projects12/18/2025

NextGenAI是OpenAI推出的全球性联盟，基于AI技术推动教育和研究的进步。NextGenAI联合包括哈佛大学、麻省理工学院、牛津大学等在内的15所顶尖大学和机构，Ope...

AI Projects12/18/2025

NotaGen 是中央音乐学院、北京航空航天大学、清华大学等机构推出的音乐生成模型，基于模仿大型语言模型（LLM）的训练范式生成高质量的古典乐谱。NotaGen 基于...

......

AI News

AI Projects12/18/2025

CSM - Sesame团队推出的语音对话模型

AI Projects12/18/2025

AgiBot Digital World - 智元机器人推出的机器人仿真框架

AI Projects12/18/2025

ARTalk - 东京大学等机构推出的3D头部动画生成框架

AI Projects12/18/2025

LuminaBrush - AI光源绘制工具，手绘光影线条自动生成光影效果

AI Projects12/18/2025

HumanOmni - 阿里通义等推出专注人类中心场景的多模态大模型

AI Projects12/18/2025

LCVD（Lighting Controllable Video Diffusion Model）是四川大学推出的高保真、光照可控的肖像动画生成框架。LCVD基于分离肖像的内在特征（如身份和外观）与...

AI Projects12/18/2025

PRefLexOR（Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning）是MIT团队提出的新型自学习AI框架，结合了偏好优化...

AI Projects12/18/2025

Probly 是 AI 驱动的电子表格工具，结合电子表格功能与 Python 数据分析能力。Probly基于 WebAssembly 在浏览器中运行 Python 代码，支持交互式电子表格、数...

AI Projects12/18/2025

Fractal Generative Models（分形生成模型）是麻省理工学院计算机科学与人工智能实验室和Google DeepMind团队推出的新型图像生成方法。Fractal Generative Mo...

AI Projects12/18/2025

Asyncflow v1.0 是播客平台 Podcastle 推出的 AI 文本转语音模型。支持超过 450 种语音选项，能为文本内容生成高质量的语音朗读，适用于多种语言和风格。

AI Projects12/18/2025

......

All Categories

AI News

CSM - Sesame团队推出的语音对话模型

AgiBot Digital World - 智元机器人推出的机器人仿真框架

ARTalk - 东京大学等机构推出的3D头部动画生成框架

LuminaBrush - AI光源绘制工具，手绘光影线条自动生成光影效果

HumanOmni - 阿里通义等推出专注人类中心场景的多模态大模型

AI News

CSM - Sesame团队推出的语音对话模型

AgiBot Digital World - 智元机器人推出的机器人仿真框架

ARTalk - 东京大学等机构推出的3D头部动画生成框架

LuminaBrush - AI光源绘制工具，手绘光影线条自动生成光影效果

HumanOmni - 阿里通义等推出专注人类中心场景的多模态大模型

Spark-TTS - AI文本转语音工具，支持中英零样本语音克隆

ViDoRAG - 通义联合中科大、上交大推出的视觉文档检索增强生成框架

Shandu - AI研究工具，自动进行多层次信息挖掘和分析

LCVD - 川大推出的光照可控肖像动画生成框架

SepLLM - 基于分隔符压缩加速大语言模型的高效框架

CogView4 - 智谱开源的AI文生图模型，支持生成汉字

PRefLexOR - MIT 团队推出的新型自学习AI框架

Probly - AI电子表格工具，交互式生成分析结果或可视化图表

MindLLM - 耶鲁联合剑桥等机构推出的医疗领域 AI 模型

MiniMind - 开源的AI模型训练工具，2小时训练25.8M小模型

Fractal Generative Models - 麻省理工推出的分形生成模型

Image-01 - MiniMax 推出的文本到图像生成模型

SuperGPQA - 豆包大模型联合 M-A-P 开源的知识推理基准测试集

SpeciesNet - Google 开源的动物物种识别 AI 模型

GaussianCity - 南洋理工大学 S-Lab 团队推出的 3D 城市生成框架

Asyncflow v1.0 - Podcastle 推出的 AI 文本转语音模型

ART - 微软联合清华和北大等推出的多层透明图像生成技术

NextGenAI - OpenAI 推出的教育联盟，联合15家顶尖大学和机构

NotaGen - 中央音乐学院联合北航、清华等推出的音乐生成模型