AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

VideoChat-Flash - 上海 AI Lab 等机构推出针对长视频建模的多模态大模型

VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言模型（MLLM），模型通过分层压缩技术（HiCo）高效处理长视频...

AI Projects12/18/2025

EmoLLM - 专注于心理健康支持的大语言模型

EmoLLM 是专注于心理健康支持的大型语言模型，通过多模态情感理解为用户提供情绪辅导和心理支持。结合了文本、图像、视频等多种数据形式，基于先进的多视角视...

AI Projects12/18/2025

Step-Video V2 - 阶跃星辰推出的升级版视频生成模型

Step-Video V2 是上海阶跃星辰智能科技发布的升级版视频生成模型。该版本在多个核心技术领域进行了优化和创新，采用了更高压缩比的VAE模型以及深度优化的DiT...

AI Projects12/18/2025

UI-TARS - 字节跳动推出的开源原生 GUI 代理模型

UI-TARS 是字节跳动推出的新一代原生图形用户界面（GUI）代理模型，通过自然语言实现对桌面、移动设备和网页界面的自动化交互。具备强大的感知、推理、行动和...

AI Projects12/18/2025

EMO2 - 阿里研究院推出的音频驱动头像视频生成技术

EMO2 （End-Effector Guided Audio-Driven Avatar Video Generation）是阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术，全称为“末端效应器引导的音...

AI Projects12/18/2025

PaSa - 字节跳动推出的学术论文检索智能体

PaSa是字节跳动研究团队（ByteDance Research）推出的基于强化学习的学术论文检索智能体。能模仿人类研究者的行为，自动调用搜索引擎、浏览相关论文并追踪引...

AI Projects12/18/2025

Baichuan-M1-preview - 百川智能推出的国内首个全场景深度思考模型

Baichuan-M1-preview 是百川智能推出的国内首个全场景深度思考模型。模型具备语言、视觉和搜索三大领域的推理能力，在数学、代码等多个权威评测中表现优异，...

AI Projects12/18/2025

TokenVerse - DeepMind等机构推出的多概念个性化图像生成方法

TokenVerse 是基于预训练文本到图像扩散模型的多概念个性化图像生成方法。能从单张图像中解耦复杂的视觉元素和属性，从多张图像中提取概念进行无缝组合生成。...

AI Projects12/18/2025

Baichuan-M1-14B - 百川智能推出的行业首个开源医疗增强大模型

Baichuan-M1-14B是百川智能推出的行业首个开源医疗增强大模型，医疗能力超越了更大参数量的Qwen2.5-72B，与o1-mini相差无几。专为医疗场景优化，同时具备强大...

AI Projects12/18/2025

CogVideoX-2 - 智谱 AI 推出的文本到视频生成模型

CogVideoX-2 是智谱 AI开源的文本到视频生成模型，基于先进的 3D 变分自编码器（VAE），将视频数据压缩到原本的 2%，减少资源使用，同时确保视频帧之间的连贯...

AI Projects12/18/2025

CogView-4 - 智谱AI推出的文本到图像生成模型

CogView-4是智谱AI推出的文本到图像生成模型，基于 Transformer 架构的扩散模型，用于生成高质量图像。通过优化参数规模和使用高质量图像微调数据集，能生成...

AI Projects12/18/2025

llmware - 专为企业级应用设计的开源统一框架

llmware是为企业级应用设计的统一框架，适用于构建基于小型、专门化模型的RAG（Retrieval-Augmented Generation）流程。llmware支持私有部署，能安全集成企业...

AI Projects12/18/2025

FilmAgent - 哈工大联合清华推出的AI电影自动化制作工具

FilmAgent是哈尔滨工业大学（深圳）的研究团队开发的基于多智能体协作框架的虚拟电影制作工具，通过自动化流程实现虚拟3D空间中的端到端电影制作。模拟传统电...

AI Projects12/18/2025

Whisper Input - 开源AI语音输入工具，支持多语言实时转录和翻译

Whisper Input 是开源的语音输入工具，基于 Python 和 OpenAI 的 Whisper 模型开发。通过简单的快捷键操作（如按下 Option 键开始录音，松开结束录音），实现...

AI Projects12/18/2025

Fast3R - Meta 联合密歇根大学推出的多视图3D重建方法

Fast3R是Meta和密歇根大学的研究人员提出的新型的多视图3D重建方法，基于Transformer架构，能在一个前向传播过程中处理1000多张图像，实现高效且可扩展的3D重...

AI Projects12/18/2025

Tarsier2 - 字节跳动推出的视觉理解大模型

Tarsier2是字节跳动推出的先进的大规模视觉语言模型（LVLM），生成详细且准确的视频描述，在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升...

AI Projects12/18/2025

VideoLLaMA3 - 阿里达摩院推出的多模态基础模型

VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型，专注于图像和视频理解。基于 Qwen 2.5 架构，结合了先进的视觉编码器（如 SigLip）和强大的语言生成能力，...

AI Projects12/18/2025

Baichuan-Omni-1.5 - 百川智能开源的全模态理解模型

Baichuan-Omni-1.5 是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解，具备文本和音频的双模态生成能力。模型在视觉、语音及多模态流式...

AI Projects12/18/2025

TeleAI-t1-preview - 中国电信推出的复杂推理大模型

TeleAI-t1-preview是中国电信人工智能研究院发布的“复杂推理大模型”，具备强大的逻辑推理与数学推导能力。通过强化学习训练方法，引入探索、反思等思考范式，...

AI Projects12/18/2025

Qwen2.5-1M - 阿里通义千问开源的语言模型，支持100万Tokens上下文

Qwen2.5-1M是阿里通义千问团队推出的开源模型，支持100万Tokens的上下文长度。模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M两个模型。在长上下...

AI Projects12/18/2025

DiffuEraser - 阿里通义实验室推出的视频修复模型

DiffuEraser是基于稳定扩散模型的视频修复模型，以更丰富的细节和更连贯的结构填充视频中的遮罩区域。模型通过结合先验信息来提供初始化和弱条件，有助于减少...

AI Projects12/18/2025

Janus-Pro - DeepSeek 开源的统一多模态模型

Janus-Pro是 DeepSeek 推出的开源AI模型，支持图像理解和图像生成，提供 1B 和 7B 两种规模，适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模...

AI Projects12/18/2025

Qwen2.5-VL - 阿里通义千问开源的视觉语言模型

Qwen2.5-VL是阿里通义千问团队开源的旗舰视觉语言模型，具有3B、7B和72B三种不同规模。模型在视觉理解方面表现出色，能识别常见物体，分析图像中的文本、图表...

AI Projects12/18/2025

QVQ-72B-Preview - 阿里通义开源的多模态推理模型

QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型，专注于提升视觉推理能力。模型在多个基准测试中表现出色，在多模态理解和推理任务上展现了强大...

←1...74 75 76 77 78 79 80...137 →

AI News

AI Projects12/18/2025

All Categories

AI News

VideoChat-Flash - 上海 AI Lab 等机构推出针对长视频建模的多模态大模型

EmoLLM - 专注于心理健康支持的大语言模型

Step-Video V2 - 阶跃星辰推出的升级版视频生成模型

UI-TARS - 字节跳动推出的开源原生 GUI 代理模型

EMO2 - 阿里研究院推出的音频驱动头像视频生成技术

PaSa - 字节跳动推出的学术论文检索智能体

Baichuan-M1-preview - 百川智能推出的国内首个全场景深度思考模型

TokenVerse - DeepMind等机构推出的多概念个性化图像生成方法

Baichuan-M1-14B - 百川智能推出的行业首个开源医疗增强大模型

CogVideoX-2 - 智谱 AI 推出的文本到视频生成模型

CogView-4 - 智谱AI推出的文本到图像生成模型

llmware - 专为企业级应用设计的开源统一框架

FilmAgent - 哈工大联合清华推出的AI电影自动化制作工具

Whisper Input - 开源AI语音输入工具，支持多语言实时转录和翻译

Fast3R - Meta 联合密歇根大学推出的多视图3D重建方法

Tarsier2 - 字节跳动推出的视觉理解大模型

VideoLLaMA3 - 阿里达摩院推出的多模态基础模型

Baichuan-Omni-1.5 - 百川智能开源的全模态理解模型

TeleAI-t1-preview - 中国电信推出的复杂推理大模型

Qwen2.5-1M - 阿里通义千问开源的语言模型，支持100万Tokens上下文

DiffuEraser - 阿里通义实验室推出的视频修复模型

Janus-Pro - DeepSeek 开源的统一多模态模型

Qwen2.5-VL - 阿里通义千问开源的视觉语言模型

QVQ-72B-Preview - 阿里通义开源的多模态推理模型

AI News

VideoChat-Flash - 上海 AI Lab 等机构推出针对长视频建模的多模态大模型

EmoLLM - 专注于心理健康支持的大语言模型

Step-Video V2 - 阶跃星辰推出的升级版视频生成模型

UI-TARS - 字节跳动推出的开源原生 GUI 代理模型

EMO2 - 阿里研究院推出的音频驱动头像视频生成技术

PaSa - 字节跳动推出的学术论文检索智能体

Baichuan-M1-preview - 百川智能推出的国内首个全场景深度思考模型

TokenVerse - DeepMind等机构推出的多概念个性化图像生成方法

Baichuan-M1-14B - 百川智能推出的行业首个开源医疗增强大模型

CogVideoX-2 - 智谱 AI 推出的文本到视频生成模型

CogView-4 - 智谱AI推出的文本到图像生成模型

llmware - 专为企业级应用设计的开源统一框架

FilmAgent - 哈工大联合清华推出的AI电影自动化制作工具

Whisper Input - 开源AI语音输入工具，支持多语言实时转录和翻译

Fast3R - Meta 联合密歇根大学推出的多视图3D重建方法

Tarsier2 - 字节跳动推出的视觉理解大模型

VideoLLaMA3 - 阿里达摩院推出的多模态基础模型

Baichuan-Omni-1.5 - 百川智能开源的全模态理解模型

TeleAI-t1-preview - 中国电信推出的复杂推理大模型

Qwen2.5-1M - 阿里通义千问开源的语言模型，支持100万Tokens上下文

DiffuEraser - 阿里通义实验室推出的视频修复模型

Janus-Pro - DeepSeek 开源的统一多模态模型

Qwen2.5-VL - 阿里通义千问开源的视觉语言模型

QVQ-72B-Preview - 阿里通义开源的多模态推理模型