AIニュース

すべてニュースチュートリアル Wiki AIプロジェクト AIアプリ

AIプロジェクト2025/12/18

DITTO-2 - Adobe 联合加大推出的音乐生成模型

DITTO-2 是 Adobe 和加州大学研究人员联合推出的新型音乐生成模型，通过优化扩散模型的推理时间，实现快速且可控的音乐生成。模型基于扩散模型的推理时间优化...

AIプロジェクト2025/12/18

DiffEditor - 北大联合腾讯推出的细粒度图像编辑工具

DiffEditor是北京大学深圳研究生院与腾讯PCG的研究团队提出的基于扩散模型（Diffusion Model）的图像编辑工具，通过引入图像提示（image prompts）和文本提示...

AIプロジェクト2025/12/18

Textoon - 阿里通义实验室推出的文本提示生成2D卡通人物工具

Textoon 是阿里巴巴集团通义实验室推出的创新项目，首个能根据文本提示生成Live2D格式2D卡通角色的方法。基于先进的语言和视觉模型，能在一分钟内生成多样化...

AIプロジェクト2025/12/18

子曰-o1 - 网易有道推出国内首个输出分步式讲解的推理模型

子曰-o1是网易有道发布的国内首个输出分步式讲解的推理模型。模型采用14B轻量级架构，专为消费级显卡设计，能在低显存设备上稳定运行。通过思维链技术，模拟...

AIプロジェクト2025/12/18

豆包大模型1.5 - 字节跳动推出的最新版大模型

豆包大模型1.5 是字节跳动推出的最新版本大模型。采用大规模稀疏MoE架构，等效于7倍激活参数的Dense模型性能，综合得分在知识、代码、推理、中文等多个测评基...

AIプロジェクト2025/12/18

OmniManip - 智元机器人联合北大推出的通用机器人操作框架

OmniManip 是北京大学与智元机器人联合实验室开发的通用机器人操作框架，通过结合视觉语言模型（VLM）的高层次推理能力和精确的三维操作能力，实现机器人在非...

AIプロジェクト2025/12/18

WebWalker - 阿里推出用于评估LLMs在网页浏览任务中性能的基准工具

WebWalker是阿里巴巴自然语言处理团队开发的用于评估和提升大型语言模型（LLMs）在网页浏览任务中性能的工具。通过模拟网页导航任务，帮助模型更好地处理长上...

AIプロジェクト2025/12/18

VideoChat-Flash - 上海 AI Lab 等机构推出针对长视频建模的多模态大模型

VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言模型（MLLM），模型通过分层压缩技术（HiCo）高效处理长视频...

AIプロジェクト2025/12/18

EmoLLM - 专注于心理健康支持的大语言模型

EmoLLM 是专注于心理健康支持的大型语言模型，通过多模态情感理解为用户提供情绪辅导和心理支持。结合了文本、图像、视频等多种数据形式，基于先进的多视角视...

AIプロジェクト2025/12/18

Step-Video V2 - 阶跃星辰推出的升级版视频生成模型

Step-Video V2 是上海阶跃星辰智能科技发布的升级版视频生成模型。该版本在多个核心技术领域进行了优化和创新，采用了更高压缩比的VAE模型以及深度优化的DiT...

AIプロジェクト2025/12/18

UI-TARS - 字节跳动推出的开源原生 GUI 代理模型

UI-TARS 是字节跳动推出的新一代原生图形用户界面（GUI）代理模型，通过自然语言实现对桌面、移动设备和网页界面的自动化交互。具备强大的感知、推理、行动和...

AIプロジェクト2025/12/18

EMO2 - 阿里研究院推出的音频驱动头像视频生成技术

EMO2 （End-Effector Guided Audio-Driven Avatar Video Generation）是阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术，全称为“末端效应器引导的音...

AIプロジェクト2025/12/18

PaSa - 字节跳动推出的学术论文检索智能体

PaSa是字节跳动研究团队（ByteDance Research）推出的基于强化学习的学术论文检索智能体。能模仿人类研究者的行为，自动调用搜索引擎、浏览相关论文并追踪引...

AIプロジェクト2025/12/18

Baichuan-M1-preview - 百川智能推出的国内首个全场景深度思考模型

Baichuan-M1-preview 是百川智能推出的国内首个全场景深度思考模型。模型具备语言、视觉和搜索三大领域的推理能力，在数学、代码等多个权威评测中表现优异，...

AIプロジェクト2025/12/18

TokenVerse - DeepMind等机构推出的多概念个性化图像生成方法

TokenVerse 是基于预训练文本到图像扩散模型的多概念个性化图像生成方法。能从单张图像中解耦复杂的视觉元素和属性，从多张图像中提取概念进行无缝组合生成。...

AIプロジェクト2025/12/18

Baichuan-M1-14B - 百川智能推出的行业首个开源医疗增强大模型

Baichuan-M1-14B是百川智能推出的行业首个开源医疗增强大模型，医疗能力超越了更大参数量的Qwen2.5-72B，与o1-mini相差无几。专为医疗场景优化，同时具备强大...

AIプロジェクト2025/12/18

CogVideoX-2 - 智谱 AI 推出的文本到视频生成模型

CogVideoX-2 是智谱 AI开源的文本到视频生成模型，基于先进的 3D 变分自编码器（VAE），将视频数据压缩到原本的 2%，减少资源使用，同时确保视频帧之间的连贯...

AIプロジェクト2025/12/18

CogView-4 - 智谱AI推出的文本到图像生成模型

CogView-4是智谱AI推出的文本到图像生成模型，基于 Transformer 架构的扩散模型，用于生成高质量图像。通过优化参数规模和使用高质量图像微调数据集，能生成...

AIプロジェクト2025/12/18

llmware - 专为企业级应用设计的开源统一框架

llmware是为企业级应用设计的统一框架，适用于构建基于小型、专门化模型的RAG（Retrieval-Augmented Generation）流程。llmware支持私有部署，能安全集成企业...

AIプロジェクト2025/12/18

FilmAgent - 哈工大联合清华推出的AI电影自动化制作工具

FilmAgent是哈尔滨工业大学（深圳）的研究团队开发的基于多智能体协作框架的虚拟电影制作工具，通过自动化流程实现虚拟3D空间中的端到端电影制作。模拟传统电...

AIプロジェクト2025/12/18

Whisper Input - 开源AI语音输入工具，支持多语言实时转录和翻译

Whisper Input 是开源的语音输入工具，基于 Python 和 OpenAI 的 Whisper 模型开发。通过简单的快捷键操作（如按下 Option 键开始录音，松开结束录音），实现...

AIプロジェクト2025/12/18

Fast3R - Meta 联合密歇根大学推出的多视图3D重建方法

Fast3R是Meta和密歇根大学的研究人员提出的新型的多视图3D重建方法，基于Transformer架构，能在一个前向传播过程中处理1000多张图像，实现高效且可扩展的3D重...

AIプロジェクト2025/12/18

Tarsier2 - 字节跳动推出的视觉理解大模型

Tarsier2是字节跳动推出的先进的大规模视觉语言模型（LVLM），生成详细且准确的视频描述，在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升...

AIプロジェクト2025/12/18

VideoLLaMA3 - 阿里达摩院推出的多模态基础模型

VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型，专注于图像和视频理解。基于 Qwen 2.5 架构，结合了先进的视觉编码器（如 SigLip）和强大的语言生成能力，...

←1...74 75 76 77 78 79 80...137 →

AIニュース

AIプロジェクト2025/12/18

すべてのカテゴリ

AIニュース

DITTO-2 - Adobe 联合加大推出的音乐生成模型

DiffEditor - 北大联合腾讯推出的细粒度图像编辑工具

Textoon - 阿里通义实验室推出的文本提示生成2D卡通人物工具

子曰-o1 - 网易有道推出国内首个输出分步式讲解的推理模型

豆包大模型1.5 - 字节跳动推出的最新版大模型

OmniManip - 智元机器人联合北大推出的通用机器人操作框架

WebWalker - 阿里推出用于评估LLMs在网页浏览任务中性能的基准工具

VideoChat-Flash - 上海 AI Lab 等机构推出针对长视频建模的多模态大模型

EmoLLM - 专注于心理健康支持的大语言模型

Step-Video V2 - 阶跃星辰推出的升级版视频生成模型

UI-TARS - 字节跳动推出的开源原生 GUI 代理模型

EMO2 - 阿里研究院推出的音频驱动头像视频生成技术

PaSa - 字节跳动推出的学术论文检索智能体

Baichuan-M1-preview - 百川智能推出的国内首个全场景深度思考模型

TokenVerse - DeepMind等机构推出的多概念个性化图像生成方法

Baichuan-M1-14B - 百川智能推出的行业首个开源医疗增强大模型

CogVideoX-2 - 智谱 AI 推出的文本到视频生成模型

CogView-4 - 智谱AI推出的文本到图像生成模型

llmware - 专为企业级应用设计的开源统一框架

FilmAgent - 哈工大联合清华推出的AI电影自动化制作工具

Whisper Input - 开源AI语音输入工具，支持多语言实时转录和翻译

Fast3R - Meta 联合密歇根大学推出的多视图3D重建方法

Tarsier2 - 字节跳动推出的视觉理解大模型

VideoLLaMA3 - 阿里达摩院推出的多模态基础模型

AIニュース

DITTO-2 - Adobe 联合加大推出的音乐生成模型

DiffEditor - 北大联合腾讯推出的细粒度图像编辑工具

Textoon - 阿里通义实验室推出的文本提示生成2D卡通人物工具

子曰-o1 - 网易有道推出国内首个输出分步式讲解的推理模型

豆包大模型1.5 - 字节跳动推出的最新版大模型

OmniManip - 智元机器人联合北大推出的通用机器人操作框架

WebWalker - 阿里推出用于评估LLMs在网页浏览任务中性能的基准工具

VideoChat-Flash - 上海 AI Lab 等机构推出针对长视频建模的多模态大模型

EmoLLM - 专注于心理健康支持的大语言模型

Step-Video V2 - 阶跃星辰推出的升级版视频生成模型

UI-TARS - 字节跳动推出的开源原生 GUI 代理模型

EMO2 - 阿里研究院推出的音频驱动头像视频生成技术

PaSa - 字节跳动推出的学术论文检索智能体

Baichuan-M1-preview - 百川智能推出的国内首个全场景深度思考模型

TokenVerse - DeepMind等机构推出的多概念个性化图像生成方法

Baichuan-M1-14B - 百川智能推出的行业首个开源医疗增强大模型

CogVideoX-2 - 智谱 AI 推出的文本到视频生成模型

CogView-4 - 智谱AI推出的文本到图像生成模型

llmware - 专为企业级应用设计的开源统一框架

FilmAgent - 哈工大联合清华推出的AI电影自动化制作工具

Whisper Input - 开源AI语音输入工具，支持多语言实时转录和翻译

Fast3R - Meta 联合密歇根大学推出的多视图3D重建方法

Tarsier2 - 字节跳动推出的视觉理解大模型

VideoLLaMA3 - 阿里达摩院推出的多模态基础模型