AIニュース

すべてニュースチュートリアル Wiki AIプロジェクト AIアプリ

AIプロジェクト2025/12/18

Fish Speech 1.5 - Fish Audio 推出的语音合成模型，支持13种语言

Fish Speech 1.5 是Fish Audio 推出的文本到语音（TTS）模型，基于深度学习技术如Transformer、VITS、VQVAE和GPT等。Fish Speech 1.5支持英语、日语、韩语、...

AIプロジェクト2025/12/18

ClearerVoice-Studio - 阿里通义实验室开源的语音处理框架

ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架，集成语音增强、分离和音视频说话人提取等功能。框架基于复数域深度学习算法，有效消除...

AIプロジェクト2025/12/18

PaliGemma 2 - 谷歌DeepMind推出的全新视觉语言模型

PaliGemma 2是Google DeepMind基于Gemma 2语言模型家族推出的新一代视觉语言模型（VLM），作为PaliGemma模型的升级版。结合SigLIP-So400m视觉编码器和不同规...

AIプロジェクト2025/12/18

Optimus-1 - 哈工大联合鹏城实验室推出的智能体框架

Optimus-1是哈尔滨工业大学（深圳）和鹏城实验室推出的智能体框架，能解决在开放世界环境中完成长期任务的挑战。框架结合结构化知识和多模态经验，让智能体更...

AIプロジェクト2025/12/18

Fox-1 - TensorOpera 开源的小语言模型系列

Fox-1是TensorOpera推出的一系列小型语言模型（SLMs），包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3万亿个网络抓取的文档数据上预训练，在50亿...

AIプロジェクト2025/12/18

Llama 3.3 - Meta AI推出的纯文本语言模型

Llama 3.3是Meta AI推出的70B 参数模型，大型多语言预训练语言模型，性能与40B参数的Llama 3.1相当。模型专为多语言对话优化，支持英语、德语、法语、意大利...

AIプロジェクト2025/12/18

Aurora - xAI为Grok AI助手推出的新图像生成模型

Aurora是xAI为AI助手Grok新增的图像生成模型。Aurora擅长创建逼真的图像，擅长人物肖像。Aurora能生成包括公共和版权人物在内的图像（如米老鼠）。Aurora 的...

AIプロジェクト2025/12/18

One Shot, One Talk - 中科大联合香港理工推出的动态图像生成技术

One Shot, One Talk是先进的图像生成技术，能从单张图片中生成具有个性化细节的全身动态说话头像，支持逼真的动画效果，包括自然的表情变化和生动的身体动作...

AIプロジェクト2025/12/18

GLM-4V-Flash - 智谱 AI 推出的首个免费多模态模型API

GLM-4V-Flash 是智谱AI推出的首个免费多模态模型API，GLM-4V-Flash 模型拥有图像描述生成、图像分类、视觉推理、视觉问答（VQA）以及图像情感分析等高级图像...

AIプロジェクト2025/12/18

clone-voice - 开源的声音克隆工具，支持16种语言

Clone-voice是开源的声音克隆工具，基于深度学习技术分析和模拟人类声音，实现声音的高质量克隆。工具支持包括中文、英文、日语、韩语等在内的16种语言，能将...

AIプロジェクト2025/12/18

SNOOPI - AI文本到图像生成框架，提升单步扩散模型的效率和性能

SNOOPI是创新的文本到图像生成框架，基于增强单步扩散模型的指导提升模型性能和控制力。SNOOPI包括PG-SB（适当指导 - SwiftBrush）和NASA（负向远离转向注意...

AIプロジェクト2025/12/18

MEMO - 音频驱动的生成肖像说话视频框架，保持身份一致性和表现力

MEMO（Memory-Guided EMOtionaware diffusion）是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架，用在生成具有身份一致性和表现力的...

AIプロジェクト2025/12/18

NVILA - 英伟达推出的视觉语言大模型

NVILA是NVIDIA推出的系列视觉语言模型，能平衡效率和准确性。模型用“先扩展后压缩”策略，有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化...

AIプロジェクト2025/12/18

O1-CODER - 北交大推出的O1代码版开源项目，专注于编码任务

O1-CODER是北京交通大学研究团队推出的开源项目，旨在复制OpenAI的O1模型，专注于编码任务。O1-CODER结合强化学习（RL）和蒙特卡洛树搜索（MCTS）技术，提升...

AIプロジェクト2025/12/18

SOLAMI - 南洋理工推出的VR端3D角色扮演AI系统

SOLAMI是创新的VR端3D角色扮演AI系统，是南洋理工大学研究团队推出的。支持用户用语音和肢体语言与虚拟角色进行沉浸式互动，基于社交视觉-语言-行为模型，提...

AIプロジェクト2025/12/18

Florence-VL - 微软和马里兰大学共同开源的多模态大语言模型

Florence-VL是创新的多模态大型语言模型（MLLMs），是马里兰大学和微软研究院共同推出的。Florence-VL用生成式视觉基础模型Florence-2丰富视觉表示，能捕捉图...

AIプロジェクト2025/12/18

OOTDiffusion - 开源AI虚拟试衣工具，智能适配性别和体型自动调整衣物

OOTDiffusion是开源的AI虚拟试衣工具，能智能适配不同性别和体型，自动调整衣物尺寸和形状，生成自然贴合的试穿效果。OOTDiffusion支持半身和全身试穿模式，...

AIプロジェクト2025/12/18

Willow 量子芯片 - 谷歌推出的最强量子芯片，成功解决30年纠错难题

Willow 量子芯片是谷歌最新推出的具有105个物理量子比特，在量子纠错和计算效率上取得了显著突破。Willow成功解决了量子计算领域近30年的纠错难题，实现了在...

AIプロジェクト2025/12/18

GenMAC - 港大、清华联合微软推出文本到视频生成的多代理协作框架

GenMAC是香港大学、清华大学和微软研究院推出的多代理协作的迭代框架，用在解决文本到视频生成中的复杂场景生成问题。基于将任务分解为设计、生成和重新设计...

AIプロジェクト2025/12/18

Amurex - 开源AI会议助手，提供实时建议、智能摘要、快速回顾关键信息

Amurex是AI会议助手，基于实时建议、智能摘要、关键要点提取、迟到加入回顾和完整会议记录等功能，帮助用户提升会议效率。作为开源工具，Amurex强调透明度、...

AIプロジェクト2025/12/18

易健EasyHealth - 北大健康推出的 AI 健康科普应用

易健EasyHealth是北京大学健康传播专业师生推出的微信小程序，基于大语言模型技术打造的健康科普智能问答系统。程序提供AI智能问答、情感智能算法、健康档案...

AIプロジェクト2025/12/18

See3D - 智源研究院开源的无标注视频学习3D生成模型

See3D（See Video, Get 3D）是北京智源人工智能研究院推出的3D生成模型，能基于大规模无标注的互联网视频进行学习，实现从视频中生成3D内容。与传统依赖相机...

AIプロジェクト2025/12/18

VISION XL - AI视频修复处理工具，修复缺失、支持四倍超分辨率

VISION XL是高效的视频修复和超分辨率工具，基于潜在扩散模型技术，专注于解决高清视频的逆问题。工具能修复视频缺失部分、去除模糊，显著提升视频清晰度，最...

AIプロジェクト2025/12/18

SPDL - Meta AI 推出的开源高性能AI模型数据加载解决方案

SPDL（Scalable and Performant Data Loading）是 Meta AI 推出的开源数据加载工具，能提高 AI 模型训练效率。基于多线程技术，实现高吞吐量数据加载，减少计...

←1...60 61 62 63 64 65 66...137 →

AIニュース

AIプロジェクト2025/12/18

Fish Speech 1.5 - Fish Audio 推出的语音合成模型，支持13种语言

Fish Speech 1.5 是Fish Audio 推出的文本到语音（TTS）模型，基于深度学习技术如Transformer、VITS、VQVAE和GPT等。Fish Speech 1.5支持英语、日语、韩语、...

AIプロジェクト2025/12/18

ClearerVoice-Studio - 阿里通义实验室开源的语音处理框架

AIプロジェクト2025/12/18

PaliGemma 2 - 谷歌DeepMind推出的全新视觉语言模型

PaliGemma 2是Google DeepMind基于Gemma 2语言模型家族推出的新一代视觉语言模型（VLM），作为PaliGemma模型的升级版。结合SigLIP-So400m视觉编码器和不同规...

AIプロジェクト2025/12/18

Optimus-1 - 哈工大联合鹏城实验室推出的智能体框架

AIプロジェクト2025/12/18

Fox-1 - TensorOpera 开源的小语言模型系列

Fox-1是TensorOpera推出的一系列小型语言模型（SLMs），包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3万亿个网络抓取的文档数据上预训练，在50亿...

AIプロジェクト2025/12/18

Llama 3.3 - Meta AI推出的纯文本语言模型

AIプロジェクト2025/12/18

Aurora - xAI为Grok AI助手推出的新图像生成模型

AIプロジェクト2025/12/18

One Shot, One Talk - 中科大联合香港理工推出的动态图像生成技术

AIプロジェクト2025/12/18

GLM-4V-Flash - 智谱 AI 推出的首个免费多模态模型API

AIプロジェクト2025/12/18

clone-voice - 开源的声音克隆工具，支持16种语言

AIプロジェクト2025/12/18

SNOOPI - AI文本到图像生成框架，提升单步扩散模型的效率和性能

AIプロジェクト2025/12/18

MEMO - 音频驱动的生成肖像说话视频框架，保持身份一致性和表现力

MEMO（Memory-Guided EMOtionaware diffusion）是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架，用在生成具有身份一致性和表现力的...

AIプロジェクト2025/12/18

NVILA - 英伟达推出的视觉语言大模型

AIプロジェクト2025/12/18

O1-CODER - 北交大推出的O1代码版开源项目，专注于编码任务

AIプロジェクト2025/12/18

SOLAMI - 南洋理工推出的VR端3D角色扮演AI系统

AIプロジェクト2025/12/18

Florence-VL - 微软和马里兰大学共同开源的多模态大语言模型

AIプロジェクト2025/12/18

OOTDiffusion - 开源AI虚拟试衣工具，智能适配性别和体型自动调整衣物

AIプロジェクト2025/12/18

Willow 量子芯片 - 谷歌推出的最强量子芯片，成功解决30年纠错难题

AIプロジェクト2025/12/18

GenMAC - 港大、清华联合微软推出文本到视频生成的多代理协作框架

AIプロジェクト2025/12/18

Amurex - 开源AI会议助手，提供实时建议、智能摘要、快速回顾关键信息

AIプロジェクト2025/12/18

易健EasyHealth - 北大健康推出的 AI 健康科普应用

AIプロジェクト2025/12/18

See3D - 智源研究院开源的无标注视频学习3D生成模型

AIプロジェクト2025/12/18

VISION XL - AI视频修复处理工具，修复缺失、支持四倍超分辨率

AIプロジェクト2025/12/18

SPDL - Meta AI 推出的开源高性能AI模型数据加载解决方案

SPDL（Scalable and Performant Data Loading）是 Meta AI 推出的开源数据加载工具，能提高 AI 模型训练效率。基于多线程技术，实现高吞吐量数据加载，减少计...

すべてのカテゴリ

AIニュース

Fish Speech 1.5 - Fish Audio 推出的语音合成模型，支持13种语言

ClearerVoice-Studio - 阿里通义实验室开源的语音处理框架

PaliGemma 2 - 谷歌DeepMind推出的全新视觉语言模型

Optimus-1 - 哈工大联合鹏城实验室推出的智能体框架

Fox-1 - TensorOpera 开源的小语言模型系列

Llama 3.3 - Meta AI推出的纯文本语言模型

Aurora - xAI为Grok AI助手推出的新图像生成模型

One Shot, One Talk - 中科大联合香港理工推出的动态图像生成技术

GLM-4V-Flash - 智谱 AI 推出的首个免费多模态模型API

clone-voice - 开源的声音克隆工具，支持16种语言

SNOOPI - AI文本到图像生成框架，提升单步扩散模型的效率和性能

MEMO - 音频驱动的生成肖像说话视频框架，保持身份一致性和表现力

NVILA - 英伟达推出的视觉语言大模型

O1-CODER - 北交大推出的O1代码版开源项目，专注于编码任务

SOLAMI - 南洋理工推出的VR端3D角色扮演AI系统

Florence-VL - 微软和马里兰大学共同开源的多模态大语言模型

OOTDiffusion - 开源AI虚拟试衣工具，智能适配性别和体型自动调整衣物

Willow 量子芯片 - 谷歌推出的最强量子芯片，成功解决30年纠错难题

GenMAC - 港大、清华联合微软推出文本到视频生成的多代理协作框架

Amurex - 开源AI会议助手，提供实时建议、智能摘要、快速回顾关键信息

易健EasyHealth - 北大健康推出的 AI 健康科普应用

See3D - 智源研究院开源的无标注视频学习3D生成模型

VISION XL - AI视频修复处理工具，修复缺失、支持四倍超分辨率

SPDL - Meta AI 推出的开源高性能AI模型数据加载解决方案

AIニュース

Fish Speech 1.5 - Fish Audio 推出的语音合成模型，支持13种语言

ClearerVoice-Studio - 阿里通义实验室开源的语音处理框架

PaliGemma 2 - 谷歌DeepMind推出的全新视觉语言模型

Optimus-1 - 哈工大联合鹏城实验室推出的智能体框架

Fox-1 - TensorOpera 开源的小语言模型系列

Llama 3.3 - Meta AI推出的纯文本语言模型

Aurora - xAI为Grok AI助手推出的新图像生成模型

One Shot, One Talk - 中科大联合香港理工推出的动态图像生成技术

GLM-4V-Flash - 智谱 AI 推出的首个免费多模态模型API

clone-voice - 开源的声音克隆工具，支持16种语言

SNOOPI - AI文本到图像生成框架，提升单步扩散模型的效率和性能

MEMO - 音频驱动的生成肖像说话视频框架，保持身份一致性和表现力

NVILA - 英伟达推出的视觉语言大模型

O1-CODER - 北交大推出的O1代码版开源项目，专注于编码任务

SOLAMI - 南洋理工推出的VR端3D角色扮演AI系统

Florence-VL - 微软和马里兰大学共同开源的多模态大语言模型

OOTDiffusion - 开源AI虚拟试衣工具，智能适配性别和体型自动调整衣物

Willow 量子芯片 - 谷歌推出的最强量子芯片，成功解决30年纠错难题

GenMAC - 港大、清华联合微软推出文本到视频生成的多代理协作框架

Amurex - 开源AI会议助手，提供实时建议、智能摘要、快速回顾关键信息

易健EasyHealth - 北大健康推出的 AI 健康科普应用

See3D - 智源研究院开源的无标注视频学习3D生成模型

VISION XL - AI视频修复处理工具，修复缺失、支持四倍超分辨率

SPDL - Meta AI 推出的开源高性能AI模型数据加载解决方案