AIニュース

すべてニュースチュートリアル Wiki AIプロジェクト AIアプリ

AIプロジェクト2025/12/18

CausVid - Adobe 联合 MIT 推出的自回归实时视频生成技术

CausVid是Adobe和MIT共同推出的自回归实时视频生成技术，能实现视频的即时播放。基于蒸馏预训练的双向扩散模型构建出自回归生成模型，减少视频生成的延迟，首...

AIプロジェクト2025/12/18

ClotheDreamer - 上海大学联合腾讯等高校推出的3D服装生成技术

ClotheDreamer是上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出的3D服装生成技术，能根据文本描述生成高保真、可穿戴的3D服装资产。ClotheDreame...

AIプロジェクト2025/12/18

Director - 构建视频智能体AI框架，用自然语言执行搜索、总结等复杂视频任务

Director是构建视频智能体的框架，用户能用自然语言命令执行复杂的视频任务，如视频搜索、编辑、合成和生成，并能即时流式传输结果。基于VideoDB的“视频即数...

AIプロジェクト2025/12/18

DeepSeek-V2.5-1210 - DeepSeek V2.5 的最终版微调模型，支持联网搜索

DeepSeek-V2.5-1210是DeepSeek 推出的 DeepSeek V2 系列收官AI模型，DeepSeek V2.5 的最终版微调模型。模型基于Post-Training迭代，在数学、编程、写作和角色...

AIプロジェクト2025/12/18

EXAONE 3.5 - LG 推出的开源AI模型，擅长长文本处理降低模型幻觉问题

EXAONE 3.5是LG AI研究院推出的开源AI模型，包含24亿、78亿和320亿参数的三个版本。EXAONE 3.5擅长长文本处理，在基准测试中表现优异，特别是在实际应用、长...

AIプロジェクト2025/12/18

DrivingDojo - 中科院联合美团推出的交互式驾驶世界模型数据集

DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集，用在训练和研究复杂的自动驾驶交互式世界模型。数据集包含18,000个视频片段，覆盖完...

AIプロジェクト2025/12/18

FineWeb 2 - Hugging Face推出的多语言预训练数据集

FineWeb 2是Hugging Face推出的多语言预训练数据集，覆盖超过1000种语言。FineWeb 2基于定制化的数据管道处理，包括语言识别、去重、内容过滤和PII匿名化，适...

AIプロジェクト2025/12/18

Gemini 2.0 - 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型

Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型，以多模态输入输出和Agent技术为核心，速度比 1.5 Pro快两倍...

AIプロジェクト2025/12/18

书生·万象InternVL 2.5 - 上海 AI Lab 开源的多模态大语言模型系列

书生·万象InternVL 2.5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言模型（MLLM）系列。该系列模型在InternVL 2.0的基础上进行显著增强，特别是在...

AIプロジェクト2025/12/18

ChatTTSPlus - 开源文本转语音工具，ChatTTS扩展版支持语音克隆

ChatTTSPlus是ChatTTS的扩展版本，基于集成TensorRT加速、语音克隆和移动模型部署等先进技术，提升语音合成的性能和灵活性。在Windows平台上，能实现超过3倍...

AIプロジェクト2025/12/18

MMAudio - 基于多模态联合训练实现高质量 AI 音频合成项目

MMAudio是先进视频到音频合成技术，基于多模态联合训练，让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块，确保生成的音频与视频帧精...

AIプロジェクト2025/12/18

Ultravox - 端到端多模态大模型，直接理解文本和人类语音

Ultravox是新型的多模态大型语言模型（LLM），能直接理解文本和人类语音，无需依赖单独的自动语音识别（ASR）阶段。基于多模态投影器技术将音频数据转换为高...

AIプロジェクト2025/12/18

Project Mariner - 谷歌推出的浏览网站智能体，能帮用户操作表格、在线购物

Project Mariner 是谷歌 DeepMind 推出的浏览器助手。Project Mariner基于 Gemini 2.0 技术，用 Chrome 扩展程序实现浏览器自动化，理解和执行网页任务。Proj...

AIプロジェクト2025/12/18

TEN Agent - 开源的实时多模态 AI 代理框架

TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互，支持高性能的实时通信，具备低延...

AIプロジェクト2025/12/18

FLOAT - 基于流匹配的音频驱动说话人头像生成模型

FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型，基于流匹配生成模型，学习运动潜在空间实现高效的时间一致性运动设计。模型基...

AIプロジェクト2025/12/18

SynCamMaster - 快手联合浙大、清华等机构推出的多视角视频生成模型

SynCamMaster是浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型，能结合6自由度相机姿势，从任意视点生成开...

AIプロジェクト2025/12/18

STIV - 苹果公司推出的视频生成大模型

STIV（Scalable Text and Image Conditioned Video Generation）是苹果公司推出的视频生成大模型。STIV拥有8.7亿参数，能处理文本到视频（T2V）和文本图像到...

AIプロジェクト2025/12/18

DiffSensei - AI 漫画生成框架，能生成可控的黑白漫画面板

DiffSensei是北京大学、上海AI实验室及南洋理工大学的研究人员共同推出的漫画生成框架，能生成可控的黑白漫画面板。DiffSensei整合基于扩散的图像生成器和多...

AIプロジェクト2025/12/18

Maya - 开源多语言多模态模型，能处理和理解八种不同语言

Maya是开源的多语言多模态模型，基于指令微调扩展模型在多种语言和文化背景下的能力。Maya基于LLaVA框架，包含新创建的包含八种语言的预训练数据集，提高视觉...

AIプロジェクト2025/12/18

千影 QianYing - 巨人网络推出的有声游戏生成大模型

千影 QianYing是巨人网络推出的有声游戏生成大模型，包含游戏视频生成大模型YingGame和视频配音大模型YingSound。YingGame面向开放世界游戏，是巨人网络AI La...

AIプロジェクト2025/12/18

Promptic - 轻量级LLM应用开发框架，通过一行代码切换不同LLM

Promptic是轻量级的LLM应用开发框架，提供高效且符合Python风格的开发方式。基于LiteLLM，Promptic支持开发者能轻松切换不同的LLM服务提供商，只需更改一行代...

AIプロジェクト2025/12/18

SwiftEdit - AI文本引导图像编辑框架，0.23秒内实现高质量的图像编辑

SwiftEdit是由VinAI Research团队推出的文本引导的图像编辑工具，基于创新的一步扩散技术，能在0.23秒内实现快速且高质量的图像编辑。工具的核心优势在于一步...

AIプロジェクト2025/12/18

ChatMCP - AI 聊天客户端，基于 MCP 支持多语言和自动化安装

ChatMCP 是基于模型上下文协议（MCP）的 AI 聊天客户端，支持与各种大型语言模型（LLM）如 OpenAI、Claude 和 OLLama 等进行交互。ChatMCP具备自动化安装 MCP...

AIプロジェクト2025/12/18

Multimodal Live API - 谷歌推出支持多模态交互、低延迟实时互动的AI接口

Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口，支持文本、音频和视频输入，用音频和文本形式输出，能帮助开发者构建具有实时音频和视频流功能...

←1...61 62 63 64 65 66 67...137 →

すべてのカテゴリ

AIニュース

CausVid - Adobe 联合 MIT 推出的自回归实时视频生成技术

ClotheDreamer - 上海大学联合腾讯等高校推出的3D服装生成技术

Director - 构建视频智能体AI框架，用自然语言执行搜索、总结等复杂视频任务

DeepSeek-V2.5-1210 - DeepSeek V2.5 的最终版微调模型，支持联网搜索

EXAONE 3.5 - LG 推出的开源AI模型，擅长长文本处理降低模型幻觉问题

DrivingDojo - 中科院联合美团推出的交互式驾驶世界模型数据集

FineWeb 2 - Hugging Face推出的多语言预训练数据集

Gemini 2.0 - 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型

书生·万象InternVL 2.5 - 上海 AI Lab 开源的多模态大语言模型系列

ChatTTSPlus - 开源文本转语音工具，ChatTTS扩展版支持语音克隆

MMAudio - 基于多模态联合训练实现高质量 AI 音频合成项目

Ultravox - 端到端多模态大模型，直接理解文本和人类语音

Project Mariner - 谷歌推出的浏览网站智能体，能帮用户操作表格、在线购物

TEN Agent - 开源的实时多模态 AI 代理框架

FLOAT - 基于流匹配的音频驱动说话人头像生成模型

SynCamMaster - 快手联合浙大、清华等机构推出的多视角视频生成模型

STIV - 苹果公司推出的视频生成大模型

DiffSensei - AI 漫画生成框架，能生成可控的黑白漫画面板

Maya - 开源多语言多模态模型，能处理和理解八种不同语言

千影 QianYing - 巨人网络推出的有声游戏生成大模型

Promptic - 轻量级LLM应用开发框架，通过一行代码切换不同LLM

SwiftEdit - AI文本引导图像编辑框架，0.23秒内实现高质量的图像编辑

ChatMCP - AI 聊天客户端，基于 MCP 支持多语言和自动化安装

Multimodal Live API - 谷歌推出支持多模态交互、低延迟实时互动的AI接口

AIニュース

CausVid - Adobe 联合 MIT 推出的自回归实时视频生成技术

ClotheDreamer - 上海大学联合腾讯等高校推出的3D服装生成技术

Director - 构建视频智能体AI框架，用自然语言执行搜索、总结等复杂视频任务

DeepSeek-V2.5-1210 - DeepSeek V2.5 的最终版微调模型，支持联网搜索

EXAONE 3.5 - LG 推出的开源AI模型，擅长长文本处理降低模型幻觉问题

DrivingDojo - 中科院联合美团推出的交互式驾驶世界模型数据集

FineWeb 2 - Hugging Face推出的多语言预训练数据集

Gemini 2.0 - 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型

书生·万象InternVL 2.5 - 上海 AI Lab 开源的多模态大语言模型系列

ChatTTSPlus - 开源文本转语音工具，ChatTTS扩展版支持语音克隆

MMAudio - 基于多模态联合训练实现高质量 AI 音频合成项目

Ultravox - 端到端多模态大模型，直接理解文本和人类语音

Project Mariner - 谷歌推出的浏览网站智能体，能帮用户操作表格、在线购物

TEN Agent - 开源的实时多模态 AI 代理框架

FLOAT - 基于流匹配的音频驱动说话人头像生成模型

SynCamMaster - 快手联合浙大、清华等机构推出的多视角视频生成模型

STIV - 苹果公司推出的视频生成大模型

DiffSensei - AI 漫画生成框架，能生成可控的黑白漫画面板

Maya - 开源多语言多模态模型，能处理和理解八种不同语言

千影 QianYing - 巨人网络推出的有声游戏生成大模型

Promptic - 轻量级LLM应用开发框架，通过一行代码切换不同LLM

SwiftEdit - AI文本引导图像编辑框架，0.23秒内实现高质量的图像编辑

ChatMCP - AI 聊天客户端，基于 MCP 支持多语言和自动化安装

Multimodal Live API - 谷歌推出支持多模态交互、低延迟实时互动的AI接口