AIニュース

すべてニュースチュートリアル Wiki AIプロジェクト AIアプリ

AIプロジェクト2025/12/18

Devika - 开源的AI编程工具，理解和执行复杂的人类指令

Devika是开源的AI编程助手，能理解并拆分复杂指令，基于集成AI搜索和网页浏览能力搜集信息，编写代码实现目标。Devika支持多种AI模型，具备高级规划推理能力...

AIプロジェクト2025/12/18

iDP3 - 斯坦福大学联合多所高校推出的改进型3D视觉运动策略

iDP3（Improved 3D Diffusion Policy）是斯坦福大学联合多所高校推出的3D视觉运动策略，能提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同，i...

AIプロジェクト2025/12/18

Proactive Agent - 清华联合面壁智能开源的新一代主动Agent交互范式

Proactive Agent是清华大学联合面壁智能等团队推出的新一代主动Agent交互范式，具备主动性，能预测用户需求并在没有直接指令的情况下采取行动。Proactive Ag...

AIプロジェクト2025/12/18

EMOVA - 华为诺亚方舟联合多所高校共同推出的多模态全能处理模型

EMOVA（EMotionally Omni-present Voice Assistant）是多模态全能模型，是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOVA能处理图像、...

AIプロジェクト2025/12/18

OminiControl - AI图像生成框架，实现图像主题控制和空间精确控制

OminiControl是高度通用且参数高效的图像生成框架，为扩散变换器模型如FLUX.1设计，实现对图像生成过程的精细控制。OminiControl支持主题驱动控制和空间控制...

AIプロジェクト2025/12/18

Talker-Reasoner - 谷歌DeepMind推出的双思维AI代理架构

Talker-Reasoner是谷歌DeepMind推出的AI代理架构，借鉴人类的认知理论，将代理分为两个模块：Talker和Reasoner。Talker模拟人类的快速直觉思维（System 1），...

AIプロジェクト2025/12/18

Diffusion Self-Distillation - 斯坦福大学推出的零样本定制图像生成技术

Diffusion Self-Distillation（DSD）是创新的零样本定制图像生成技术，用预训练的文本到图像扩散模型自动生成数据集，并将其微调为能进行文本条件的图像到图...

AIプロジェクト2025/12/18

Open Materials 2024 - Meta 开源的大型开放数据集和配套预训练模型

Open Materials 2024 (OMat24) 是Meta推出的包含超过1.1亿个结构的密度泛函理论(DFT)计算的大型开放数据集，专注于无机材料的结构和成分多样性。附带预训练的...

AIプロジェクト2025/12/18

CodeDPO - 北京大学联合字节共同推出的代码生成优化框架

CodeDPO是北京大学与字节跳动合作推出的代码生成优化框架，能提升代码模型在正确性和效率方面的表现。框架基于自生成和验证机制，同时构建和评估代码及其测试...

AIプロジェクト2025/12/18

Voice-Pro - 开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

Voice-Pro是开源的多功能音频处理工具，集成语音转文字（STT）、文本转语音（TTS）、实时翻译、YouTube视频下载和人声分离等多种功能。工具支持超过100种语言...

AIプロジェクト2025/12/18

Generative Omnimatte - 谷歌联合马里兰大学等机构推出的视频分解技术

Generative Omnimatte 是 Google DeepMind 等机构推出的视频编辑技术，能将视频智能分解为多个透明背景的RGBA图层，每个图层对应一个物体及其相关效果（如阴...

AIプロジェクト2025/12/18

GLM-PC - 智谱推出的电脑智能体，基于CogAgent视觉多模态模型构建

GLM-PC是智谱推出的基于多模态大模型CogAgent的电脑智能体。能像人类一样“观察”和“操作”计算机，协助用户高效完成各类电脑任务，如文档处理、网页搜索、信息...

AIプロジェクト2025/12/18

TryOffDiff - AI虚拟试穿技术，单张穿着者图片生成标准化服装图像

TryOffDiff（VTOFF）是基于扩散模型的新型虚拟试穿技术，用高保真服装重建实现虚拟试穿，专注于从单张穿着者照片生成标准化的服装图像。与传统的Virtual Try-...

AIプロジェクト2025/12/18

GLM-Edge - 智谱开源的端侧大语言和多模态系列模型

GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型，包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。1.5...

AIプロジェクト2025/12/18

FlagevalMM - 智源开源的多模态模型评测框架

FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架，能全面评估处理文本、图像、视频等多种模态的模型，支持多种任务和指标。框架采用评测与模型...

AIプロジェクト2025/12/18

Delta-CoMe - 清华联合 OpenBMB 等高校开源的新型增量压缩算法

Delta-CoMe是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法，一个80G的A100 GPU能轻松加载多达50个7B模型，节省显存...

AIプロジェクト2025/12/18

Agent-E - 基于AutoGen代理框架构建的AI浏览器自动化系统

Agent-E是基于AutoGen代理框架构建的智能自动化系统，专注于浏览器内的自动化操作。Agent-E基于自然语言交互，能执行填写表单、搜索排序电商产品、定位网页内...

AIプロジェクト2025/12/18

Magic Copy - 开源的AI抠图工具，在浏览器中自动识别图像进行抠图

Magic Copy是开源的抠图工具，支持Chrome浏览器扩展，基于Meta的Segment Anything Model技术，从图像中自动识别并提取前景对象，并将对象复制到用户的剪贴板...

AIプロジェクト2025/12/18

NSFW Detector - 开源 AI 不适宜内容检测工具，支持识别图像、PDF、视频文件

NSFW Detector（Not Safe For Work，简称 NSFW）是开源的检测不适宜内容工具，NSFW Detector能识别图像、PDF、视频文件中的不适宜内容。工具基于Google的vit-...

AIプロジェクト2025/12/18

MultiFoley - Adobe 联合密歇根大学推出的音效生成系统

MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统，能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参考音...

AIプロジェクト2025/12/18

CAT4D - 谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法

CAT4D是Google DeepMind、哥伦比亚大学和加州大学圣地亚哥分校共同推出的，能从单目视频创建4D场景（动态3D）表示。CAT4D基于多视图视频扩散模型，能在任意指...

AIプロジェクト2025/12/18

Make-It-Animatable - 中科大联合腾讯推出的自动生成即时动画准备资产

Make-It-Animatable是中国科学技术大学和Tencent PCG推出的数据驱动框架，能在不到一秒钟内让任何3D人形模型准备好进行角色动画状态，无论其形状和姿势如何。...

AIプロジェクト2025/12/18

Co-op Translator - 微软推出面向开发者的开源多语言翻译工具

Co-op Translator是微软推出的开源翻译工具，基于Azure AI服务实现项目文档和图像中文本的自动化多语言翻译。仅需一条命令，Co-op Translator能分析项目内容...

AIプロジェクト2025/12/18

AnchorCrafter - 中科院联合腾讯推出的AI虚拟主播带货视频制作技术

AnchorCrafter是基于扩散模型的智能视频制作系统，用在自动生成具有高保真度的主播风格产品推广视频。基于整合人-物交互（HOI）到姿态引导的人体视频生成中，...

←1...58 59 60 61 62 63 64...137 →

すべてのカテゴリ

AIニュース

Devika - 开源的AI编程工具，理解和执行复杂的人类指令

iDP3 - 斯坦福大学联合多所高校推出的改进型3D视觉运动策略

Proactive Agent - 清华联合面壁智能开源的新一代主动Agent交互范式

EMOVA - 华为诺亚方舟联合多所高校共同推出的多模态全能处理模型

OminiControl - AI图像生成框架，实现图像主题控制和空间精确控制

Talker-Reasoner - 谷歌DeepMind推出的双思维AI代理架构

Diffusion Self-Distillation - 斯坦福大学推出的零样本定制图像生成技术

Open Materials 2024 - Meta 开源的大型开放数据集和配套预训练模型

CodeDPO - 北京大学联合字节共同推出的代码生成优化框架

Voice-Pro - 开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

Generative Omnimatte - 谷歌联合马里兰大学等机构推出的视频分解技术

GLM-PC - 智谱推出的电脑智能体，基于CogAgent视觉多模态模型构建

TryOffDiff - AI虚拟试穿技术，单张穿着者图片生成标准化服装图像

GLM-Edge - 智谱开源的端侧大语言和多模态系列模型

FlagevalMM - 智源开源的多模态模型评测框架

Delta-CoMe - 清华联合 OpenBMB 等高校开源的新型增量压缩算法

Agent-E - 基于AutoGen代理框架构建的AI浏览器自动化系统

Magic Copy - 开源的AI抠图工具，在浏览器中自动识别图像进行抠图

NSFW Detector - 开源 AI 不适宜内容检测工具，支持识别图像、PDF、视频文件

MultiFoley - Adobe 联合密歇根大学推出的音效生成系统

CAT4D - 谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法

Make-It-Animatable - 中科大联合腾讯推出的自动生成即时动画准备资产

Co-op Translator - 微软推出面向开发者的开源多语言翻译工具

AnchorCrafter - 中科院联合腾讯推出的AI虚拟主播带货视频制作技术

AIニュース

Devika - 开源的AI编程工具，理解和执行复杂的人类指令

iDP3 - 斯坦福大学联合多所高校推出的改进型3D视觉运动策略

Proactive Agent - 清华联合面壁智能开源的新一代主动Agent交互范式

EMOVA - 华为诺亚方舟联合多所高校共同推出的多模态全能处理模型

OminiControl - AI图像生成框架，实现图像主题控制和空间精确控制

Talker-Reasoner - 谷歌DeepMind推出的双思维AI代理架构

Diffusion Self-Distillation - 斯坦福大学推出的零样本定制图像生成技术

Open Materials 2024 - Meta 开源的大型开放数据集和配套预训练模型

CodeDPO - 北京大学联合字节共同推出的代码生成优化框架

Voice-Pro - 开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

Generative Omnimatte - 谷歌联合马里兰大学等机构推出的视频分解技术

GLM-PC - 智谱推出的电脑智能体，基于CogAgent视觉多模态模型构建

TryOffDiff - AI虚拟试穿技术，单张穿着者图片生成标准化服装图像

GLM-Edge - 智谱开源的端侧大语言和多模态系列模型

FlagevalMM - 智源开源的多模态模型评测框架

Delta-CoMe - 清华联合 OpenBMB 等高校开源的新型增量压缩算法

Agent-E - 基于AutoGen代理框架构建的AI浏览器自动化系统

Magic Copy - 开源的AI抠图工具，在浏览器中自动识别图像进行抠图

NSFW Detector - 开源 AI 不适宜内容检测工具，支持识别图像、PDF、视频文件

MultiFoley - Adobe 联合密歇根大学推出的音效生成系统

CAT4D - 谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法

Make-It-Animatable - 中科大联合腾讯推出的自动生成即时动画准备资产

Co-op Translator - 微软推出面向开发者的开源多语言翻译工具

AnchorCrafter - 中科院联合腾讯推出的AI虚拟主播带货视频制作技术