AIニュース

すべてニュースチュートリアル Wiki AIプロジェクト AIアプリ

AIプロジェクト2025/12/18

X-Prompt - 用于多模态视频目标分割的通用框架

X-Prompt是用于多模态视频目标分割的通用框架，解决传统方法在极端光照、快速运动和背景干扰等复杂场景下的局限性。通过预训练一个基于 RGB 数据的视频目标分...

AIプロジェクト2025/12/18

VideoReward - 港中文、清华、快手等联合推出的视频生成偏好数据集及奖励模型

VideoReward 是香港中文大学、清华大学、快手科技等联合创建的视频生成偏好数据集及奖励模型。包含182,000条标注数据，涵盖视觉质量、运动质量和文本对齐三个...

AIプロジェクト2025/12/18

MILS - Meta AI 推出的零样本生成高质量多模态描述方法

MILS（Multimodal Iterative LLM Solver）是Meta AI提出的无需训练即可赋予大型语言模型（LLM）多模态能力的方法。通过多步推理，提示LLM生成候选输出，对每...

AIプロジェクト2025/12/18

OpenDeepResearcher - 开源 AI 研究工具，自动完成搜索、评估、提取和报告生成

OpenDeepResearcher 是开源的 AI 研究工具，能帮助用户高效地完成复杂的信息查询和分析任务。基于迭代搜索和推理，自动从网络中获取相关数据，生成综合报告。...

AIプロジェクト2025/12/18

OCRmyPDF - 专为 PDF 文件转换为可搜索、可复制的文档AI工具

OCRmyPDF 是开源的命令行工具，专为将扫描的 PDF 文件转换为可搜索、可复制的文档。通过添加 OCR 文本层，将无法直接编辑的扫描 PDF 文件能被搜索和编辑。工...

AIプロジェクト2025/12/18

node-DeepResearch - Deep Research开源复现版 AI Agent，支持多步推理和复杂查询

node-DeepResearch 是开源的 AI 智能体项目，基于持续搜索和阅读网页，用 Gemini 语言模型和 Jina Reader 工具，逐步推理、回答复杂问题，直到找到答案或超出...

AIプロジェクト2025/12/18

OmniHuman - 字节跳动推出的单张照片生成全身动态视频生成框架

OmniHuman 是字节跳动推出的端到端多模态条件化人类视频生成框架，能基于单张人类图像和运动信号（如音频、视频或两者的组合）生成逼真的人类视频。OmniHuman...

AIプロジェクト2025/12/18

DeepRAG - 中科院、中科大和腾讯微信AI部联合推出的新型检索增强生成框架

DeepRAG 是中科院、中科大和腾讯微信AI部联合推出的新型检索增强生成（RAG）框架，提升大型语言模型（LLMs）在推理和检索任务中的性能。通过将检索增强推理建...

AIプロジェクト2025/12/18

MnnLlmApp - 阿里巴巴开源的离线大模型 Android 手机应用AI助手

MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架开源的 Android 手机应用，支持各类大语言模型（LLM）在手机上离线运行。具备多模态功能，能实现文本生成文本、图像生...

AIプロジェクト2025/12/18

DynamicFace - 小红书联合上海交大等推出的视频换脸技术

DynamicFace是小红书团队推出新型的视频换脸技术，技术通过结合扩散模型和即插即用的时间层，基于3D面部先验知识，实现高质量和一致性的视频换脸效果。 Dynam...

AIプロジェクト2025/12/18

Gemini 2.0 Pro - 谷歌推出的高性能多模态AI模型

Gemini 2.0 Pro是Google推出的高性能实验版AI模型，专为编程性能和复杂提示处理优化。Gemini 2.0 Pro具备200万tokens的超大上下文窗口，能处理和分析海量信息...

AIプロジェクト2025/12/18

Open Deep Research - Deep Research开源复现版智能体，支持切换多种语言模型

Open Deep Research 是开源的 AI 智能体，是Deep Research开源复现项目，基于推理大量网络数据完成复杂的多步骤研究任务。Open Deep Research使用 Firecrawl ...

AIプロジェクト2025/12/18

Chatbox AI - 开源的AI客户端助手，支持多种主流AI模型

Chatbox AI是开源的跨平台AI客户端应用和智能助手，支持 Windows、Mac、Linux、iOS、Android 和网页版，集成多种先进的语言模型（如 ChatGPT、DeepSeek、Clau...

AIプロジェクト2025/12/18

RAG-FiT - 英特尔实验室推出用于开发、增强大模型的开源RAG框架

RAG-FiT（曾用名RAG Foundry）是英特尔实验室推出的开源框架，用在微调（fine-tuning）增强大型语言模型（LLMs）在检索增强生成（RAG）任务中的表现。RAG-FiT...

AIプロジェクト2025/12/18

FluxSR - 上海交大联合华为等高校推出的图像超分辨率模型

FluxSR是新型的单步扩散模型，是上海交通大学、哈佛大学、华南理工大学和华为诺亚方舟实验室推出的专门用在真实世界图像超分辨率（Real-ISR）任务。FluxSR基...

AIプロジェクト2025/12/18

VideoJAM - Meta 推出增强视频生成模型运动连贯性的框架

VideoJAM是Meta推出的，用在增强视频生成模型运动连贯性的框架。基于引入联合外观-运动表示，让模型在训练阶段同时学习预测视频的像素和运动信息，在推理阶段...

AIプロジェクト2025/12/18

SynCD - Meta和卡内基梅隆大学开源的文生图合成训练数据集

SynCD（Synthetic Customization Dataset）是卡内基梅隆大学和Meta推出的高质量合成训练数据集，用在提升文本到图像模型的定制化能力。SynCD包含多个相同对象...

AIプロジェクト2025/12/18

MatAnyone - 南洋理工和商汤科技推出的人像视频抠图框架

MatAnyone是南洋理工大学S-Lab实验室和商汤科技推出的，针对复杂背景人像视频抠图的先进框架，专注于目标指定的视频抠图任务。MatAnyone基于一致的内存传播模...

AIプロジェクト2025/12/18

JoyGen - 京东和港大推出音频驱动的3D说话人脸视频生成框架

JoyGen是京东科技和香港大学推出的，音频驱动的3D说话人脸视频生成框架，专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度...

AIプロジェクト2025/12/18

EMAGE - 清华联合东大等机构推出的音频生成全身共语手势框架

EMAGE（Expressive Masked Audio-conditioned GEsture modeling）是清华大学、东京大学、庆应义塾大学等机构推出的用在生成全身共语手势框架。EMAGE能根据音...

AIプロジェクト2025/12/18

LIMO - 上海交大推出的高效推理方法，仅需817条训练样本

LIMO（Less Is More for Reasoning）是上海交通大学研究团队提出的高效推理方法，通过极少量高质量的训练样本激活大语言模型（LLM）的复杂推理能力。核心假设...

AIプロジェクト2025/12/18

SANA 1.5 - 英伟联合MIT、清北等机构推出的文生图新框架

SANA 1.5 是英伟达联合MIT、清华、北大等机构推出的新型高效的线性扩散变换器（Linear Diffusion Transformer），用于文本到图像生成任务。在 SANA 1.0 的基...

AIプロジェクト2025/12/18

ASAP - 卡内基梅隆大学联合英伟达推出的模拟与真实物理对齐框架

ASAP（Aligning Simulation and Real Physics）是卡内基梅隆大学和英伟达联合推出的，用在解决仿人机器人模拟与现实动力学不匹配问题的两阶段框架。ASAP基于...

AIプロジェクト2025/12/18

MAETok - 港大联合北大等机构推出的自动编码器

MAETok（Masked Autoencoders Tokenizer）是卡内基梅隆大学、香港大学、北京大学等机构推出的用在扩散模型的新型图像标记化方法。MAETok基于掩码建模（Mask M...

←1...76 77 78 79 80 81 82...137 →

すべてのカテゴリ

AIニュース

X-Prompt - 用于多模态视频目标分割的通用框架

VideoReward - 港中文、清华、快手等联合推出的视频生成偏好数据集及奖励模型

MILS - Meta AI 推出的零样本生成高质量多模态描述方法

OpenDeepResearcher - 开源 AI 研究工具，自动完成搜索、评估、提取和报告生成

OCRmyPDF - 专为 PDF 文件转换为可搜索、可复制的文档AI工具

node-DeepResearch - Deep Research开源复现版 AI Agent，支持多步推理和复杂查询

OmniHuman - 字节跳动推出的单张照片生成全身动态视频生成框架

DeepRAG - 中科院、中科大和腾讯微信AI部联合推出的新型检索增强生成框架

MnnLlmApp - 阿里巴巴开源的离线大模型 Android 手机应用AI助手

DynamicFace - 小红书联合上海交大等推出的视频换脸技术

Gemini 2.0 Pro - 谷歌推出的高性能多模态AI模型

Open Deep Research - Deep Research开源复现版智能体，支持切换多种语言模型

Chatbox AI - 开源的AI客户端助手，支持多种主流AI模型

RAG-FiT - 英特尔实验室推出用于开发、增强大模型的开源RAG框架

FluxSR - 上海交大联合华为等高校推出的图像超分辨率模型

VideoJAM - Meta 推出增强视频生成模型运动连贯性的框架

SynCD - Meta和卡内基梅隆大学开源的文生图合成训练数据集

MatAnyone - 南洋理工和商汤科技推出的人像视频抠图框架

JoyGen - 京东和港大推出音频驱动的3D说话人脸视频生成框架

EMAGE - 清华联合东大等机构推出的音频生成全身共语手势框架

LIMO - 上海交大推出的高效推理方法，仅需817条训练样本

SANA 1.5 - 英伟联合MIT、清北等机构推出的文生图新框架

ASAP - 卡内基梅隆大学联合英伟达推出的模拟与真实物理对齐框架

MAETok - 港大联合北大等机构推出的自动编码器

AIニュース

X-Prompt - 用于多模态视频目标分割的通用框架

VideoReward - 港中文、清华、快手等联合推出的视频生成偏好数据集及奖励模型

MILS - Meta AI 推出的零样本生成高质量多模态描述方法

OpenDeepResearcher - 开源 AI 研究工具，自动完成搜索、评估、提取和报告生成

OCRmyPDF - 专为 PDF 文件转换为可搜索、可复制的文档AI工具

node-DeepResearch - Deep Research开源复现版 AI Agent，支持多步推理和复杂查询

OmniHuman - 字节跳动推出的单张照片生成全身动态视频生成框架

DeepRAG - 中科院、中科大和腾讯微信AI部联合推出的新型检索增强生成框架

MnnLlmApp - 阿里巴巴开源的离线大模型 Android 手机应用AI助手

DynamicFace - 小红书联合上海交大等推出的视频换脸技术

Gemini 2.0 Pro - 谷歌推出的高性能多模态AI模型

Open Deep Research - Deep Research开源复现版智能体，支持切换多种语言模型

Chatbox AI - 开源的AI客户端助手，支持多种主流AI模型

RAG-FiT - 英特尔实验室推出用于开发、增强大模型的开源RAG框架

FluxSR - 上海交大联合华为等高校推出的图像超分辨率模型

VideoJAM - Meta 推出增强视频生成模型运动连贯性的框架

SynCD - Meta和卡内基梅隆大学开源的文生图合成训练数据集

MatAnyone - 南洋理工和商汤科技推出的人像视频抠图框架

JoyGen - 京东和港大推出音频驱动的3D说话人脸视频生成框架

EMAGE - 清华联合东大等机构推出的音频生成全身共语手势框架

LIMO - 上海交大推出的高效推理方法，仅需817条训练样本

SANA 1.5 - 英伟联合MIT、清北等机构推出的文生图新框架

ASAP - 卡内基梅隆大学联合英伟达推出的模拟与真实物理对齐框架

MAETok - 港大联合北大等机构推出的自动编码器