AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

Diffusion Self-Distillation - 斯坦福大学推出的零样本定制图像生成技术

Diffusion Self-Distillation（DSD）是创新的零样本定制图像生成技术，用预训练的文本到图像扩散模型自动生成数据集，并将其微调为能进行文本条件的图像到图...

AI Projects12/18/2025

Open Materials 2024 - Meta 开源的大型开放数据集和配套预训练模型

Open Materials 2024 (OMat24) 是Meta推出的包含超过1.1亿个结构的密度泛函理论(DFT)计算的大型开放数据集，专注于无机材料的结构和成分多样性。附带预训练的...

AI Projects12/18/2025

CodeDPO - 北京大学联合字节共同推出的代码生成优化框架

CodeDPO是北京大学与字节跳动合作推出的代码生成优化框架，能提升代码模型在正确性和效率方面的表现。框架基于自生成和验证机制，同时构建和评估代码及其测试...

AI Projects12/18/2025

Voice-Pro - 开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

Voice-Pro是开源的多功能音频处理工具，集成语音转文字（STT）、文本转语音（TTS）、实时翻译、YouTube视频下载和人声分离等多种功能。工具支持超过100种语言...

AI Projects12/18/2025

Generative Omnimatte - 谷歌联合马里兰大学等机构推出的视频分解技术

Generative Omnimatte 是 Google DeepMind 等机构推出的视频编辑技术，能将视频智能分解为多个透明背景的RGBA图层，每个图层对应一个物体及其相关效果（如阴...

AI Projects12/18/2025

GLM-PC - 智谱推出的电脑智能体，基于CogAgent视觉多模态模型构建

GLM-PC是智谱推出的基于多模态大模型CogAgent的电脑智能体。能像人类一样“观察”和“操作”计算机，协助用户高效完成各类电脑任务，如文档处理、网页搜索、信息...

AI Projects12/18/2025

TryOffDiff - AI虚拟试穿技术，单张穿着者图片生成标准化服装图像

TryOffDiff（VTOFF）是基于扩散模型的新型虚拟试穿技术，用高保真服装重建实现虚拟试穿，专注于从单张穿着者照片生成标准化的服装图像。与传统的Virtual Try-...

AI Projects12/18/2025

GLM-Edge - 智谱开源的端侧大语言和多模态系列模型

GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型，包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。1.5...

AI Projects12/18/2025

FlagevalMM - 智源开源的多模态模型评测框架

FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架，能全面评估处理文本、图像、视频等多种模态的模型，支持多种任务和指标。框架采用评测与模型...

AI Projects12/18/2025

Delta-CoMe - 清华联合 OpenBMB 等高校开源的新型增量压缩算法

Delta-CoMe是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法，一个80G的A100 GPU能轻松加载多达50个7B模型，节省显存...

AI Projects12/18/2025

Agent-E - 基于AutoGen代理框架构建的AI浏览器自动化系统

Agent-E是基于AutoGen代理框架构建的智能自动化系统，专注于浏览器内的自动化操作。Agent-E基于自然语言交互，能执行填写表单、搜索排序电商产品、定位网页内...

AI Projects12/18/2025

Magic Copy - 开源的AI抠图工具，在浏览器中自动识别图像进行抠图

Magic Copy是开源的抠图工具，支持Chrome浏览器扩展，基于Meta的Segment Anything Model技术，从图像中自动识别并提取前景对象，并将对象复制到用户的剪贴板...

AI Projects12/18/2025

NSFW Detector - 开源 AI 不适宜内容检测工具，支持识别图像、PDF、视频文件

NSFW Detector（Not Safe For Work，简称 NSFW）是开源的检测不适宜内容工具，NSFW Detector能识别图像、PDF、视频文件中的不适宜内容。工具基于Google的vit-...

AI Projects12/18/2025

MultiFoley - Adobe 联合密歇根大学推出的音效生成系统

MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统，能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参考音...

AI Projects12/18/2025

CAT4D - 谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法

CAT4D是Google DeepMind、哥伦比亚大学和加州大学圣地亚哥分校共同推出的，能从单目视频创建4D场景（动态3D）表示。CAT4D基于多视图视频扩散模型，能在任意指...

AI Projects12/18/2025

Make-It-Animatable - 中科大联合腾讯推出的自动生成即时动画准备资产

Make-It-Animatable是中国科学技术大学和Tencent PCG推出的数据驱动框架，能在不到一秒钟内让任何3D人形模型准备好进行角色动画状态，无论其形状和姿势如何。...

AI Projects12/18/2025

Co-op Translator - 微软推出面向开发者的开源多语言翻译工具

Co-op Translator是微软推出的开源翻译工具，基于Azure AI服务实现项目文档和图像中文本的自动化多语言翻译。仅需一条命令，Co-op Translator能分析项目内容...

AI Projects12/18/2025

AnchorCrafter - 中科院联合腾讯推出的AI虚拟主播带货视频制作技术

AnchorCrafter是基于扩散模型的智能视频制作系统，用在自动生成具有高保真度的主播风格产品推广视频。基于整合人-物交互（HOI）到姿态引导的人体视频生成中，...

AI Projects12/18/2025

MyTimeMachine - AI个性化面部年龄转换技术，实现20至40年的时间跨度

MyTimeMachine（MyTM）是先进的个性化面部年龄转换技术，基于大约50张个人照片，跨越20至40年的时间跨度，训练一个适配器网络个性化预训练的全局老化模型。My...

AI Projects12/18/2025

HiFiVFS - 腾讯联合VIVO推出的高保真视频换脸框架

HiFiVFS（High Fidelity Video Face Swapping）是腾讯和VIVO公司推出的高保真视频换脸框架，HiFiVFS基于Stable Video Diffusion（SVD）框架，用多帧输入和时...

AI Projects12/18/2025

MVGenMaster - 复旦联合阿里等实验室推出的多视图扩散模型

MVGenMaster是复旦大学、阿里巴巴达摩院和湖潘实验室共同推出的多视图扩散模型，基于增强3D先验处理多样化的新视角合成（NVS）任务。模型基于度量深度和相机...

AI Projects12/18/2025

360Zhinao2-7B - 360 推出自研360智脑大模型的升级版

360Zhinao2-7B是360自研的AI大模型360智脑7B参数升级版，涵盖基础模型及多种上下文长度的聊天模型。360Zhinao2-7B模型是继360Zhinao1-7B之后的重要更新，基于...

AI Projects12/18/2025

GeneMAN - 上海AI Lab联合北大等高校推出的3D人体模型创建框架

GeneMAN是上海AI实验室、北京大学、南洋理工大学、上海交通大学联合推出的3D人形创建框架，能从单张图片中创建出高保真度的3D人体模型。框架不依赖于参数化人...

AI Projects12/18/2025

MagicDriveDiT - 华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法

MagicDriveDiT是香港中文大学、香港科技大学、华为云和华为诺亚方舟实验室共同推出基于DiT架构的新型视频生成方法，专为自动驾驶应用设计，实现高分辨率和长...

←1...58 59 60 61 62 63 64...137 →

All Categories

AI News

Diffusion Self-Distillation - 斯坦福大学推出的零样本定制图像生成技术

Open Materials 2024 - Meta 开源的大型开放数据集和配套预训练模型

CodeDPO - 北京大学联合字节共同推出的代码生成优化框架

Voice-Pro - 开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

Generative Omnimatte - 谷歌联合马里兰大学等机构推出的视频分解技术

GLM-PC - 智谱推出的电脑智能体，基于CogAgent视觉多模态模型构建

TryOffDiff - AI虚拟试穿技术，单张穿着者图片生成标准化服装图像

GLM-Edge - 智谱开源的端侧大语言和多模态系列模型

FlagevalMM - 智源开源的多模态模型评测框架

Delta-CoMe - 清华联合 OpenBMB 等高校开源的新型增量压缩算法

Agent-E - 基于AutoGen代理框架构建的AI浏览器自动化系统

Magic Copy - 开源的AI抠图工具，在浏览器中自动识别图像进行抠图

NSFW Detector - 开源 AI 不适宜内容检测工具，支持识别图像、PDF、视频文件

MultiFoley - Adobe 联合密歇根大学推出的音效生成系统

CAT4D - 谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法

Make-It-Animatable - 中科大联合腾讯推出的自动生成即时动画准备资产

Co-op Translator - 微软推出面向开发者的开源多语言翻译工具

AnchorCrafter - 中科院联合腾讯推出的AI虚拟主播带货视频制作技术

MyTimeMachine - AI个性化面部年龄转换技术，实现20至40年的时间跨度

HiFiVFS - 腾讯联合VIVO推出的高保真视频换脸框架

MVGenMaster - 复旦联合阿里等实验室推出的多视图扩散模型

360Zhinao2-7B - 360 推出自研360智脑大模型的升级版

GeneMAN - 上海AI Lab联合北大等高校推出的3D人体模型创建框架

MagicDriveDiT - 华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法

AI News

Diffusion Self-Distillation - 斯坦福大学推出的零样本定制图像生成技术

Open Materials 2024 - Meta 开源的大型开放数据集和配套预训练模型

CodeDPO - 北京大学联合字节共同推出的代码生成优化框架

Voice-Pro - 开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

Generative Omnimatte - 谷歌联合马里兰大学等机构推出的视频分解技术

GLM-PC - 智谱推出的电脑智能体，基于CogAgent视觉多模态模型构建

TryOffDiff - AI虚拟试穿技术，单张穿着者图片生成标准化服装图像

GLM-Edge - 智谱开源的端侧大语言和多模态系列模型

FlagevalMM - 智源开源的多模态模型评测框架

Delta-CoMe - 清华联合 OpenBMB 等高校开源的新型增量压缩算法

Agent-E - 基于AutoGen代理框架构建的AI浏览器自动化系统

Magic Copy - 开源的AI抠图工具，在浏览器中自动识别图像进行抠图

NSFW Detector - 开源 AI 不适宜内容检测工具，支持识别图像、PDF、视频文件

MultiFoley - Adobe 联合密歇根大学推出的音效生成系统

CAT4D - 谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法

Make-It-Animatable - 中科大联合腾讯推出的自动生成即时动画准备资产

Co-op Translator - 微软推出面向开发者的开源多语言翻译工具

AnchorCrafter - 中科院联合腾讯推出的AI虚拟主播带货视频制作技术

MyTimeMachine - AI个性化面部年龄转换技术，实现20至40年的时间跨度

HiFiVFS - 腾讯联合VIVO推出的高保真视频换脸框架

MVGenMaster - 复旦联合阿里等实验室推出的多视图扩散模型

360Zhinao2-7B - 360 推出自研360智脑大模型的升级版

GeneMAN - 上海AI Lab联合北大等高校推出的3D人体模型创建框架

MagicDriveDiT - 华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法