IC-Portrait - ETH联合浙大等推出的个性化肖像生成框架
IC-Portrait是新型的个性化肖像生成框架,解决用户资料图像多样性(如外观和光照条件差异)带来的挑战。通过将肖像生成任务分解为“光照感知拼接”和“视角一致...
IC-Portrait是新型的个性化肖像生成框架,解决用户资料图像多样性(如外观和光照条件差异)带来的挑战。通过将肖像生成任务分解为“光照感知拼接”和“视角一致...
SyncAnimation是实时端到端的音频驱动框架,用于生成人体姿态和说话头像动画。通过音频信号实时生成与音频同步的上半身姿态和面部表情,包括嘴唇动作,实现高...
BitsAI-CR是字节跳动团队推出的基于大型语言模型(LLM)的自动化代码审查工具,通过两阶段处理流程实现高效代码审查:RuleChecker 负责基于 219 条规则检测潜...
DiffSplat是新型的 3D 生成方法,从文本提示和单视图图像快速生成 3D 高斯点阵(Gaussian Splats)。通过微调预训练的文本到图像扩散模型,基于强大的 2D 先...
X-Prompt是用于多模态视频目标分割的通用框架,解决传统方法在极端光照、快速运动和背景干扰等复杂场景下的局限性。通过预训练一个基于 RGB 数据的视频目标分...
VideoReward 是香港中文大学、清华大学、快手科技等联合创建的视频生成偏好数据集及奖励模型。包含182,000条标注数据,涵盖视觉质量、运动质量和文本对齐三个...
MILS(Multimodal Iterative LLM Solver)是Meta AI提出的无需训练即可赋予大型语言模型(LLM)多模态能力的方法。通过多步推理,提示LLM生成候选输出,对每...
OpenDeepResearcher 是开源的 AI 研究工具,能帮助用户高效地完成复杂的信息查询和分析任务。基于迭代搜索和推理,自动从网络中获取相关数据,生成综合报告。...
OCRmyPDF 是开源的命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。通过添加 OCR 文本层,将无法直接编辑的扫描 PDF 文件能被搜索和编辑。工...
node-DeepResearch 是开源的 AI 智能体项目,基于持续搜索和阅读网页,用 Gemini 语言模型和 Jina Reader 工具,逐步推理、回答复杂问题,直到找到答案或超出...
OmniHuman 是字节跳动推出的端到端多模态条件化人类视频生成框架,能基于单张人类图像和运动信号(如音频、视频或两者的组合)生成逼真的人类视频。OmniHuman...
DeepRAG 是中科院、中科大和腾讯微信AI部联合推出的新型检索增强生成(RAG)框架,提升大型语言模型(LLMs)在推理和检索任务中的性能。通过将检索增强推理建...
MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架开源的 Android 手机应用,支持各类大语言模型(LLM)在手机上离线运行。具备多模态功能,能实现文本生成文本、图像生...
DynamicFace是小红书团队推出新型的视频换脸技术,技术通过结合扩散模型和即插即用的时间层,基于3D面部先验知识,实现高质量和一致性的视频换脸效果。 Dynam...
Gemini 2.0 Pro是Google推出的高性能实验版AI模型,专为编程性能和复杂提示处理优化。Gemini 2.0 Pro具备200万tokens的超大上下文窗口,能处理和分析海量信息...
Open Deep Research 是开源的 AI 智能体,是Deep Research开源复现项目,基于推理大量网络数据完成复杂的多步骤研究任务。Open Deep Research使用 Firecrawl ...
Chatbox AI是开源的跨平台AI客户端应用和智能助手,支持 Windows、Mac、Linux、iOS、Android 和网页版,集成多种先进的语言模型(如 ChatGPT、DeepSeek、Clau...
RAG-FiT(曾用名RAG Foundry)是英特尔实验室推出的开源框架,用在微调(fine-tuning)增强大型语言模型(LLMs)在检索增强生成(RAG)任务中的表现。RAG-FiT...
FluxSR是新型的单步扩散模型,是上海交通大学、哈佛大学、华南理工大学和华为诺亚方舟实验室推出的专门用在真实世界图像超分辨率(Real-ISR)任务。FluxSR基...
VideoJAM是Meta推出的,用在增强视频生成模型运动连贯性的框架。基于引入联合外观-运动表示,让模型在训练阶段同时学习预测视频的像素和运动信息,在推理阶段...
SynCD(Synthetic Customization Dataset)是卡内基梅隆大学和Meta推出的高质量合成训练数据集,用在提升文本到图像模型的定制化能力。SynCD包含多个相同对象...
MatAnyone是南洋理工大学S-Lab实验室和商汤科技推出的,针对复杂背景人像视频抠图的先进框架,专注于目标指定的视频抠图任务。MatAnyone基于一致的内存传播模...
JoyGen是京东科技和香港大学推出的,音频驱动的3D说话人脸视频生成框架,专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度...
EMAGE(Expressive Masked Audio-conditioned GEsture modeling)是清华大学、东京大学、庆应义塾大学等机构推出的用在生成全身共语手势框架。EMAGE能根据音...