ConceptMaster - 高保真多概念视频定制生成的创新 AI 框架
ConceptMaster是用于多概念视频定制的创新框架,能在无需测试时调优的情况下,在扩散Transformer模型上生成高质量且概念一致的定制视频。框架通过学习解耦的...
ConceptMaster是用于多概念视频定制的创新框架,能在无需测试时调优的情况下,在扩散Transformer模型上生成高质量且概念一致的定制视频。框架通过学习解耦的...
“日日新”融合大模型(SenseNova)是商汤科技于2025年1月10日正式推出的多模态大模型。模型实现了原生融合模态,深度推理能力与多模态信息处理能力均大幅提升...
Agent Laboratory是AMD和约翰·霍普金斯大学推出,基于大型语言模型(LLM)的自主研究框架,能加速科学发现、降低成本并提高研究质量。Agent Laboratory接受人...
新言意码是专注于AI编程应用开发的公司,由前月之暗面海外产品Noisee的明超平创立。公司全称深圳新言意码科技有限公司,成立于2024年9月23日,位于广东省深圳...
PPTAgent是中国科学院软件研究所中文信息处理实验室推出的创新框架,基于模仿人类工作流程的两阶段编辑方法,从文档自动生成高质量的演示文稿。PPTAgent分析...
HoloDrive 是商汤和上海人工智能实验室等机构提出的用于自动驾驶的整体2D-3D多模态街道场景生成框架。框架联合生成相机图像和激光雷达点云,填补自动驾驶中2D...
Perception-as-Control是阿里巴巴通义实验室推出的图像动画框架,能根据用户意图实现细粒度的运动控制。Perception-as-Control基于构建3D感知运动表示,将相...
Motion Dreamer是香港科技大学(广州)研究者提出的视频生成框架,生成运动合理视频。基于两阶段生成方式,先基于输入图像和运动条件生成中间运动表示,再利...
Sky-T1是加州大学伯克利分校Sky Computing实验室的研究团队NovaSky发布的开源推理AI模型,名为Sky-T1-32B-Preview。是首个开源推理模型,训练数据集和代码均...
FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。FaceLift基于两阶段的流程实现:基...
SVFR(Stable Video Face Restoration)是腾讯优图实验室和厦门大学联合推出的用于广义视频人脸修复的统一框架,整合了视频人脸修复(BFR)、着色和修复任务...
TimesFM 2.0是谷歌研究团队推出的开源时间序列预测模型。具备强大的预测能力,可处理长达2048个时间点的单变量时间序列,支持任意预测时间跨度。模型采用仅解...
NeuralSVG是创新的文本驱动矢量图形生成技术。通过一个小型的多层感知器网络,将文本提示转化为具有层次结构的矢量图形。该网络以形状索引为输入,输出形状参...
ViTPose 是基于 Transformer 架构的人体姿态估计模型。以普通视觉 Transformer 作为骨干网络,通过将输入图像切块并送入 Transformer block 来提取特征,再经...
Nemotron-CC是NVIDIA团队推出的大型预训练数据集,能将Common Crawl数据转化为适用于长序列预训练的高质量语料。Nemotron-CC数据集结合分类器集成、合成数据...
NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。NVIDIA-Ingest能将文档转换为元数据和文本,便于嵌入到检索系统中...
Eko是Fellou AI推出的生产就绪型JavaScript框架,基于自然语言驱动的方式,帮助开发者轻松创建从简单指令到复杂流程的可靠智能代理。Eko支持所有平台,包括计...
Emotion-LLaMA是多模态情绪识别与推理模型,融合了音频、视觉和文本输入,通过特定情绪编码器整合信息。模型基于修改版LLaMA,经指令调整以提升情感识别能力...
GR00T-Teleop是NVIDIA Isaac GR00T的一部分,用在捕获远程操作数据的关键技术。基于NVIDIA CloudXR连接Apple Vision Pro头显,用专门设计的人形远程操作自定...
MiniRAG是香港大学推出的新型检索增强型生成(RAG)系统,专为在资源受限的场景下高效部署小型语言模型(SLMs)设计。MiniRAG基于两个关键技术实现这一目标:...
Riona-AI-Agent是Node.js 和 TypeScript 构建的 AI 驱动的自动化工具,能与 Instagram、Twitter 和 GitHub 等社交媒体平台进行交互。Riona-AI-Agent能生成引...
Prometheus是创新的3D感知潜在扩散模型,专门用于快速生成文本到3D场景的内容。能在几秒钟内完成对象和场景级别的3D生成,同时保持高质量的输出和良好的泛化...
MinMo是阿里巴巴通义实验室FunAudioLLM团队推出的多模态大模型,专注于实现无缝语音交互。MinMo拥有约80亿参数,基于多阶段训练,在140万小时多样化语音数据...
MiniMax-01是MiniMax推出的全新系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax-01首次大规模实现线性注意力机制,打...