DreamPolish是Zhipu AI、清华大学和北京大学推出的文本到3D生成模型,基于两阶段方法改进复杂对象的精细几何结构和高质量纹理的生成。第一阶段用多种神经表示...
DreamPolish是Zhipu AI、清华大学和北京大学推出的文本到3D生成模型,基于两阶段方法改进复杂对象的精细几何结构和高质量纹理的生成。第一阶段用多种神经表示...
OmniBooth是华为诺亚方舟实验室和港科大研究团队共同推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。框架用用户定义的掩码和相关...
DynaMem是纽约大学和Hello Robot推出的动态空间语义记忆系统,专为开放世界中的移动操作设计。基于维护一个特征点云作为机器人记忆,处理环境中的动态变化,...
MVPaint是腾讯PCG 、上海AI LAB、南洋理工大学S-Lab、清华大学共同推出的3D纹理生成框架,基于同步多视角扩散技术实现高分辨率、无缝且多视图一致的3D纹理生...
LTX Video是Lightricks推出的开源AI视频生成模型,能在4秒内生成5秒的高质量视频,速度超过观看速度。基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,...
BALROG是评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏上的推理能力,特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏...
AutoVFX是先进的物理特效框架,是伊利诺伊大学香槟分校研究团队推出的,能根据自然语言指令自动创建真实感和动态的视觉特效(VFX)视频。框架集成神经场景建...
Markdown-to-Image是开源的Markdown 转为海报的编辑器,作为React组件能将Markdown文本内容转换成图像,适用于创建社交媒体帖子、海报和其他视觉内容。工具支...
TÜLU 3是艾伦人工智能研究所(Ai2)推出的一系列开源指令遵循模型,包括8B和70B两个版本,未来计划推出405B版本。模型在性能上超越Llama 3.1 Instruct版本,...
EchoMimicV2是阿里蚂蚁集团推出的半身人体AI数字人项目,基于参考图片、音频剪辑和手部姿势序列生成高质量动画视频,确保音频内容与半身动作的一致性。EchoMi...
FlipSketch 是萨里大学推出的创新系统,能将静态绘图转变为文本引导的草图动画。技术基于三个关键创新实现:微调草图风格的帧生成、用噪声细化保持输入草图视...
StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统,能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情...
DELIFT(Data Efficient Language model Instruction Fine-Tuning)是新型算法,用在优化大型语言模型(LLMs)在指令调优、任务特定微调和持续微调三个关键阶...
HART(Hybrid Autoregressive Transformer)是麻省理工学院研究团队推出的自回归视觉生成模型。能直接生成1024×1024像素的高分辨率图像,质量媲美扩散模型。H...
WebDreamer是俄亥俄州立大学和Orby AI研究团队推出的基于模型规划的网络智能体,基于大型语言模型(LLMs),特别是GPT-4o,作为世界模型预测网站上的交互结果...
Kandinsky-3是基于潜在扩散模型的文本到图像(T2I)生成框架,以高质量和逼真度在图像合成领域脱颖而出。Kandinsky-3能适应多种图像生成任务,包括文本引导的...
CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的多视角视频生成框架,能将单一输入图像转换成多个时空一致的视频序列。框架基于引入视角集成注意力...
Flex3D是由Meta的GenAI团队和牛津大学研究团队推出的创新的两阶段3D生成框架,能基于任意数量的高质量输入视图,解决从文本、单张图片或稀疏视图图像生成高质...
EvolveDirector是阿里巴巴和南洋理工大学联合推出的创新框架,用公开资源和高级模型的API接口训练一个高性能的文本到图像生成模型。框架基于与现有高级模型的...
MCP(Model Context Protocol,模型上下文协议)是一个开放协议,是Anthropic开源的,能实现大型语言模型(LLM)应用与外部数据源和工具之间的无缝集成。基于...
LazyGraphRAG是微软研究院推出的图形增强生成增强检索(RAG)框架,是GraphRAG的迭代版本。LazyGraphRAG在数据索引成本上大幅降低,是GraphRAG的0.1%,同时用...
LEOPARD是腾讯AI Lab西雅图实验室推出的视觉语言模型,专为理解和处理含有大量文本的多图像任务设计。LEOPARD基于两个主要技术创新:一是策划约一百万条专门...
书生InternThinker是上海人工智能实验室推出的强推理模型,具备自主生成高智力密度数据和元动作思考能力。基于长思维能力和自我反思、纠正机制,在数学、代码...
Pangea是卡内基梅隆大学团队推出的多语言多模态大型语言模型(LLM),能提升全球语言和文化多样性的覆盖。模型包含600万条指令的多样化数据集,支持39种语言...