CHANGER - AI换头技术,将演员头部无缝集成到目标身体
CHANGER是工业级超自然AI换头与色键技术,用在数字内容创作中将演员头部无缝集成到目标身体上,适于视觉特效、数字人类创建和虚拟化身。CHANGER基于色键技术...
CHANGER是工业级超自然AI换头与色键技术,用在数字内容创作中将演员头部无缝集成到目标身体上,适于视觉特效、数字人类创建和虚拟化身。CHANGER基于色键技术...
Kiroku是多智能体系统,辅助用户组织和撰写文档。灵感源自创始人在斯坦福大学攻读博士期间的学术写作经历,Kiroku模拟学生与导师间的互动,帮助用户快速生成...
Vision Search Assistant(VSA)是结合视觉语言模型(VLMs)和网络代理的框架,提升模型对未知视觉内容的理解能力。基于互联网检索,使VLMs处理和回答有关未...
MVDrag3D是创新的3D编辑框架,结合多视图生成和重建先验实现灵活且富有创造性的拖拽编辑。框架用多视图扩散模型作为生成先验,确保在多个渲染视图间进行一致...
Chonkie是轻量级、快速且功能丰富的RAG(Retrieval-Augmented Generation)分块库,为文本处理设计。Chonkie支持基于Token、单词、句子和语义的多种分块方法...
MSQA(Multi-modal Situated Question Answering)是大规模多模态情境推理数据集,提升具身AI代理在3D场景中的理解与推理能力。数据集包含251K个问答对,覆盖...
Excalidraw是开源的在线绘图工具,拥有简洁的手绘风格和实时协作功能。Excalidraw完全在浏览器中运行,无需安装,支持多人同时编辑同一张图,提供端到端加密...
RMBG-2.0是BRIA AI推出的最新开源图像背景移除模型,基于先进的AI技术实现高精度的前景与背景分离,达到SOTA(State of the Art,即当前最佳)水平。RMBG-2.0...
JanusFlow是DeepSeek推出的 Janus 系列,用在多模态理解和生成任务的模型,整合自回归语言模型与校正流技术,在单一模型中实现图像理解和生成。框架基于解耦...
SWE-Kit 是Composio 推出的开源框架, 简化软件工程 AI 代理的开发过程。SWE-Kit提供无头 IDE 环境和 AI 原生工具,用于构建自定义编码代理,支持与多种代理...
Text Behind Image是开源的在线工具,支持用户在图片中的角色背后添加文字,创建具有视觉冲击力的海报和社交媒体图像。用户在图像中的主体背后添加自定义文本...
云锦天章是彩云科技推出的基于DCFormer架构的通用大模型,DCFormer在性能上实现对传统Transformer模型1.7-2倍的提升。云锦天章在虚构的世界观基础上赋予小说...
MikuDance是基于扩散模型的动画生成技术,整合混合运动动力学来动画化风格化的角色艺术。MikuDance基于混合运动建模和混合控制扩散技术,解决高动态运动和参...
MATRIX-Gen是上海交通大学和牛津大学研究团队推出的多智能体模拟系统,基于模拟1000多个具有独立身份和人格的AI智能体组成的社会,生成多样化且高质量的训练...
BodyTalk是Panjaya推出的AI视频配音工具,基于生成性AI技术,将视频中的人物声音转换为其他语言,自动调整视频中人物的面部表情和肢体动作,自然地匹配新的语...
Windsurf 是Codeium公司推出的AI编程工具,具备实时协作功能,支持多系统,提供了强大的上下文感知能力。Windsurf融合了协作式 Copilots 和独立操作的 Agents...
OmniParse是数据解析平台,将非结构化数据转换为结构化、可操作的数据,优化适用于GenAI(大型语言模型)应用。OmniParse支持约20种文件类型,包括文档、表格...
Promptim是实验性的AI提示优化库,基于自动化流程提升AI系统在特定任务上的提示效果。用户提供初始提示、数据集和自定义评估器,Promptim能自动运行优化循环...
TinyTroupe是microsoft推出的实验性Python库,用在模拟具有特定个性、兴趣和目标的人工代理(TinyPersons),在模拟环境(TinyWorld)中进行互动。TinyTroupe...
Thinking Claude是基于深度思考协议和浏览器扩展工具,增强AI模型Claude-3.5的“深度思维”能力的项目,让其思考逻辑更接近人类。支持AI以自然、未经过滤的方式...
OmniVision是紧凑的多模态模型,拥有968M参数,专为边缘设备优化。OmniVision能处理视觉和文本输入,基于LLaVA架构改进,显著减少图像token数量,降低延迟和...
Free Video-LLM是创新的无需训练的高效视频语言模型,基于提示引导的视觉感知技术,实现对视频内容的高效理解。模型用预训练的图像LLMs,无需额外训练即可适...
LogoCreator是开源的logo生成器,基于Together AI提供的Flux Pro 1.1技术快速创建专业风格的logo。项目用Next.js和TypeScript构建应用框架,Shadcn和Tailwind...
法信法律基座大模型是基于清华大学与面壁智能科研成果转化的千亿参数通用大模型,由最高人民法院发布,定位为国家级法律AI基础设施。提供生成式AI底层能力,...