MikuDance - 混合动力动画生成技术,将静态图像生成动态风格化的角色艺术
MikuDance是基于扩散模型的动画生成技术,整合混合运动动力学来动画化风格化的角色艺术。MikuDance基于混合运动建模和混合控制扩散技术,解决高动态运动和参...
MikuDance是基于扩散模型的动画生成技术,整合混合运动动力学来动画化风格化的角色艺术。MikuDance基于混合运动建模和混合控制扩散技术,解决高动态运动和参...
MATRIX-Gen是上海交通大学和牛津大学研究团队推出的多智能体模拟系统,基于模拟1000多个具有独立身份和人格的AI智能体组成的社会,生成多样化且高质量的训练...
BodyTalk是Panjaya推出的AI视频配音工具,基于生成性AI技术,将视频中的人物声音转换为其他语言,自动调整视频中人物的面部表情和肢体动作,自然地匹配新的语...
Windsurf 是Codeium公司推出的AI编程工具,具备实时协作功能,支持多系统,提供了强大的上下文感知能力。Windsurf融合了协作式 Copilots 和独立操作的 Agents...
OmniParse是数据解析平台,将非结构化数据转换为结构化、可操作的数据,优化适用于GenAI(大型语言模型)应用。OmniParse支持约20种文件类型,包括文档、表格...
Promptim是实验性的AI提示优化库,基于自动化流程提升AI系统在特定任务上的提示效果。用户提供初始提示、数据集和自定义评估器,Promptim能自动运行优化循环...
TinyTroupe是microsoft推出的实验性Python库,用在模拟具有特定个性、兴趣和目标的人工代理(TinyPersons),在模拟环境(TinyWorld)中进行互动。TinyTroupe...
Thinking Claude是基于深度思考协议和浏览器扩展工具,增强AI模型Claude-3.5的“深度思维”能力的项目,让其思考逻辑更接近人类。支持AI以自然、未经过滤的方式...
OmniVision是紧凑的多模态模型,拥有968M参数,专为边缘设备优化。OmniVision能处理视觉和文本输入,基于LLaVA架构改进,显著减少图像token数量,降低延迟和...
Free Video-LLM是创新的无需训练的高效视频语言模型,基于提示引导的视觉感知技术,实现对视频内容的高效理解。模型用预训练的图像LLMs,无需额外训练即可适...
LogoCreator是开源的logo生成器,基于Together AI提供的Flux Pro 1.1技术快速创建专业风格的logo。项目用Next.js和TypeScript构建应用框架,Shadcn和Tailwind...
法信法律基座大模型是基于清华大学与面壁智能科研成果转化的千亿参数通用大模型,由最高人民法院发布,定位为国家级法律AI基础设施。提供生成式AI底层能力,...
Audio Decomposition是音频处理技术,基于傅里叶变换和信封匹配将音乐中的各个音符和乐器分离,实现音乐到乐谱的转换。Audio Decomposition开源项目是Matthew...
Florence-2 是微软 Azure AI 团队推出的多功能视觉模型,能执行图像描述、目标检测、视觉定位和图像分割等多种计算机视觉任务。Florence-2 基于 Transformer ...
k0-math是月之暗面推出的最新数学推理模型,主打深入思考能力。在MATH、中考、高考、考研等数学基准测试中,k0-math的成绩超过OpenAI的o1系列模型。模型基于...
MagicQuill是香港科技大学、蚂蚁集团、浙江大学和香港大学共同推出的开源AI互动式图像编辑工具。基于用户友好的界面和AI支持的智能建议,实现精确的局部图像...
ai-chatbot是Vercel推出的开源项目,基于Next.js框架和Vercel AI SDK构建。ai-chatbot提供一个功能完备、易于定制的AI聊天机器人模板,帮助开发者快速构建高...
LLaMA-Mesh是清华大学和NVIDIA共同推出的项目,基于将3D网格生成与大型语言模型(LLMs)结合,实现用文本提示直接生成3D模型的功能。项目用OBJ文件格式将3D网...
iAgents是清华大学推出的多AI智能体协作框架,基于为每个用户配备个人AI智能体促进协作和完成日常任务。智能体能理解用户的文件、命令,从协作中学习,实现自...
DanceFusion是清华大学推出的开源框架,专注于音频驱动的舞蹈动作重建与生成。DanceFusion结合分层时空Transformer-VAE和扩散模型,能处理社交媒体上的不完整...
Symphony Creative Studio是TikTok推出的AI视频创作工具,帮助广告主和内容创作者简化视频制作流程。Symphony Creative Studio集成视频生成、转换和扩展功能...
Skywork o1是昆仑万维推出的天工大模型4.0 o1版,是国内首款具备中文逻辑推理能力的o1模型。Skywork o1在模型输出中内生了思考、计划、反思等能力,显著提升...
Voyage Multimodal-3 是 Voyage AI 推出的先进的多模态嵌入模型,能处理交错的文本和图像,并从 PDF、幻灯片、表格等截图中捕捉关键视觉特征,无需复杂文档解...
Hali是特斯联联合国际轻奢品牌Buttons推出的多模态多智能体协作AI Agent。Hali具备类人思考、长记忆、物理世界感知和多智能体协作四大特点,语义理解准确率超...