Index-AniSora - B站开源的动漫视频生成模型
Index-AniSora 是哔哩哔哩开源的先进动漫视频生成模型,模型支持一键生成多种动漫风格的视频,涵盖番剧片段、国创动画、VTuber 内容等。模型包含超过 1000 万...
Index-AniSora 是哔哩哔哩开源的先进动漫视频生成模型,模型支持一键生成多种动漫风格的视频,涵盖番剧片段、国创动画、VTuber 内容等。模型包含超过 1000 万...
LightLab是谷歌等机构推出的基于扩散模型的图像光源控制模型,能对单张图像中的光源进行细粒度的参数化控制。支持用户调整光源的强度和颜色,插入虚拟光源,...
WorldPM(World Preference Modeling)是阿里巴巴集团的Qwen团队和复旦大学推出的偏好建模模型系列。基于大规模训练揭示偏好模型的可扩展性。模型基于1500万...
SketchVideo 是中国科学院大学,香港科技大学和快手可灵团队推出的基于草图的视频生成与编辑框架。在关键帧上绘制草图,结合文本提示,实现对视频的空间布局...
Custom-SVG 是Adobe和香港城市大学推出的两阶段风格的SVG定制生成框架,基于文本提示生成具有定制风格的高质量 SVG 图形。框架推出一种两阶段的生成流程,基...
YuLan-OneSim(玉兰-万象)是中国人民大学高瓴 AI 学院RUC-GSAI团队推出的新型社会模拟器。基于大型语言模型(LLM)Agents 模拟人类社会行为,无需编程构建模...
MathModelAgent 是专为数学建模设计的Agent,能自动完成从问题分析到论文生成的全流程。基于多Agent协作,自动建立数学模型、编写代码、验证结果,生成格式规...
Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型,通过将静态图像转化为动态视频,展现出卓越的视觉生成能力。模型在 VBench 国际权威的视频生成评...
ScaleMCP是普华永道推出的工具选择方法,动态的为大型语言模型(LLM)Agents 配备Model Context Protocol(MCP)工具。基于自动同步工具存储系统与MCP服务器...
WeClone是从聊天记录创造数字分身的一站式解决方案。基于聊天记录微调大语言模型(LLM),让模型具有特定的风格,绑定到微信、QQ、Telegram等聊天机器人,实...
Agent Squad 是轻量级、开源的多 Agents 框架,用在协调多个 AI Agents 处理复杂对话。Agent Squad支持 Python 和 TypeScript 两种语言,根据用户输入动态路...
Magentic-UI 是微软推出的开源研究原型,用在探索人类参与的 AI Agent系统。Magentic-UI 是以人为中心的AI Agent,能与用户协作完成复杂的 Web 任务,如浏览...
EvoAgentX 是开源的 AI Agent 自进化框架,通过进化算法实现多 Agent 系统的自动化生成与优化。能根据目标描述自动生成工作流,通过迭代优化提升性能。
NLWeb 是微软推出的开源项目,基于简化网站自然语言界面的创建,让任何网站都能变成 AI 驱动的应用程序。NLWeb用 Schema.org、RSS 等半结构化数据,结合 LLM ...
豆包·语音播客模型是字节跳动旗下火山引擎推出的语音播客模型。模型基于流式模型构建,可将文本秒级转化为双人对话式播客,具有低成本、高时效、强互动特点。...
Veo 3是谷歌I/O开发者大会上发布的新一代视频生成模型。Veo 3是谷歌首个可生成视频背景音效的模型,能合成画面,能为鸟鸣、街头交通等场景配上相应的音效,可...
II-Agent 是开源的Agent框架,通过与大型语言模型(LLM)的交互,简化和提升跨多个领域的工作流程。具备多种核心功能,包括研究与事实核查、内容生成、数据分...
News Agents基于终端的新闻聚合与摘要系统。基于Amazon Q CLI作为 Agent 框架,用Model Context Protocol (MCP)解析RSS新闻源,借助tmux实现终端分割和多任...
Imagen 4是谷歌发布的最新图像生成AI模型。支持高达2K分辨率的图像生成,细节呈现逼真,可清晰呈现复杂织物纹理、水滴折射及动物毛发质感等。在文本渲染方面...
Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synthesia联合推出的单图像3D人脸重建框架。框架基于DINO基础模型,引入专门的预测头,从单张RGB图像中准确重建出...
AutoBE 是 AI 驱动的后端服务器代码生成工具,通过用户描述需求自动生成高质量的后端代码。基于 TypeScript、NestJS、Prisma 和 Postgres 等技术栈构建,强调...
Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型。基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4B 参数模型水平。模型参数量分别...
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义...
Graphiti 是为动态环境设计的 AI 知识图谱生成框架,为 AI 智能体构建能查询、具有时间感知能力的知识网络。Graphiti 能实时摄取和处理结构化与非结构化数据...