Seed1.5-VL - 字节跳动Seed推出的视觉语言多模态大模型
Seed1.5-VL 是字节跳动 Seed 团队最新发布的视觉-语言多模态大模型,具备强大的通用多模态理解和推理能力,推理成本显著降低。模型由一个 532M 参数的视觉编...
Seed1.5-VL 是字节跳动 Seed 团队最新发布的视觉-语言多模态大模型,具备强大的通用多模态理解和推理能力,推理成本显著降低。模型由一个 532M 参数的视觉编...
Co-Sight是中兴通讯开源的超级智能体项目,为协同视觉分析平台及智能自动化底座。采用多智能体架构,构建“数字团队”协同体系,通过DAG任务引擎驱动,实现任务...
MCPHub是一站式MCP(模型上下文协议)服务器聚合平台。支持将多个MCP服务器整合到不同的流式HTTP(SSE)端点,基于直观的Web界面和强大的协议处理能力,简化A...
HealthBench是OpenAI推出的医疗开源测试基准,用在评估大型语言模型(LLMs)在医疗保健领域的表现和安全性。HealthBench包含5000个模型与用户或医疗专业人员...
Seedance 1.0 lite是火山引擎推出的豆包视频生成模型的小参数量版本,支持文生视频和图生视频两种生成方式,支持生成5秒或10秒、480p或720p分辨率的视频。
Nexus-Gen 是魔搭团队、华东师范大学等机构推出的开源全能图像生成模型,支持同时完成图像理解、生成和编辑任务。Nexus-Gen融合强大的语言模型与扩散模型的能...
StreamBridge 是苹果公司与复旦大学联合推出的端侧视频大语言模型(Video-LLMs)框架,能帮助 AI 实时理解直播流视频。框架基于内存缓冲区和轮次衰减压缩策略...
Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程,从超过 500 万个 3D 资产中筛选出 200 万个高质量数...
OpenVision是加州大学圣克鲁兹分校(UCSC)推出的完全开放、高效且灵活的高级视觉编码器家族,专注于多模态学习。提供从5.9M到632.1M参数的多种规模模型,适...
FLUX-Text 是阿里推出的新型的多语言场景文本编辑框架,基于扩散模型(Diffusion Model)和轻量级字形嵌入模块。框架基于注入字形条件信息,提升复杂场景下文...
MCA-Ctrl(Multi-party Collaborative Attention Control)是中科院计算所和中国科学院大学的推出的图像定制生成框架,基于文本和复杂视觉条件实现高质量的图...
AgentCPM-GUI 是清华大学和面壁智能团队联合推出的开源端侧 GUI Agent ,针对中文应用优化。模型基于 MiniCPM-V(80 亿参数)构建,能接受智能手机截图作为输...
AG-UI(Agent-User Interaction Protocol)是开源的、轻量级的、基于事件的协议,支持标准化AI Agent 与前端应用之间的交互。AG-UI定义16种标准事件类型,支...
DreamFit是字节跳动团队联合清华大学深圳国际研究生院、中山大学深圳校区推出的虚拟试衣框架,专门用在轻量级服装为中心的人类图像生成。基于自适应注意力和L...
Minion Agent是Agent框架,支持浏览器操作、MCP、自动规划和深度研究等功能。Minion Agent支持多种模型,基于灵活的配置选项满足不同需求。
Being-M0 是北京大学、中国人民大学等机构联合推出的首个大规模人形机器人通用动作生成模型。Being-M0 基于业界首个百万级动作数据集 MotionLib,用创新的 Mo...
DanceGRPO 是字节跳动 Seed 和香港大学联合推出的首个统一视觉生成强化学习框架。将强化学习应用在视觉生成领域,覆盖两大生成范式(diffusion 和 rectified ...
AlphaEvolve是谷歌DeepMind推出的通用科学Agent,基于结合大型语言模型(LLMs)的创造力和自动评估器来设计和优化高级算法。用Gemini Flash和Gemini Pro两种...
WorldMem 是南洋理工大学、北京大学和上海 AI Lab 推出的创新 AI 世界生成模型。模型基于引入记忆机制,解决传统世界生成模型在长时序下缺乏一致性的关键问题...
GPDiT(Generative Pre-trained Autoregressive Diffusion Transformer)是北京大学、清华大学、StepFun公司及中国科学技术大学推出的新型视频生成模型,模型...
Skywork-VL Reward是Skywork AI开源的多模态奖励模型,能为多模态理解和推理任务提供可靠的奖励信号。模型基于Qwen2.5-VL-7B-Instruct架构,基于添加奖励头结...
ChatUI 是阿里团队推出的开源智能对话式 UI 组件库,能帮助开发者快速构建高质量的聊天应用,提供响应式设计、国际化、主题定制等功能。ChatUI 基于阿里巴巴 ...
FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模块,为各种角色生...
MT-Color是上海交通大学联合哔哩哔哩推出的基于扩散模型的可控图像着色框架,基于用户提供的实例感知文本和掩码实现精确的实例级图像着色。框架基于像素级掩...