Kiln AI是开源的 AI 开发工具,能简化大型语言模型(LLM)的微调、合成数据生成和数据集协作。Kiln AI提供直观的桌面应用程序,支持 Windows、MacOS 和 Linux...
Kiln AI是开源的 AI 开发工具,能简化大型语言模型(LLM)的微调、合成数据生成和数据集协作。Kiln AI提供直观的桌面应用程序,支持 Windows、MacOS 和 Linux...
Airweave 是开源工具,能将任何应用程序的数据(包括API、数据库、网站等)同步到图数据库和向量数据库中,让数据能基于智能代理或搜索机制进行检索。Airweav...
MotionCanvas是香港中文大学、Adobe 研究院和莫纳什大学推出的图像到视频(I2V)生成方法,能将静态图像转化为具有丰富动态效果的视频。MotionCanvas基于引入...
MedRAX(Medical Reasoning Agent for Chest X-ray)是专门用于胸部X光检查的医学推理AI代理。通过整合最先进的胸部X光分析工具和多模态大型语言模型,形成一...
LangBot 是开源的即时聊天机器人平台,支持多平台(如 QQ、微信、飞书、Discord 等)和多种大语言模型(如 ChatGPT、DeepSeek、Gemini 等)。LangBot具备多模...
LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器,基于与大型语言模型(LLM)协同训练提升目标检...
VisoMaster 是基于 AI 技术的换脸和编辑软件,功能强大操作简便。支持图片、视频以及直播换脸,能生成自然逼真的换脸效果,应用于娱乐、影视制作等领域。支持...
FlashVideo是字节跳动团队提出的高效的高分辨率视频生成框架,通过两阶段方法解决了传统单阶段扩散模型在高分辨率视频生成中面临的巨大计算成本问题。在第一...
ACE++是阿里巴巴通义实验室推出的先进的图像生成与编辑工具,通过指令化和上下文感知的内容填充技术,实现了高质量的图像创作和编辑功能。
LLaVA-Rad是微软研究院推出的小型多模态模型,专注于临床放射学报告生成。是LLaVA-Med项目的分支,特别是胸部X光(CXR)成像。基于LLaVA-Med的基础架构和训练...
Satori 是 MIT、哈佛大学等机构研究者推出的 7B 参数的大型语言模型,专注于提升推理能力。基于Qwen-2.5-Math-7B,Satori通过小规模的格式微调和大规模的增强...
Goku是香港大学和字节跳动联合发布的最新视频生成模型,专为图像和视频的联合生成设计。基于先进的rectified flow Transformer框架,支持文生视频、图生视频...
AnythingLLM 是开源免费且支持多模态交互的全栈 AI 客户端。AnythingLLM支持文本、图像和音频等多种输入方式,将任何文档或内容转化为上下文,供各种语言模型...
VideoCaptioner(中文名:卡卡字幕助手)是基于大语言模型(LLM)的智能字幕处理工具,能简化视频字幕的生成与优化流程。VideoCaptioner支持语音识别、字幕断...
Zonos是Zyphra推出的高保真文本到语音(TTS)模型。Zonos包含两个模型:16亿参数的Transformer模型和SSM混合模型,均在Apache 2.0许可下开源。Zonos根据文本...
InspireMusic 是阿里巴巴通义实验室开源的音乐生成技术,通过人工智能为用户生成高质量的音乐作品。基于多模态大模型技术,支持通过简单的文字描述或音频提示...
YAYI-Ultra 是中科闻歌研发的企业级大语言模型的旗舰版本,具备强大的多领域专业能力和多模态内容生成能力。支持数学、代码、金融、舆情、中医、安全等多个领...
HUGWBC(Humanoid Unified and General Whole-Body Controller)是上海交通大学、上海AI Lab联合推出的人形机器人全身控制器,能实现精细的运动控制。HUGWBC...
TPO(Test-Time Preference Optimization)是新型的AI优化框架,在推理阶段对语言模型输出进行动态优化,更符合人类偏好。TPO通过将奖励信号转化为文本反馈,...
PDF to Podcast是NVIDIA推出的PDF转音频的AI工具,基于NVIDIA NIM微服务架构的,能将PDF文档转换为生动的音频内容,如播客。基于大型语言模型(LLM)、文本到...
InternVideo2.5是上海人工智能实验室联合南京大学、中科院深圳先进技术研究院共同开源的视频多模态大模型。在视频理解领域取得了显著进展,特别是在长视频处...
HumanDiT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器(Diffusion Transformer,DiT),能在大规模数据集上训练,生成...
ProtGPS(Protein Localization Prediction Model)是麻省理工学院(MIT)和怀特黑德生物医学研究所推出的,基于深度学习的蛋白质语言模型,用在预测蛋白质在...
potpie.ai 是开源平台,基于AI技术为代码库创建定制化的工程代理(Agents)。potpie.ai基于构建代码库的知识图谱,深度理解代码组件之间的关系,实现自动化代...