LangExtract 是谷歌开源的用在从非结构化文本中提取结构化信息的 Python 库。LangExtract 用大型语言模型(LLM),自动处理临床笔记、报告等材料,识别并组织...
LangExtract 是谷歌开源的用在从非结构化文本中提取结构化信息的 Python 库。LangExtract 用大型语言模型(LLM),自动处理临床笔记、报告等材料,识别并组织...
Qwen-Image 是阿里通义千问团队开源的 20B 参数MMDiT模型,是通义千问系列中首个图像生成基础模型,模型在复杂文本渲染和精确图像编辑方面表现出色,支持多行...
AudioGen-Omni是快手推出的多模态音频生成框架,框架能基于视频、文本等输入生成高质量的音频、语音和歌曲。框架通过统一的歌词-文本编码器和相位对齐各向异...
GPT-OSS 是 OpenAI 推出的开源推理模型系列,包含 gpt-oss-120b 和 gpt-oss-20b 两个版本。gpt-oss-120b 拥有1170亿参数,激活参数约51亿,能在单张 80GB GPU...
Genie 3是谷歌DeepMind推出的新一代通用世界模型,能实时生成高度动态且连贯的虚拟世界。模型具备模拟物理现象、自然生态系统、奇幻场景和历史场景的能力,支...
Claude Opus 4.1 是 Anthropic 公司最新推出的大型语言模型,是 Claude Opus 4 的升级版本。模型在多个方面进行优化和提升,包括推理质量、指令遵循能力及整...
Chunkr 是 Lumina AI 推出的开源文档处理 API,专为 RAG(检索增强生成)和知识库场景设计。Chunkr 能将复杂文档(如 PDF、PPT、Word、图片等)转换为结构化...
dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型(LLM),具备强大的视觉感知...
Qwen-Flash是阿里通义千问推出的Qwen3系列Flash模型,版本号为qwen-flash-2025-07-28。模型在通用能力、推理能力、中英文知识处理及Agent能力上均有显著提升...
Speech 2.5 是 MiniMax 推出的新一代语音生成模型,在多语种表现力、音色复刻和语言覆盖范围上实现重大突破。模型支持40种语言,能精准还原不同语言和口音的...
GPT-5 是 OpenAI 最新推出的人工智能模型,是目前最强模型,面向所有用户开放。GPT-5是一个统一系统,包括一个基础模型用在解答常见问题,一个深度推理模型(...
WeKnora 是腾讯开源的基于大语言模型(LLM)的文档理解与语义检索框架。框架基于模块化设计,支持多模态文档解析(如 PDF、Word、图片等),通过 RAG(检索增...
LandPPT 是AI演示文稿生成平台,能将文档内容快速转换为专业的 PPT 演示文稿。LandPPT支持 OpenAI、Claude、Gemini 等多种 AI 模型,兼容 PDF、Word、Markdow...
GitMCP 是开源的远程 Model Context Protocol (MCP) 服务器,能将 GitHub 仓库(包括代码库和 GitHub 页面)转变为实时文档中心,让 AI 工具(如 Cursor)直...
NeuralAgent 是开源的桌面 AI 个人助手,通过自然语言指令自动化执行多种复杂任务,如模拟键盘输入、鼠标点击、浏览器导航、表单填写和邮件发送等。NeuralAge...
self-llm (开源大模型食用指南)是Datawhale专为国内初学者打造的开源大模型教程,基于Linux平台,提供从环境配置到模型部署、微调的全流程指导,涵盖LLaMA...
Glass 是Pickle 团队推出的开源隐形 AI 桌面助手。Glass能在后台实时捕捉屏幕内容和音频,将其转化为结构化知识。Glass核心功能包括实时会议记录、自动摘要生...
WrenAI 是 Canner 推出的开源商业智能 AI Agent工具。通过自然语言交互,帮助用户快速查询、分析和可视化结构化数据,无需编写复杂的 SQL 代码。用户只需用普...
KittenTTS 是轻量级开源文本转语音(TTS)模型,由 KittenML 团队开发。以极小的模型体积(仅 25MB)和强大的 CPU 优化为特点,无需 GPU 即可在低功耗设备上...
DreamVVT 是字节跳动和清华大学(深圳)联合推出的视频虚拟试穿(Video Virtual Try-On, VVT)技术,基于扩散 Transformer(DiTs)框架,通过两阶段方法实现...
SkyReels-A3是昆仑万维推出的先进AI模型,基于DiT(Diffusion Transformer)视频扩散架构,结合插帧、强化学习和运镜控制技术。模型能通过音频驱动,将照片或...
AionUi 是基于 Electron 和 React 构建的免费、开源、跨平台桌面应用,支持将 Gemini CLI 的命令行 AI 聊天体验转化为现代化、高效的图形界面。AionUi 提供增...
Baichuan-M2 是百川智能推出的开源医疗增强大模型。在医疗领域表现卓越,于HealthBench评测中以60.1分超越OpenAI的gpt-oss120b等众多开源模型,登顶世界第一...
MiroThinker 是开源的智能体模型系列,专为深度研究和复杂、长期问题解决而设计。模型基于 Qwen3 构建,具备任务分解、多跳推理、检索增强生成、代码执行、网...