TensorRT LLM - NVIDIA开源的大模型推理优化框架
TensorRT LLM 是 NVIDIA 推出的优化大型语言模型(LLM)在 NVIDIA GPU 上的推理性能框架。TensorRT LLM 基于 PyTorch 架构,提供高效易于使用的 Python API,...
TensorRT LLM 是 NVIDIA 推出的优化大型语言模型(LLM)在 NVIDIA GPU 上的推理性能框架。TensorRT LLM 基于 PyTorch 架构,提供高效易于使用的 Python API,...
Qwen3-Max-Thinking是阿里最新推出的千问旗舰推理模型,参数量超1万亿,预训练数据达36T Tokens。模型通过测试时扩展机制和强化学习,显著提升推理性能和效率...
混元图像3.0图生图模型(HunyuanImage 3.0-Instruct)是腾讯推出的先进图像生成与编辑模型。模型基于80B参数的混合专家(MoE)架构,能深度理解用户输入的图...
SGLang 是开源的高性能大型语言模型和多模态模型推理框架。框架提供低延迟、高吞吐量的推理服务,支持从单个 GPU 到大规模分布式集群的部署。
vLLM 是加州大学伯克利分校 Sky Computing Lab 开源的大语言模型(LLM)推理和部署框架,支持为用户提供快速、低成本的模型服务。vLLM 通过创新的内存管理技...
Clawdbot 是开源的个人 AI 助手,工具在本地设备上运行,通过 WhatsApp、Telegram 等聊天应用与用户交互。
OpenJudge 是开源的 AI 应用评测框架,能解决从原型到生产环境的过渡难题。框架通过系统化的评测机制,帮助开发者量化评估 AI 应用的性能,确保其在复杂业务...
D4RT(Dynamic 4D Reconstruction and Tracking)是谷歌 DeepMind 推出的动态 4D 重建模型。模型通过统一的「时空查询」接口,将 3D 重建、相机追踪和动态物...
FlowAct-R1是字节跳动推出的实时交互数字人视频生成框架,仅需单张参考图和音频,支持流式生成无限时长的全身动态视频。
Agentation 是开源的AI编程协作工具,能解决开发者与 AI 编程助手之间沟通效率低下的问题。工具通过让用户直接在网页上标注问题,将视觉反馈转化为代码可读的...
Qwen3-TTS是Qwen开源的系列语音生成模型,具备强大的音色克隆、创造和语音控制能力。模型基于创新的Qwen3-TTS-Tokenizer-12Hz多码本语音编码器,实现高效语音...
Being-H0.5 是卢宗青团队推出的通用机器人模型,能通过人类先验知识和统一的动作对齐,解决机器人在不同形态硬件间的策略迁移问题。
LightOnOCR-2-1B 是 LightOnAI 推出的高效 OCR 模型,参数量仅 1B,在复杂文档处理中表现卓越,擅长学术论文、数学公式和复杂表格的识别。
AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合推出的本地化深度调研智能体,基于8B参数的MiniCPM4.1模型。
VibeVoice-ASR 是微软开源的先进语音识别模型,专为处理长达60分钟的长音频设计。模型能一次性处理整段音频,保持全局上下文,避免传统模型分段处理导致的上...
Model1 是 DeepSeek 在 FlashMLA 代码库中更新曝光的神秘模型,可能为下一代旗舰模型 DeepSeek-V4 的内部代号或首个工程版本。
Chroma 1.0 是FlashLabs首个开源的实时端到端语音对话模型,兼具低延迟交互、高保真个性化语音克隆和强对话能力。模型通过紧密耦合语音理解与生成,采用1:2文...
Step3-VL-10B 是阶跃星辰推出的仅含 10B 参数的开源多模态模型,在视觉感知、逻辑推理、数学竞赛和通用对话等任务中达到 200B 参数模型的性能水平。
EmbodiChain 是跨维智能开源的具身智能学习平台,通过生成式仿真数据推动具身智能的发展。自动创建符合物理规律的 3D 场景和任务,结合在线数据流和自我修复...
json-render是 Vercel 开源的项目,解决 AI 生成 UI 的不可控问题。json-render通过定义一个 Catalog,约束 AI 只能生成符合特定 Schema 的 JSON 数据,用前...
COTA是超参数科技推出的新型游戏智能体,基于大语言模型(LLM)驱动,具备认知、操作、战术和辅助能力。COTA突破传统强化学习与监督学习模式,通过架构创新实...
x-Algorithm是马斯克开源的x平台推荐算法,为“为你”信息流提供个性化内容的核心系统。结合用户关注账号的帖子(In-Network)和通过机器学习检索的全球内容(O...
NVIDIA PersonaPlex 是英伟达推出的全双工对话AI模型,具备同时听和说的能力,能处理自然对话中的打断、停顿和回应。用户可通过语音和文本提示自定义角色和声...
GLM-4.7-Flash 是智谱开源、免费的混合思考模型,具有300亿参数和30亿激活参数。模型在性能与效率上达到平衡,尤其在编程、中文写作、翻译等多场景表现出色,...