Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型,专注于提升数学和代码推理能力。模型通过长思维链监督微调(long CoT SFT)和强化学习(RL)训...
Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型,专注于提升数学和代码推理能力。模型通过长思维链监督微调(long CoT SFT)和强化学习(RL)训...
Nano Banana 是谷歌推出的AI图像生成与编辑模型,Gemini 2.5 Flash Image(代号Nano Banana)模型具有极高的人物一致性,能精准还原人物的面部特征和表情,在...
CombatVLA 是淘天集团未来生活实验室团队推出的专为3D动作角色扮演游戏(ARPG)中的战斗任务设计的高效视觉-语言-动作(VLA)模型。模型基于3B参数规模,通过...
NVIDIA Nemotron Nano 2 是英伟达推出的高效推理模型,参数量为9B。模型基于混合Mamba-Transformer架构,在20万亿个token上预训练,支持128k上下文长度。
DeepSeek V3.1是DeepSeek最新推出的AI模型版本,具备混合推理架构,能自由切换思考模式与非思考模式,思考效率显著提升。模型在V3的基础上进行多项升级,上下...
AutoCodeBench 是腾讯混元推出的专门测评大模型代码能力基准测试集,包含 3920 个问题,均匀分布在 20 种编程语言中。数据集具有高难度、实用性和多样性,能...
Seed-OSS 是字节跳动 Seed 团队开源的系列大型语言模型,专注于长文本处理、推理和智能代理能力。模型包含多个版本,如 Seed-OSS-36B-Base 和 Seed-OSS-36B-I...
ToonComposer 是香港中文大学、腾讯 PCG ARC 实验室和北京大学研究人员共同推出的生成式 AI 工具,几秒能将草图转化成专业级动画。ToonComposer基于生成式后...
Intern-S1-mini是上海人工智能实验室推出的轻量级开源多模态推理模型。基于与 Intern-S1 相同的技术构建。模型融合 8B 密集语言模型(Qwen3)和 0.3B 视觉编...
Fun-ASR 是钉钉与通义实验室语音团队联合推出的新一代语音识别大模型。经过海量音频数据训练,能精准识别互联网、科技、家装、畜牧等十多个行业的专业术语,...
Grok 2.5 是埃隆·马斯克旗下 xAI 公司开源的人工智能模型。模型文件可在 Hugging Face 下载,包含 42 个文件,总大小约 500GB,需 8 张显存超 40GB 的 GPU 才...
Prompt Optimizer 是开源的 AI 提示词优化工具,帮助用户快速编写高质量的提示词,提升 AI 输出的质量。一键优化提示词,支持多轮迭代改进,提升 AI 回复的准...
ComoRAG 是华南理工大学未来技术学院、微信 AI 团队等机构联合推出的认知启发式检索增强生成(RAG)框架,专门用在长篇叙事文本的理解和推理。
SlowFast-LLaVA-1.5(简称SF-LLaVA-1.5)是专为长视频理解设计的高效视频大语言模型。基于双流(SlowFast)机制,平衡处理更多输入帧与减少每帧令牌数量之间...
FutureX是字节跳动、复旦大学、斯坦福大学和普林斯顿大学的研究团队联合发布的,专为LLM智能体未来预测任务设计的动态实时评估基准。通过半自动化管道从195个...
问小白o4是国内首个并行思考模型,能同时启动8条思考路径,自动筛选最优解,提供精准答案。模型融合Long‑CoT强化学习与过程奖励学习,具备深度推理和高质量思...
XBai o4是开源的大语言模型,基于“反射生成形式”训练,结合长CoT强化学习和过程奖励学习,在复杂推理能力上表现出色,中等模式下已超越OpenAI-o3-mini。
DeepCode 是香港大学数据智能实验室推出的基于多智能体系统的代码生成平台。DeepCode 能将研究论文、自然语言描述等转化为高质量的生产就绪代码,支持多种编...
VibeVoice 是微软推出的新型文本到语音(TTS)模型,能生成富有表现力、长篇幅、多说话者的对话式音频,如播客。最新开源的VibeVoice-Realtime-0.5B模型,仅5...
EchoMimicV3是蚂蚁集团推出的高效多模态、多任务数字人视频生成框架。框架拥有13亿参数,基于任务混合和模态混合范式,结合新颖的训练与推理策略,实现快速、...
SpatialGen 是群核科技开源的 3D 场景生成模型。模型基于扩散模型架构,支持根据文字描述、参考图像和 3D 空间布局,生成时空一致的多视角图像,且能进一步得...
SpatialLM 1.5 是群核科技推出的强大的空间语言模型。模型基于大语言模型训练,能理解自然语言指令,输出包含空间结构、物体关系和物理参数的空间语言。用户...
WhisperLiveKit 是开源的实时语音识别工具,能将语音实时转录为文字,支持说话人识别。工具基于先进的技术如 SimulStreaming 和 WhisperStreaming,提供超低...
Wan2.2-S2V 是开源的多模态视频生成模型,仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,且支持多种图片类型和画幅。