Moonlight-16B-A3B - 月之暗面开源的 MoE 模型
Moonlight-16B-A3B 是 Moonshot AI 推出的新型 Mixture-of-Expert (MoE) 模型,具有 160 亿总参数和 30 亿激活参数。模型使用了优化后的 Muon 优化器进行训练...
Moonlight-16B-A3B 是 Moonshot AI 推出的新型 Mixture-of-Expert (MoE) 模型,具有 160 亿总参数和 30 亿激活参数。模型使用了优化后的 Muon 优化器进行训练...
FlashMLA 是 DeepSeek 开源的针对 NVIDIA Hopper 架构 GPU 优化的高效 MLA(Multi-Head Linear Attention)解码内核,专为处理可变长度序列设计。通过优化 KV...
MagicArticulate 是南洋理工大学和字节跳动Seed实验室推出的自动将静态 3D 模型转换为可动画化资产的框架。MagicArticulate基于自回归生成骨架,预测蒙皮权重...
TANGLED是上海科技大学、Deemos Technology和华中科技大学联合推出的3D发型生成方法,支持从任意风格和视角的图像中生成高质量的3D发丝。TANGLED基于三个核心...
Llasa TTS 是香港科技大学基于 LLaMA 架构推出的开源文本转语音(TTS)模型,支持高质量语音合成和克隆。Llasa TTS 基于单层向量量化(VQ)编解码器和单个 Tr...
AingDesk 是开源的客户端软件,帮助用户快速将上百款 AI 模型部署到个人电脑上。通过一键部署功能,简化复杂的模型安装过程,没有技术背景的用户也能轻松上手...
LazyLLM 是开源的低代码平台,帮助开发者快速、低成本地构建多智能体大语言模型应用。通过极简的开发流程,支持一键式部署和跨平台操作,降低了 AI 应用开发...
memobase 是开源的基于用户画像的长期记忆系统,专为生成式人工智能(GenAI)应用设计。memobase能为虚拟助手、教育工具等应用提供用户记忆功能,帮助AI记住...
MeteoRA 是南京大学计算机科学与技术系的研究团队推出的用于大型语言模型(LLM)的多任务嵌入框架,将多个任务特定的 LoRA(低秩适配器)集成到一个基础模型...
MME-CoT 是香港中文大学(深圳)、香港中文大学、字节跳动、南京大学、上海人工智能实验室、宾夕法尼亚大学、清华大学等机构共同推出的用于评估大型多模态模...
Claude 3.7 Sonnet 是 Anthropic 公司推出的全球首款混合推理模型,具备“标准模式”和“扩展思考模式”两种运行方式。标准模式下,Claude 3.7 Sonnet能快速生成...
DeepEP 是 DeepSeek 开源的首个专为混合专家模型(MoE)训练和推理设计的开源 EP(专家并行)通信库。提供了高吞吐量和低延迟的全对全 GPU 内核,支持节点内...
QwQ-Max是阿里巴巴基于Qwen2.5-Max推出的深度推理模型,是 Qwen 系列的一部分。QwQ-Max-Preview作为预览版本推出,QwQ-Max即将正式发布并全面开源。QwQ-Max专...
FantasyID 是阿里巴巴集团和北京邮电大学推出新型的身份保持视频生成(IPT2V)框架,基于增强人脸知识生成高质量的身份一致视频。FantasyID基于扩散变换器(D...
SigStyle 是吉林大学、南京大学智能科学与技术学院及Adobe推出的新型签名风格迁移框架,支持将单张风格图像中独特的视觉特征(如几何结构、色彩搭配、笔触等...
VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型,通过自然语言指令精确定位图像中的目标物体,如根据描述“图中红色的杯子”找到对应的图像区域。...
FacePoke是基于AI技术的开源实时面部编辑工具。用户基于简单的鼠标拖拽操作,对人物照片中的头部朝向(如抬头、低头、左右摇头)和面部表情(如眼睛睁闭、眼...
BFS-Prover 是字节跳动豆包大模型团队推出的基于大语言模型(LLM)的自动定理证明系统,通过改进传统的广度优先搜索(BFS)算法,结合专家迭代、直接偏好优化...
PySpur 是开源的轻量级可视化 AI 智能体工作流构建器,简化 AI 系统的开发流程。基于拖拽式界面让用户能快速构建、测试和迭代 AI 工作流,无需编写复杂代码。...
Wan2.1是阿里云开源的AI视频生成大模型,具备强大的视觉生成能力。Wan2.1支持文生视频和图生视频任务,包含两种尺寸的模型,14B参数的专业版擅长复杂运动生成...
AgentRefine 是北京邮电大学和美团联合提出的智能体合成框架,通过“精炼调整”(Refinement Tuning)提升基于大型语言模型(LLM)的智能体在多样化任务中的泛...
DeepGEMM是DeepSeek开源的为高效简洁的FP8矩阵乘法(GEMM)设计的库,目前仅支持NVIDIA Hopper张量核心。DeepGEMM支持普通和混合专家(MoE)分组的GEMM操作,...
TinyR1-Preview是北京大学计算机学院与360公司联合推出的32B参数量的推理模型。模型仅用5%的参数量,逼近Deepseek-R1-671B的性能,TinyR1-Preview在数学领域...
SurveyX 是基于大型语言模型(LLMs)自动化生成学术综述的系统,是中国人民大学、悉尼大学和中国东北大学联合推出的。基于用户提供论文标题和关键词,快速生...