DeepSite - 基于 DeepSeek 开源的 AI 前端开发工具
DeepSite 是基于 DeepSeek-V3 模型的在线开发工具,用户无需配置环境或安装软件,在网页上直接输入需求,快速生成游戏、应用或网页的代码,支持实时预览效果。
DeepSite 是基于 DeepSeek-V3 模型的在线开发工具,用户无需配置环境或安装软件,在网页上直接输入需求,快速生成游戏、应用或网页的代码,支持实时预览效果。
EasyControl Ghibli 是基于 EasyControl 框架开发的 AI 模型,已上线 Hugging Face 平台,专注于将普通图像转换为吉卜力风格的图像。仅用100张亚洲人脸照片及...
Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言(含...
WorldScore 是斯坦福大学提出的用于世界生成模型的统一评估基准。将世界生成分解为一系列的下一个场景生成任务,通过明确的基于相机轨迹的布局规范来实现不同...
PaperBench是OpenAI开源的AI智能体评测基准,支持评估智能体复现顶级学术论文的能力。PaperBench要求智能体从理解论文内容到编写代码、执行实验,全面展现从...
DreamActor-M1是字节跳动推出的先进AI图像动画框架,能将静态人物照片转化为生动的动画视频。采用混合引导机制,结合隐式面部表示、3D头部球体和3D身体骨架等...
MoCha AI 是 Meta 和滑铁卢大学联合开发的端到端对话角色视频生成模型。能根据文本或语音输入生成带有同步语音和自然动作的完整角色动画。MoCha 采用语音-视...
DeepSeek-GRM是DeepSeek和清华大学研究者共同提出的通用奖励模型(Generalist Reward Modeling)。通过点式生成式奖励建模(Pointwise Generative Reward Mod...
OlympicArena是上海交通大学、上海AI Lab、苏州大学和上海交通大学生成式人工智能实验室(GAIR Lab)联合推出的多学科认知推理基准测试框架。OlympicArena包...
AbletonMCP 是开源项目,基于模型上下文协议(MCP) 将 Ableton Live 与 Claude AI 连接,实现 AI 辅助音乐制作。AbletonMCP 基于双向通信,支持用户基于 Cla...
BabelDOC 是开源的智能 PDF 翻译工具,专为科学论文翻译设计。能在原文旁生成翻译文本,形成双语对照,无需切换窗口,方便阅读。能完整保留数学公式、表格和...
Llama 4 是 Meta 开源的多模态系列AI模型。首次采用混合专家(MoE)架构,在训练和推理时计算效率更高。Llama 4 目前有 Scout 和 Maverick 两个版本。Scout ...
OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 T...
Seedream 3.0(即梦3.0)是字节跳动推出的AI图片生成模型,模型支持原生 2K 分辨率图像输出,快速生成高品质图像,仅需 3 秒。模型在小字生成与排版、美感与...
Quasar Alpha 是支持 100 万 token 的超大上下文窗口的预发布版 AI 模型,可处理超长文本和复杂文档。代码生成能力出色,生成速度快,延迟低,指令遵循能力强...
OmniCam 是先进的多模态视频生成框架,通过摄像机控制实现高质量的视频生成。支持多种输入模态组合,用户可以提供文本描述、视频中的轨迹或图像作为参考,精...
AnimeGamer 是腾讯 PCG 和香港城市大学共同推出的无限动漫生活模拟系统。基于多模态大语言模型(MLLM),支持玩家基于开放式的语言指令,用动漫角色的身份沉...
Awesome MCP Servers 是开源项目,汇集各种基于 Model Context Protocol (MCP) 的服务器。Awesome MCP Servers 整理超过 3000 个 MCP 服务器,覆盖浏览器自动...
ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不...
SkyReels-A2是昆仑万维推出的可控视频生成框架,支持根据文本提示将任意视觉元素(如人物、物体、背景)组合成合成视频,严格保持与每个元素的参考图像的一致...
ChildMandarin 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)共同推出的,针对3-5岁儿童的普通话语音数据集。数据集包含41.25小时的语音...
MagicColor 是香港科技大学推出的多实例线稿图着色框架,支持高效地为线稿图添加色彩。MagicColor基于自监督训练策略和实例引导模块,解决多实例数据不足的问...
Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图像完成复杂推理任务。模型在视...
SeniorTalk 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)推出的全球首个中文超高龄老年人对话语音数据集。数据集包含202位75岁及以上超...