RapidPages 是一个开源的集成开发环境(IDE),专注于基于AI技术快速生成 React 和 Tailwind CSS 的 UI 组件。基于自然语言处理,支持用户仅通过描述所需界面...
RapidPages 是一个开源的集成开发环境(IDE),专注于基于AI技术快速生成 React 和 Tailwind CSS 的 UI 组件。基于自然语言处理,支持用户仅通过描述所需界面...
Ovis1.6是阿里国际AI团队推出的多模态大模型,在多模态权威综合评测基准OpenCompass上取得了优异的成绩,特别是在30亿参数以下的模型中综合得分排名第一,超...
Gummy是通义实验室在2024年云栖大会上推出的端到端语音翻译大模型。模型能实时流式生成语音识别与翻译结果,支持包括中文、英语、粤语、日语、韩语、法语、德...
cogvlm2-llama3-caption模型是一个基于CogVLM2架构的视频描述生成模型。模型用于理解视频内容,自动生成描述视频内容的文本标题或字幕。
书生·物华2.0(3DTopia 2.0)是由上海人工智能实验室与南洋理工大学联合开发的三维物体生成大模型。模型采用创新的原语(primitive-based)三维表示方法PrimX...
StoryMaker 是小红书开源的一款文本到图像生成工具,专注于帮助创作者在连续图像内容中保持角色的一致性。基于 Stable Diffusion XL 模型和 LoRA 技术,确保...
CogVideoX-Fun是一个基于CogVideoX结合EasyAnimate修改的AI视频生成整合包,提供了更自由的生成条件,支持文字生成视频、图片生成视频以及视频生成视频。工具...
ItiNera 是港大和MIT联合开发的智能城市行程规划系统。基于大型语言模型(LLM)和空间优化技术,根据用户的个性化需求,如情侣酒吧、二次元圣地等,一键生成C...
华知大模型5.0是同方知网与华为云联合推出的AI大模型,具备多模态理解和生成能力。华知大模型5.0的最大亮点在于多维模型的构建能力,涵盖从7B到135B不等的多...
LVCD(Large Video Color Diffusion)是一个专为动画视频线稿上色设计的视频扩散框架,能将黑白线稿自动转化为彩色动画视频。LVCD使用了一种先进的扩散模型,...
LLaMA-Omni 是中国科学院计算技术研究所和中国科学院大学研究者推出的新型模型架构,用于实现与大型语言模型(LLM)的低延迟、高质量语音交互。通过集成预训...
SCoRe(Self-Correction via Reinforcement Learning)是谷歌DeepMind推出的一种创新的多轮强化学习方法,旨在提高大型语言模型(LLM)的自我纠错能力。通过...
AiNiee 是一款AI翻译工具,能一键自动翻译RPG、SLG游戏、Epub、TXT格式的小说、Srt、Lrc字幕文件等。工具支持多格式文件,接入多个主流AI接口平台,如OpenAI...
ANTO是一款开源的Windows桌面字幕翻译工具,用于翻译SRT格式的视频字幕文件。集成多种翻译引擎,如谷歌翻译、DeepL、微软翻译、百度翻译和有道翻译等,用户根...
OpenMusic 是一款基于 QA-MDT(Quality-aware Masked Diffusion Transformer)技术的高质量文生音乐模型。基于先进的AI算法,根据文本描述生成高质量的音乐作...
SFR-RAG是由Salesforce AI Research推出的一款大型语言模型,专注于提升机器在理解和生成文本方面的应用能力。模型特别强调对上下文的忠实理解,在检索增强生...
oneWebot2是一款微信AI机器人一键运行软件包,用户下载exe文件后,双击即可启动,无需复杂的Python环境配置。有图形化界面,简化配置流程,非技术用户轻松设...
GOT-OCR 2.0是一种先进的光学字符识别(OCR)模型,推动OCR技术进入2.0时代。GOT-OCR 2.0端到端的模型由高压缩编码器和长上下文解码器组成,能处理包括文本、...
豆包PixelDance是字节跳动最新推出的AI视频生成模型,采用DiT结构,支持文生视频和图生视频。它能理解复杂指令,生成长达10秒的连贯视频片段,涵盖多主体交互...
豆包Seaweed是字节跳动推出的AI视频生成模型,支持文生视频和图生视频两种模式。基于Transformer结构,利用时空压缩技术进行训练,原生支持多分辨率输出,适...
PortraitGen是中国科学技术大学研究团队推出的一款AI人像视频编辑工具。基于3D高斯溅射技术和神经高斯纹理机制,将2D人像视频转换为4D高斯场,实现高质量的3D...
MMMLU(多语言大规模多任务语言理解)是由OpenAI推出的一个开源数据集,旨在评估和提升人工智能模型在不同语言、认知和文化背景下的性能而设计。MMMLU建立在...
Llama 3.2是Meta公司最新推出的开源AI大模型系列,包括小型和中型视觉语言模型(11B和90B参数)以及轻量级纯文本模型(1B和3B参数)。Llama 3.2模型专为边缘...
MIMO是阿里巴巴集团智能计算研究所推出的可控角色视频合成的新型AI框架,基于空间分解建模技术,将2D视频转换为3D空间代码,实现对角色、动作和场景的精确控...