podlm-public - 开源的AI博客生成工具,支持网页URL、文本转换成博客
podlm-public是一个开源AI播客工具,旨在创建一个中文版的NotebookLM替代品,专门用在将任意URL转换成播客内容,再推送到小宇宙平台。项目基于先进的AI技术,...
podlm-public是一个开源AI播客工具,旨在创建一个中文版的NotebookLM替代品,专门用在将任意URL转换成播客内容,再推送到小宇宙平台。项目基于先进的AI技术,...
Yi-Lightning 是零一万物公司最新发布的旗舰模型,在国际权威盲测榜单 LMSYS 上取得了显著成绩,超越了硅谷知名 OpenAI 的 GPT-4o-2024-05-13 和 Anthropic C...
FunASR是由阿里巴巴达摩院开源的语音识别工具包,提供包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR...
CleanS2S是一个流式语音到语音(S2S)交互智能体原型,提供高质量、实时的语音交互体验。CleanS2S项目基于单文件实现,简化配置和理解过程,便于用户和研究人...
Hallo2是复旦大学、百度公司和南京大学共同推出的音频驱动视频生成模型。能将单张参考图片和持续几分钟的音频输入结合起来,基于可选的文本提示调节肖像表情...
模型判官是一个基于 Next.js 构建的在线AI模型评测平台,用户输入问题并选择多个AI模型进行测试,帮助用户快速识别出最适于需求的AI模型。平台的特色在于,提...
AgentStack是一个开源工具,旨在帮助开发者快速构建AI代理项目。基于提供一个预配置的模板和集成流行的代理框架及大型语言模型(LLM)提供商,简化从零开始创...
Marco是阿里国际最新推出的大规模商用翻译大模型,支持15种全球主流语种,包括中、英、日、韩、西、法等。在BLEU评测指标上超越Google翻译、DeepL、GPT-4等竞...
Ministral 3B和8B是由Mistral AI推出的两款新型AI小模型,专为设备端计算和边缘使用场景设计。在知识、常识、推理、功能调用和效率方面为10亿参数以下的类别...
TANGO 是一个由东京大学和 CyberAgent AI Lab 共同推出的开源框架,专注于生成与目标语音同步的全身手势视频。基于分层音频运动嵌入和扩散插值网络,将目标语...
Nemotron-70B-Instruct 是英伟达(NVIDIA)发布的一个大型语言模型,基于一种新颖的混合训练方法提升模型遵循指令时的响应质量和一致性。模型结合Bradley-Ter...
SANA是由NVIDIA、麻省理工学院和清华大学共同推出的文本到图像生成框架,能高效地生成高达4096×4096分辨率的高清晰度图像。SANA基于深度压缩自编码器、线性扩...
Chat2DB是一款AI驱动的数据库管理和分析工具,基于自然语言处理技术,支持用户用自然语言与数据库进行交互,简化SQL代码的编写和数据库管理。Chat2DB支持多种...
IterComp是一个由清华大学、北京大学、LibAI Lab、中国科学技术大学、牛津大学和普林斯顿大学的研究人员联合推出的文本到图像生成框架。基于迭代反馈学习机制...
LayerSkip是一种用在加速大型语言模型(LLMs)推理过程的技术。基于在训练阶段应用层dropout和早期退出损失,让模型在推理时从早期层开始更准确地退出,不需...
Spirit LM是由Meta AI团队推出的一种多模态语言模型,能无缝地混合文本和语音数据。Spirit LM基于一个预训练的文本语言模型,用持续在文本和语音单元上的训练...
Story-Adapter 是一种新型的长篇故事可视化框架,能在保持语义一致性的同时,生成高质量且具有细腻交互的故事图像序列。通过迭代方式,基于全局参考交叉注意...
LOKI是由中山大学和上海AI Lab联合提出的合成数据检测基准,旨在全面评估大型多模态模型(LMMs)在识别视频、图像、3D、文本和音频等多种模态合成数据的能力...
NotesGPT是一款开源的AI驱动语音笔记工具,能将用户的语音笔记快速转录成文本,自动生成行动项。工具基于包括Convex数据库、Next.js框架、Together推理模型、...
MEXMA是由Meta AI推出的一种新型的预训练跨语言句子编码器。基于结合句子级和词语级的目标提升句子表示的质量。在训练过程中,MEXMA用一种语言的句子表示预测...
Lingua 是 Meta AI推出的一个轻量级且独立的代码库,旨在助力大规模训练语言模型。基于易于修改的 PyTorch 组件,便于研究人员尝试新的模型架构、损失函数和...
VideoAgent是一种自改进的视频生成系统,由斯坦福大学、滑铁卢大学、DeepMind等机构的研究人员共同推出。根据图像观察和语言指令生成视频计划,转换为机器人...
Llama Tutor 是一个基于AI的个性化学习平台,由 Llama 3.1 和 Together AI 技术驱动,是一个完全开源的项目。支持用户输入想要学习的主题和教育水平,生成一...
ComfyGen是由NVIDIA和特拉维夫大学研究人员推出的一种文本到图像生成系统,基于大型语言模型(LLM)自动创建与用户文本提示相匹配的工作流,提升图像生成的质...