百度智能云一见是百度智能云推出的视觉大模型平台,旨在基于领先的视觉大模型技术和丰富的场景化算法方案,实现专业级视觉AI应用的平民化。平台打通从模型生...
百度智能云一见是百度智能云推出的视觉大模型平台,旨在基于领先的视觉大模型技术和丰富的场景化算法方案,实现专业级视觉AI应用的平民化。平台打通从模型生...
libcom 是一个由上海交通大学 (BCMI) 实验室推出的图像合成工具箱。旨在解决前景和背景之间的不一致性问题,如外观、几何和语义上的不匹配,生成逼真的合成图...
F5-TTS是由上海交通大学开源的一款高性能文本到语音(TTS)系统,基于流匹配的非自回归生成方法,结合扩散变换器(DiT)技术。系统在没有额外监督的情况下,...
CursorCore是一个基于大型语言模型(LLMs)的编程辅助框架,用对话式交互帮助程序员更高效地编写和修改代码。框架整合编程过程中的各种信息,包括代码历史、...
MM1.5是苹果公司推出的多模态大型语言模型,旨在增强文本丰富图像理解、视觉指代和定位以及多图像推理能力。模型基于数据为中心的训练方法,在大规模预训练、...
Surya是一款功能强大的开源OCR(光学字符识别)工具包,专门设计用在文档识别,支持超过90种语言的识别。Surya能准确识别出文档中的文本,分析文本的阅读顺序...
Illuminate 是一个由谷歌开发的项目,能将学术论文转化为人工智能生成的音频讨论。项目基于谷歌强大的语言模型 Gemini,将论文内容转换成引人入胜的对话,使...
Loong是由香港大学和字节跳动联合推出的一种新型长视频生成模型,能生成外观一致、动态丰富、场景过渡自然的分钟级长视频。模型基于自回归大型语言模型(LLM...
ScriptViz是由斯坦福大学研究人员推出的一款剧本可视化辅助工具,基于大型电影数据库MovieNet,根据剧本文本和对话检索出相匹配的电影画面,将编剧的文字描述...
MLE-bench 是 OpenAI 推出的一个基准测试工具,旨在衡量AI代理(AI Agent)在机器学习工程任务中的表现。测试包含75个来自 Kaggle 的竞赛任务,覆盖自然语言...
GTSinger是由浙江大学研究团队推出的大型开源高质量歌声数据集,旨在支持多样化的歌声任务。GTSinger包含80.59小时的专业录音棚录制的歌声,涵盖九种不同语言...
LightRAG是由香港大学研究团队推出的一种检索增强生成(Retrieval-Augmented Generation, RAG)系统,基于整合图结构索引和双层检索机制,提升大型语言模型在...
Gen2Act是由谷歌、卡内基梅隆大学和斯坦福大学共同推出的一种机器人操作策略,基于预测网络数据中的运动信息来生成人类视频,并将视频用在引导机器人执行新任...
T2V-Turbo是一种先进的文本到视频生成模型,由Google、UC Santa Barbara(加利福尼亚大学圣塔芭芭拉分校)、和University of Waterloo(滑铁卢大学)的研究人...
FLUX.1-Turbo-Alpha是阿里妈妈创意团队基于FLUX.1-dev模型训练的8步蒸馏Lora模型。基于多头判别器技术,升图像生成的质量,支持文本到图像的生成及修复控制网...
OpenR是一个由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学联合开源的全链条训练框架,旨在提升大型语言模型(LLM)的复...
Agent-S 是创新的代理框架,旨在基于图形用户界面(GUI)实现人机交互的自动化。Agent-S 基于模拟人类的操作方式,用鼠标和键盘直接与计算机交互,处理复杂的...
Adobe Firefly 是 Adobe 推出的一系列创意生成式 AI 模型,旨在帮助用户扩展其天生的创造力。这些模型集成在 Adobe 的旗舰应用程序和 Adobe Stock 中,支持的...
Augmented Physics是一个创新的教育工具,基于集成机器学习技术,将物理教科书中的静态图表转换成互动式和嵌入式的物理模拟。工具基于先进的计算机视觉技术,...
podlm-public是一个开源AI播客工具,旨在创建一个中文版的NotebookLM替代品,专门用在将任意URL转换成播客内容,再推送到小宇宙平台。项目基于先进的AI技术,...
Yi-Lightning 是零一万物公司最新发布的旗舰模型,在国际权威盲测榜单 LMSYS 上取得了显著成绩,超越了硅谷知名 OpenAI 的 GPT-4o-2024-05-13 和 Anthropic C...
FunASR是由阿里巴巴达摩院开源的语音识别工具包,提供包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR...
CleanS2S是一个流式语音到语音(S2S)交互智能体原型,提供高质量、实时的语音交互体验。CleanS2S项目基于单文件实现,简化配置和理解过程,便于用户和研究人...
Hallo2是复旦大学、百度公司和南京大学共同推出的音频驱动视频生成模型。能将单张参考图片和持续几分钟的音频输入结合起来,基于可选的文本提示调节肖像表情...