Open-Sora 2.0 - 潞晨科技开源的AI视频生成模型
Open-Sora 2.0 是潞晨科技推出的全新开源SOTA(State-of-the-Art)视频生成模型。Open-Sora 2.0 用 20 万美元(224 张 GPU)成功训练出 11B 参数的商业级模型...
Open-Sora 2.0 是潞晨科技推出的全新开源SOTA(State-of-the-Art)视频生成模型。Open-Sora 2.0 用 20 万美元(224 张 GPU)成功训练出 11B 参数的商业级模型...
Gemini Robotics 是谷歌 DeepMind 推出的基于 Gemini 2.0 的机器人项目,将大型多模态模型的能力引入物理世界。项目包含两个主要模型:Gemini Robotics-ER 和...
PP-TableMagic 是百度飞桨团队推出的高性能表格识别工具,用在将图片中的表格结构化信息提取出来,转换为 HTML 等格式,进行进一步的数据处理和分析。PP-Tabl...
Gemini 2.0 Flash是Google推出的多模态AI模型,结合文本理解和图像生成能力。根据自然语言输入生成高质量的图像,支持多轮对话式的图像编辑,保持上下文连贯...
TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能在90分钟内生成10万Token的文本,相比传统自回归模型的近5小时,速度提升了3倍,生...
MIDI(Multi-Instance Diffusion for Single Image to 3D Scene Generation)是先进的3D场景生成技术,能在短时间内将单张图像转化为高保真度的3D场景。通过...
Evolving Agents 是用在创建、管理和进化 AI 代理的生产级框架。Evolving Agents支持智能代理之间的通信和协作,根据语义理解需求、基于过往经验进化,有效解...
MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架,主要用于高效训练大规模语言模型。支持 dense 模型、多模态模型及 MoE(混合专家)...
APB(Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs)是清华大学等机构联合提出的分布式长上下文推理...
Botgroup.chat 是基于 React 和 Cloudflare Pages 的多人 AI 聊天应用。支持多个 AI 角色同时参与对话,提供类似群聊的交互体验。用户可以自定义 AI 角色的性...
MT-TransformerEngine 是摩尔线程开源的高效训练与推理优化框架,专为 Transformer 模型设计。框架通过算子融合、并行加速等技术,充分基于摩尔线程全功能 GP...
Chitu(赤兔)是清华大学高性能计算研究所与清程极智联合开源的高性能大模型推理引擎,专为解决大模型在推理阶段的高成本和低效率问题设计,具有强大的硬件适...
Open-LLM-VTuber 是开源的跨平台语音交互 AI 伴侣项目。支持实时语音对话、视觉感知,配备生动的 Live2D 动态形象,能完全离线运行,保护隐私。用户将其作为...
MetaStone-L1-7B 是 MetaStone 系列中的轻量级推理模型,专为提升复杂下游任务的性能而设计。在数学和代码等核心推理基准测试中达到了并行模型的顶尖水平(SO...
文心大模型4.5是百度正式发布的最新一代首个原生多模态大模型,在多模态理解、文本和逻辑推理等方面有显著提升,多项测试表现优于GPT4.5。模型已上线百度智能...
文心大模型X1是百度推出的深度思考模型。具备“长思维链”,擅长中文知识问答、文学创作、逻辑推理等。X1增加了多模态能力,能理解和生成图片,能调用工具生成...
MM-Eureka 是上海人工智能实验室、上海创智学院、上海交通大学和香港大学的研究人员共同开发的多模态推理模型。模型通过基于规则的大规模强化学习(RL),将...
Command A 是 Cohere 推出的最新生成式 AI 模型,专为企业级应用设计。Command A用高性能和低硬件成本为核心优势,能在两块 GPU 上高效部署,相比其他类似模...
AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压器模型,专门用于从任意内容生成音频和音乐。模型能处理多种输入模态,包括文本、视频、图像、音乐和...
MedRAG是南洋理工大学研究团队提出的医学诊断模型,通过结合知识图谱推理增强大语言模型(LLM)的诊断能力。模型构建了四层细粒度诊断知识图谱,可精准分类不...
I2V3D是香港城市大学和微软 GenAI创新的图像到视频生成框架,支持将静态图像转换为动态视频,基于3D几何引导实现精确的动画控制。I2V3D结合传统计算机图形学...
OpenBioMed 是清华大学智能产业研究院(AIR)和水木分子共同推出的开源平台,专注于 AI 驱动的生物医学研究。是多模态表征学习工具包,能处理分子、蛋白质、...
amis 是百度开源的低代码前端框架,基于简单的 JSON 配置快速生成各种后台页面,无需编写复杂前端代码。amis支持表单、表格、图表、CRUD 操作等功能,提供丰...
Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,有 240 亿参数,基于 Apache 2.0 许可证发布。在文本和多模态任务上表现出色,支持长达 128k to...