mPLUG-Owl3 - 阿里巴巴推出的通用多模态AI模型
mPLUG-Owl3是阿里巴巴推出的先进通用多模态大模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。
mPLUG-Owl3是阿里巴巴推出的先进通用多模态大模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。
Moffee是开源的Markdown转PPT工具,支持用户使用Markdown语法快速创建专业的幻灯片。Moffee自动处理布局、分页和样式,支持实时预览和导出为PDF或HTML格式。
Lingo 是西湖心辰推出的国内首个端到端语音大模型,在技术上具备实时打断、实时指令控制、超级拟人、能说会唱等能力,拥有比 GPT-4o 更出色的中文语音效果。
山海大模型是云知声推出的多模态AI大模型,具备丰富的知识储备和多模态交互能力。山海大模型能通过文本、音频、图像等多种形式与用户进行实时互动,提供信息...
AIEditor是面向 AI 的下一代富文本编辑器,AIEditor基于 Web Component 开发,支持 Layui、Vue、React、Angular、Svelte 等几乎任何前端框架。AIEditor适配了...
Omages是一个开源的3D模型生成项目,基于图像扩散技术将3D形状的几何和纹理信息编码进64x64像素的2D图像中,从而简化3D建模流程。
浦语灵笔IXC-2.5是上海人工智能实验室推出的新一代多模态大模型,具备7B规模的大型语言模型后端。能处理长达96K的长上下文,支持超高分辨率图像和细粒度视频...
GLM-4-Flash是智谱AI推出的首个免费大模型API,GLM-4-Flash不仅支持多轮对话和多语言处理,还具备网页浏览、代码执行等高级功能。开发者和企业可以在智谱AI开...
AgentGen是香港大学与微软联合推出的AI项目框架,通过自动生成多样化环境和任务,显著提升了大语言模型(LLM)的规划能力。AgentGen利用BI-EVOL方法,创建难...
MotionGen是元象科技推出的3D动作生成模型,结合了大模型、物理仿真和强化学习算法,支持用户仅通过简单文本指令即可快速生成逼真且流畅的3D动作。MotionGen...
新壹视频大模型是新壹科技推出的AI视频创作大模型,自研AI算法和深度学习技术,实现从剧本到成品的一键式创作。具备剧本生成、情感化语音合成、3D元素创建和...
GameNGen是谷歌推出的首个AI游戏引擎,能以每秒20帧的速度实时生成逼真的DOOM游戏画面,甚至让60%的玩家无法区分真假。GameNGen预示着游戏开发可能不再需要传...
GLM-4-Plus是智谱AI最新推出的高智能旗舰大模型,在语言理解和长文本处理上取得突破,采用创新技术如PPO,显著提升推理和指令遵循能力。GLM-4-Plus在多个关键...
书生·浦语是上海人工智能实验室推出的开源AI大模型,具有卓越的推理能力和超长文本处理功能。书生·浦语支持高达一百万词元的文本输入,能自主进行网络搜索并...
CogView-3-Plus是智谱AI最新推出的AI文生图模型,采用Transformer架构替代传统UNet,优化了扩散模型的噪声规划。CogView-3-Plus在图像生成方面表现出色,能根...
GLM-4V-Plus是智谱AI最新推出的多模态AI模型,专注于图像和视频理解。GLM-4V-Plus不仅能够精确分析静态图像,还具备动态视频内容的时间感知和理解能力,能捕...
MetaHuman-Stream 是一项前沿的实时交互流式AI数字人技术,集成了 ERNerf、MuseTalk、Wav2lip 等多种先进模型,支持声音克隆和深度学习算法,确保对话流畅自...
Qwen2-VL是阿里巴巴达摩院开源的视觉多模态AI模型,具备高级图像和视频理解能力。Qwen2-VL支持多种语言,能处理不同分辨率和长宽比的图片,实时分析动态视频...
ProPainter是南洋理工大学S-Lab团队推出的AI视频修复项目。通过结合双域传播和蒙版引导的稀疏视频Transformer,有效提高了视频修复的性能。ProPainter能自动...
auto-video-generator是AI自动解说视频生成器,能实现一键生成解说视频。用户只需输入主题,系统便自动撰写脚本、合成语音、生成图片并合成视频,极大提升内...
Roop 是开源的AI视频换脸工具,Roop支持用户通过一张图片替换视频中的面部,无需复杂的数据集或训练过程。安装和使用需要一定的技术技能,适合有一定基础的用...
VFusion3D 是由 Meta 和牛津大学的研究人员共同推出的AI生成3D模型项目,能从单张图片或文本描述中生成高质量的3D对象。VFusion3D 通过微调预训练的视频 AI ...
TurboEdit是Adobe Research 推出的AI即时图像编辑模型。通过编码器迭代反演和基于文本的精细控制,能够在几步内实现对图像的精确编辑。利用详细的文本提示,...
edge-tts是开源的AI文字转语音项目,支持超过40种语言和300多种声音。edge-tts利用微软Azure Cognitive Services的强大功能,能将文本信息转换成流畅自然的语...