ReCamMaster - 浙大联合快手等推出的视频重渲染框架
ReCamMaster 是浙江大学、快手科技等联合推出的视频重渲染框架,能根据新的相机轨迹重新生成视频内容。通过预训练模型和帧维度条件机制,结合多相机同步数据...
ReCamMaster 是浙江大学、快手科技等联合推出的视频重渲染框架,能根据新的相机轨迹重新生成视频内容。通过预训练模型和帧维度条件机制,结合多相机同步数据...
Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能将 2D 图像转换为具有真实深度和透视感的 3D 视频。用户可以通过指定相机轨迹和多种动态路径(如...
Instella是AMD推出的系列30亿参数的开源语言模型。模型完全从零开始在AMD Instinct™ MI300X GPU上训练而成,基于自回归Transformer架构,包含36个解码器层和3...
Maestro是用在移动和Web应用的端到端自动化测试框架。基于内置的容错能力和延迟容忍机制,解决传统测试中常见的不稳定性和等待问题。Maestro基于声明式语法,...
OLMo 2 32B 是 Allen Institute for AI(Ai2)推出的最新开源语言模型,是 OLMo 2 系列的重要成果。拥有 320 亿参数,是首个在多技能学术基准测试中超越 GPT-...
InternVL 是上海人工智能实验室 OpenGVLab 推出的多模态大模型,专注于视觉与语言任务。采用 ViT-MLP-LLM 架构,通过视觉模块(如 InternViT)和语言模块(如...
Umi-OCR 是免费开源的离线 OCR 文字识别软件。无需联网,解压即用,支持截图、批量图片、PDF 扫描件的文字识别,能识别数学公式、二维码,可生成双层可搜索 P...
Orpheus TTS 是基于 Llama-3b 架构的开源文本到语音(TTS)系统。Orpheus TTS 支持生成自然、富有情感且接近人类水平的语音,具备零样本语音克隆能力,无需预...
o1-pro是 OpenAI 正式推出的 o1 系列的升级版本,o1-pro 是目前 OpenAI 最强大的推理模型,核心优势在于显著提升的计算能力,能更好地应对复杂问题,提供更一...
Crack Coder 是开源的隐形 AI 辅助工具,专为技术面试设计。Crack Coder支持在后台运行,完全隐形,无法被屏幕录制或监控软件检测到。Crack Coder提供实时 AI...
YT Navigator 是 AI 驱动的 YouTube 内容搜索工具,帮助用户高效地搜索和浏览 YouTube 频道内容。YT Navigator自然语言查询功能,让用户快速定位到特定频道视...
Step-Video-TI2V 是阶跃星辰(StepFun)推出的开源图生视频(Image-to-Video)生成模型,拥有 300 亿参数,能根据文本描述和图像输入生成最长 102 帧的视频。...
Dify-Plus 是基于 Dify 二次开发的企业级增强版项目,集成基于 gin-vue-admin 的管理中心。Dify-Plus在 Dify 基础上新增用户额度、密钥额度、Web 公开页登录...
gpt-4o-transcribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构,用海量多样化音频数据训练,精准捕捉语音细微差别,显著降低单词错误率(...
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持将文本内容转换为自然流畅语音的同时,开发者能用指令控制语音的语调、情感和风格,例如“平静”“...
福棠·百川是是国家儿童医学中心、首都医科大学附属北京儿童医院联合百川智能、小儿方健康共同发布的全球首个儿科大模型。覆盖了儿童常见病及疑难病症的立体化...
Agent TARS 是字节跳动开源的多模态 AI 代理工具。基于视觉解释网页内容,与浏览器、命令行和文件系统无缝集成,实现复杂任务的规划与执行。Agent TARS 提供...
gpt-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,gpt-4o-transcribe的精简版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架构,用知识蒸馏技术从大...
SpatialLM 是群核科技开源的空间理解多模态模型,赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频,能重建出详细的 3D 场景布局,...
Multi-Agent Orchestrator 是用于管理和协调多个智能代理(Agent)的框架。通过分类器识别用户输入的意图,将请求分配给最适合的代理进行处理,通过对话存储...
LongCat(龙猫)是美团自主研发的生成式AI大模型,通过人工智能技术提升公司内部工作效率和创新能力。模型具备强大的多模态能力,能处理文本、图像等多种数据...
食神是老板电器推出的首个烹饪垂直领域大模型。基于老板电器46年积累的海量烹饪数据,结合DeepSeek技术,能精准理解烹饪场景需求。用户可通过语音、文字等方...
Soundwave是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解。通过创新的对齐适配器和压缩适配器技术,有效解决了语音和文本在...
Motia 是专为软件工程师设计的 AI Agent 框架,简化 AI 智能体的开发、测试和部署过程。支持多种编程语言,如 Python、TypeScript 和 Ruby,开发者可以使用熟...