GLM-ASR - 智谱开源的语音识别系列模型
GLM-ASR是智谱AI推出的系列语音识别模型,包括云端的GLM-ASR-2512和开源的GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型,支持多场景、多语...
GLM-ASR是智谱AI推出的系列语音识别模型,包括云端的GLM-ASR-2512和开源的GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型,支持多场景、多语...
Mistral Vibe CLI 是Mistral AI 推出的开源命令行代码助手,能通过自然语言交互帮助开发者高效完成代码任务。Mistral Vibe CLI 能自动感知项目结构和 Git 状...
GLM-TTS 是智谱开源的AI文本转语音模型,具备声音克隆、多情感表达、高精度文本理解和高质量语音输出等功能。采用两阶段生成范式,通过语义建模和声学建模实...
VoxCPM 1.5 是面壁智能推出的先进的端到端文本到语音(TTS)模型,专注于上下文感知的语音生成和逼真的声音克隆。模型通过端到端扩散自回归架构直接从文本生...
Qwen3-Omni-Flash(Qwen3-Omni-Flash-2025-12-01) 是阿里 Qwen 团队推出的全模态大模型。模型能无缝处理文本、图像、音频和视频等多种输入形式,实时生成高...
PosterCopilot 是南京大学联合 LibLib.ai 和中科院自动化所共同推出的专业级海报设计大模型。模型通过独特的三阶段训练策略,赋予模型强大的布局推理和精准编...
GPT-5.2 是 OpenAI 最新发布的先进人工智能模型系列,专为专业工作和复杂任务设计。模型提供三种版本:GPT-5.2 Instant 适用快速处理日常任务,如信息查询和...
Gemini Deep Research 是谷歌推出的深度研究智能体,基于 Gemini 3 Pro 构建,专为长周期的内容收集与综合任务优化。智能体通过多步骤强化学习,能在复杂信息...
GWM-1 是 Runway 推出的首个通用世界模型,基于 Gen-4.5 构建,采用自回归架构逐帧预测视频内容,可实时交互。模型分为三个分支:GWM Worlds 用于实时环境模...
DeepSearchQA是谷歌开源的新基准测试工具,用于评估Agent在网络研究任务中的全面性和多步查询能力。工具包含17个领域共900个手工设计的“因果链”任务,每一步...
Kaleido 是智谱AI开源的多主体视频生成框架,能解决多主体视频生成中的主体一致性与背景解耦问题。框架通过创新的数据构建管线和 R-RoPE(Reference Rotary P...
SCAIL(Studio-grade Character Animation via In-context Learning)是智谱AI推出的面向影视级标准的角色动画生成框架。框架通过创新的3D一致性姿态表征和全...
RealVideo 是智谱 AI 开源的实时流式视频生成系统,基于自回归扩散视频生成技术,RealVideo能将文本输入即时转化为连续、高质量的视频响应,实现与 AI 角色的...
SSVAE(Spectral-Structured VAE)是智谱AI推出的优化视频生成的新型变分自编码器。SSVAE通过谱分析发现,视频 VAE 的隐空间若具备时空低频偏置和通道特征值...
LLaDA 2.0 是蚂蚁集团开源的离散扩散大语言模型(dLLM),包含 16B(mini)和 100B(flash)两个版本。打破了扩散模型难以扩展的瓶颈,首次将参数规模扩展至 ...
Claude-Mem 是专为 Claude Code 设计的开源插件,能为 AI 提供长期记忆能力。Claude-Mem通过自动存储和管理会话中的关键信息,包括工具调用、对话记录和项目...
Gemini TTS 是谷歌推出的先进文字转语音技术,最新版本为 Gemini 2.5 Flash 和 Pro 模型。支持多说话人、多语言(24种以上)合成,可生成自然流畅且富有情感...
通义百聆是阿里通义实验室推出的企业级语音基座大模型,整合 Fun-ASR 语音识别和 Fun-CosyVoice 语音合成两大模型,专为复杂环境下的语音应用设计,通过 Cont...
OpenScreen 是开源免费的屏幕录制工具,是 Screen Studio 的平替。工具支持 Mac 和 Windows 系统,具备手动缩放、自定义缩放深度、裁剪视频、选择背景、添加...
Paper2Slides 是香港大学开源的AI工具,能快速将学术论文、报告和文档转换为专业幻灯片或海报。采用 RAG(检索增强生成)机制,直接从文档本身提取内容,确保...
Wan-Move 是阿里巴巴通义实验室等机构开源的运动可控视频生成框架,通过潜在轨迹引导实现高质量的视频运动控制。核心亮点在于无需对现有图像到视频模型进行架...
UnityVideo 是香港科技大学联合快手可灵团队、清华大学等推出的新型多模态、多任务视频生成框架,能通过整合多种视觉模态(如分割、骨架、深度、光流等)和训...
LightX2V 是商汤开源的行业首个能实现实时视频生成的推理框架。框架支持多种视频生成任务,如文本到视频(T2V)和图像到视频(I2V),集成多种先进视频生成技...
Nemotron 3 是英伟达推出的新型开源模型系列,包括 Nano、Super 和 Ultra 三种尺寸。模型采用突破性的混合专家混合(MoE)架构,专为构建高效、准确的多智能...