Qwen3-Omni - 阿里通义开源的原生端到端全模态大模型
Qwen3-Omni是阿里通义团队推出的业界首个原生端到端全模态AI模型,能无缝处理文本、图像、音频和视频等多种模态数据。模型在36项音频及音视频基准测试中22项...
Qwen3-Omni是阿里通义团队推出的业界首个原生端到端全模态AI模型,能无缝处理文本、图像、音频和视频等多种模态数据。模型在36项音频及音视频基准测试中22项...
Qwen3-TTS-Flash 是阿里通义推出的支持多音色、多语言和多方言的旗舰语音合成模型。模型具备卓越的中英语音稳定性,出色的多语言性能,及高表现力的拟人音色...
Qianfan-VL是百度智能云千帆推出的面向企业级多模态应用场景的视觉理解大模型。模型包含3B、8B和70B三种尺寸版本,具备出色的通用能力和针对OCR、教育等垂直...
Doubao-Seed-Translation 是字节跳动团队推出的先进多语言翻译模型,支持 28 种语言互译,涵盖中英、日韩、德法等多种常用语言。
presentation-ai 是ALLWEONE团队推出的开源 AI 演示文稿生成工具,能根据用户输入的主题自动生成完整的 PPT 大纲和精美的幻灯片,支持多种语言、主题风格和自...
Qwen3Guard 是阿里通义团队推出的 Qwen 家族中首款专为安全防护设计的护栏模型,基于强大的 Qwen3 基础架构打造。模型针对安全分类任务进行专项微调,能高效...
Qwen3-Max 是 Qwen 团队推出的超大规模语言模型,参数量超过 1T,预训练使用 36T tokens。Qwen3-Max是目前 Qwen 系列中规模最大、能力最强的模型,具备卓越的...
Qwen3-VL 是阿里通义推出的 Qwen 系列中最强大的视觉语言模型,具备卓越的多模态能力。模型能理解纯文本、图像和视频,支持长上下文、空间感知、代码生成等功...
Qwen3-LiveTranslate 是阿里通义团队推出的基于大语言模型的多语言实时音视频同传模型。模型支持 18 种语言及多种方言的翻译,具备视觉增强技术,可结合口型...
通义万相2.5(Wan2.5)是阿里推出的最新多模态生成模型,为通义万相 2.5 preview 版(Wan2.5-Preview),涵盖文生视频、图生视频、文生图和图像编辑四大功能...
MiroFlow v0.2是MiroMind推出的开源研究智能体框架,能将任何大型语言模型(LLM)升级至OpenAI深度研究级别的能力,专注于可靠完成复杂的工具使用任务。
LucaVirus 是阿里巴巴云 LucaGroup 研发的专为病毒设计的统一核酸 - 蛋白质语言模型。在 254 亿个核苷酸和氨基酸标记上训练,涵盖几乎所有已知病毒。模型可学...
Audio2Face 是 NVIDIA 推出的AI面部动画生成模型,通过音频输入能生成逼真的面部动画。模型能分析音频中的音素和语调,驱动角色的嘴唇动作和表情,实现精准的...
CWM(Code World Model)是Meta开源的320亿参数的代码世界模型,是全球首个将世界模型系统性引入代码生成的语言模型,支持代码生成和理解。
Neovate Code 是蚂蚁集团开源的智能编程助手,专注于提升开发效率。工具能深度理解代码库,遵循既有编码习惯,精准完成代码生成、Bug修复和重构等任务。
Vidu Q2是生数科技推出的新一代图生视频大模型,实现了AI视频生成技术从“视频生成”到“演技生成”的跨越,标志着AI视频进入追求“神似”的新纪元。Vidu Q2能生成...
AudioFly 是科大讯飞开源的文本生成音效的AI模型。模型用潜在扩散模型架构,拥有10亿参数,通过大量开放数据集(如AudioSet、AudioCaps、TUT)及内部专有数据...
SimpleFold 是苹果公司推出的轻量级蛋白质折叠预测 AI 模型。模型基于流匹配(Flow Matching)技术,跳过多序列比对(MSA)等复杂模块,直接从随机噪声生成蛋...
FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型,支持中文和英文。采用原生全双工架构,可在...
Spark Chemistry-X1-13B 是科大讯飞开源的化学专业大型语言模型。模型基于讯飞星火X1-0420大模型,经过多种化学任务数据集的微调,具备卓越的复杂化学问题解...
GDPval 是 OpenAI 推出的全新评估框架,用在衡量 AI 模型在真实经济价值任务上的表现。GDPval 从美国 GDP 贡献最大的 9 个行业中选取 44 种职业,设计 1320 ...
混元3D-Omni(Hunyuan3D-Omni)是腾讯混元3D团队提出的3D资产生成框架,通过多种控制信号实现精准的3D模型生成。基于Hunyuan3D 2.1架构,引入了统一的控制编...
混元3D-Part是腾讯推出的3D生成模型,由P3 - SAM和X - Part组成,首次实现高精度、可控的组件式3D生成,支持50 + 组件自动生成。用户可先用混元3D 2.5或3.0生...
StableAvatar 是复旦大学、微软亚洲研究院等推出的创新音频驱动虚拟形象视频生成模型。模型通过端到端的视频扩散变换器,结合时间步感知音频适配器、音频原生...