Nano Banana Pro (又名Gemini 3 Pro Image)是谷歌推出的新一代图像生成与编辑模型,结合了 Gemini 3 Pro 技术。模型能生成高质量、高分辨率(2K 和 4K)的...
Nano Banana Pro (又名Gemini 3 Pro Image)是谷歌推出的新一代图像生成与编辑模型,结合了 Gemini 3 Pro 技术。模型能生成高质量、高分辨率(2K 和 4K)的...
HunyuanVideo 1.5 是腾讯混元团队开源的轻量级视频生成模型,参数规模为8.3B。模型基于Diffusion Transformer架构,支持通过文字描述或图片生成5-10秒的高清...
MiMo-Embodied 是小米发布的全球首个开源的跨领域具身大模型,整合了自动驾驶和具身智能两大领域的任务,实现了在环境感知、任务规划、空间理解等多方面的卓...
Supertonic 是 Supertone 开源的高性能文本转语音(TTS)系统,具备极速性能和轻量级。仅包含66M参数,生成语音的速度可达167倍实时速度,是目前最快的TTS系...
Teammates是育碧基于生成式AI技术推出的AI队友项目,能为玩家提供更具沉浸感和真实感的游戏体验。玩家能通过语音实时指挥AI队友,如“帕布罗,掩护我”或“索菲...
WorldGen 是 Meta 最新推出的先进端到端系统,能通过一段文本提示生成可交互、可导航的 3D 世界。用户只需输入简单的描述,如“中世纪村庄”或“火星基地”,系统...
Olmo 3 是 Allen Institute for Artificial Intelligence (AI2) 推出的系列开源大型语言模型。模型包括多个版本,Olmo 3-Base(基础模型,7B 和 32B 参数)在...
Claude Opus 4.5 是 Anthropic 公司最新推出的先进 AI 模型。模型在编程、系统级任务、日常研究和文档处理等方面表现出色,擅长处理复杂的软件工程问题,能在...
Fara-7B 是微软开源的专注于计算机使用的代理型小语言模型(SLM)。模型通过视觉感知网页,操作鼠标、键盘等界面元素来帮助用户完成任务,如填写表单、搜索信...
HunyuanOCR 是腾讯混元团队推出的开源的端到端OCR视觉语言模型。依托混元原生多模态架构,仅用1B参数就实现了多项OCR任务的SOTA性能。具备高效轻量的架构,单...
FLUX.2 是 Black Forest Labs 推出的视觉智能模型,专为实际创意工作流程设计。模型支持最多 10 张图片的多图参考,生成高达 4MP 分辨率的高质量图像,具备极...
ViMax 是香港大学数据科学实验室推出的端到端多智能体视频生成框架,支持将创意、剧本或小说自动转化为完整视频。框架整合导演、编剧、制片人和视频生成器的...
Z-Image 是阿里通义推出的图像生成模型,具有6B参数。模型包含三个变体:Z-Image-Turbo、Z-Image-Base 和 Z-Image-Edit,分别擅长快速推理、基础开发和图像编...
Depth Anything 3(DA3)是字节跳动Seed团队推出的视觉空间重建模型,通过单一Transformer架构实现从任意视角的视觉输入中恢复三维空间几何结构。
DeepSeek-Math-V2 是 DeepSeek 团队推出的开源数学推理模型,能实现自我验证的数学推理。模型关注答案正确性,注重推理过程的严谨性。
StepAudio R1 是阶跃星辰团队推出的全球首个开源原生音频推理模型。模型通过创新的模态锚定推理蒸馏(MGRD)框架,解决了传统音频模型在复杂推理中性能下降的...
Ito是开源的智能语音听写工具,通过其独特的“VibeTyping”技术,将用户的口语意图转换为精美文本。支持在邮件客户端、文档、聊天平台、浏览器和代码编辑器等各...
GELab-Zero 是 StepFun 开发的开源 GUI Agent 模型,专注于移动设备的自动化交互和任务执行。具备本地可部署能力,支持在消费级硬件上运行 4B 模型,确保低延...
Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索(TR)方面达到了行业领先水平,在时空定位(STG)和视频问答(Video QA)...
可灵O1(可灵视频 O1 模型)是可灵AI推出的全球首个统一多模态视频生成模型。模型通过创新的多模态视觉语言(MVL)架构,实现视频生成、编辑与理解的无缝融合。
Gen-4.5 是RunWay推出的视频生成模型,模型在视频生成的运动质量、视觉逼真度和提示词遵循度等方面树立新的行业标准。Gen-4.5 能生成电影级、极为逼真的画面...
PixVerse V5.5 是爱诗科技推出的视频生成大模型。模型通过自研的多模态理解和生成技术,支持音画同步生成,简化从构思到成片的复杂工作流程,提高创作效率。
Alpamayo-R1(AR1)是英伟达推出的视觉-语言-动作(VLA)模型,通过因果推理提升自动驾驶的决策能力和泛化性。模型的核心创新包括:构建因果链(CoC)数据集...
NEO是商汤科技与南洋理工大学合作研发的全新多模态模型架构,作为首个原生多模态架构(Native VLM),NEO通过底层架构的深度创新,打破了传统多模态模型的局...