Gemini Diffusion - 谷歌推出的文本扩散模型
Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同,基于逐步细化噪声生成输出,能快速迭代纠正错误,让Gemini Diffusion...
Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同,基于逐步细化噪声生成输出,能快速迭代纠正错误,让Gemini Diffusion...
3DTown 是哥伦比亚大学联合Cybever AI等机构推出的从单张俯视图生成3D城镇场景框架。框架基于区域化生成和空间感知的3D修复技术,将输入图像分解为重叠区域,...
Sparc3D是南洋理工大学联合Sensory Universe和帝国理工学院推出的用在高分辨率3D模型生成框架,解决传统3D生成方法中细节丢失和效率低下的问题。框架结合稀疏...
LeVo是腾讯AI实验室推出的AI唱歌模型,具备强大的音色克隆能力,仅需3秒音频即可精准复制目标音色,包括音调、情感和韵律,无需大量训练数据。LeVo支持分轨生...
Hailuo 02 是 MiniMax 公司推出的全新AI视频生成模型,是Hailuo 01的升级版本。这个模型目前在图生视频、文生视频的榜单位于第二,超越快手的可灵以及谷歌的V...
OmniFlow是松下与加州大学洛杉矶分校(UCLA)合作推出的多模态AI模型。模型能实现文本、图像和音频之间的任意到任意(Any-to-Any)生成任务,例如将文本转换...
Bright Data MCP 是强大的模型上下文协议(MCP)服务器,专为公共网络访问设计。Bright Data MCP能让大型语言模型(LLMs)、agents 和应用程序实时访问、发现...
SurveyForge是上海AI Lab联合复旦大学、上海交通大学等机构推出的创新框架,用在自动化生成高质量学术综述。框架基于两阶段设计,大纲生成和内容生成。在大纲...
EmbodiedGen 是用于具身智能(Embodied AI)应用的生成式 3D 世界引擎和工具包。能快速生成高质量、低成本且物理属性合理的 3D 资产和交互环境,帮助研究人员...
EX-4D是字节跳动(ByteDance)旗下Pico团队推出的新型4D视频生成框架,能从单目视频输入生成极端视角下的高质量4D视频。框架基于独特的深度防水网格(DW-Mesh...
LinGen是普林斯顿大学和Meta共同推出的新型文本到视频生成框架。框架基于线性复杂度的MATE模块(包含MA-branch和TE-branch),替换传统Diffusion Transformer...
Midjourney V1 是 Midjourney 公司推出的首个AI视频生成模型。支持用户将静态图像转化为动态视频。用户上传图片或在 Midjourney 中生成图片基于“Animate”按钮...
Animated Drawings是Meta AI推出的开源工具,基于AI技术将手绘人物绘画自动转化为动画。Animated Drawings提供一套完整的工具和算法,能检测、分割绘画中的人...
MiDashengLM是小米开源的高效声音理解大模型,具体参数版本为MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器构建,...
LangExtract 是谷歌开源的用在从非结构化文本中提取结构化信息的 Python 库。LangExtract 用大型语言模型(LLM),自动处理临床笔记、报告等材料,识别并组织...
Qwen-Image 是阿里通义千问团队开源的 20B 参数MMDiT模型,是通义千问系列中首个图像生成基础模型,模型在复杂文本渲染和精确图像编辑方面表现出色,支持多行...
AudioGen-Omni是快手推出的多模态音频生成框架,框架能基于视频、文本等输入生成高质量的音频、语音和歌曲。框架通过统一的歌词-文本编码器和相位对齐各向异...
GPT-OSS 是 OpenAI 推出的开源推理模型系列,包含 gpt-oss-120b 和 gpt-oss-20b 两个版本。gpt-oss-120b 拥有1170亿参数,激活参数约51亿,能在单张 80GB GPU...
Genie 3是谷歌DeepMind推出的新一代通用世界模型,能实时生成高度动态且连贯的虚拟世界。模型具备模拟物理现象、自然生态系统、奇幻场景和历史场景的能力,支...
Claude Opus 4.1 是 Anthropic 公司最新推出的大型语言模型,是 Claude Opus 4 的升级版本。模型在多个方面进行优化和提升,包括推理质量、指令遵循能力及整...
Chunkr 是 Lumina AI 推出的开源文档处理 API,专为 RAG(检索增强生成)和知识库场景设计。Chunkr 能将复杂文档(如 PDF、PPT、Word、图片等)转换为结构化...
dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型(LLM),具备强大的视觉感知...
Qwen-Flash是阿里通义千问推出的Qwen3系列Flash模型,版本号为qwen-flash-2025-07-28。模型在通用能力、推理能力、中英文知识处理及Agent能力上均有显著提升...
Speech 2.5 是 MiniMax 推出的新一代语音生成模型,在多语种表现力、音色复刻和语言覆盖范围上实现重大突破。模型支持40种语言,能精准还原不同语言和口音的...