Qwen-Image-Layered是阿里团队推出的AI图像编辑模型,能将普通图片自动拆分为独立的RGB透明图层,实现类似Photoshop的分层编辑功能。通过注意力机制和位置编...
Qwen-Image-Layered是阿里团队推出的AI图像编辑模型,能将普通图片自动拆分为独立的RGB透明图层,实现类似Photoshop的分层编辑功能。通过注意力机制和位置编...
FunctionGemma 是谷歌开源的专注于函数调用优化的轻量化AI模型,参数量为 2.7 亿。模型基于 Gemma 3 架构,专为在手机、浏览器等端侧设备上运行而设计,能将...
T5Gemma 2 是谷歌开源的新型端侧多模态长上下文编码器 - 解码器模型。模型回归优化了经典 Transformer 架构,引入绑定词嵌入和合并注意力机制等创新,参数规...
GPT-5.2-Codex 是 OpenAI 推出的智能体编程模型,专为复杂软件工程和防御性网络安全设计。模型是 GPT-5.2 的升级版,提升了指令遵循、长语境理解等能力,在代...
EcomBench 是通义实验室联合 SKYLENAGE 推出的针对电商场景的 AI 能力评测基准。EcomBench 基于真实世界数据构建,涵盖政策咨询、成本估算、选品决策等七大类...
Kairos 3.0(开悟世界模型3.0)是大晓机器人推出的行业首创的ACE具身研发范式、首个开源且商业应用的世界模型。
VTP(Visual Tokenizer Pre-training)是MiniMax视频团队开源的视觉生成模型预训练框架。框架聚焦优化视觉tokenizer,通过融合对比学习、自监督学习和重建学...
TRELLIS.2是微软开源的40亿参数3D生成模型,专为从单张图片高效生成高保真3D资产设计。核心创新在于采用O-Voxel稀疏体素架构,能处理复杂拓扑结构(如开放表...
Seed1.8 是字节跳动推出的通用 Agent 大模型,具备强大的多模态能力,支持图文输入。模型集搜索、代码生成与 GUI 交互能力于一体,可在复杂工作流中高效完成...
SHARP 是苹果开源的 AI 模型,能在不到 1 秒内将单张 2D 照片转换为逼真的 3D 场景。模型通过 3D 高斯表示技术,用神经网络单次前馈传递,快速预测出场景的 3...
Step-GUI 是阶跃星辰推出的AI Agent系列模型,包含云侧模型 Step-GUI 和端侧模型 Step-GUI Edge。云侧模型擅长复杂任务处理,端侧模型轻量化,能在手机等本地...
SAM Audio是Meta开源的音频分割模型,能通过文本、视觉和时间片段等多模态提示,从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovi...
Gemini 3 Flash 是谷歌推出的高速、低成本的前沿智能模型。模型基于 Gemini 3 开发,性能显著提升,具备强大的推理能力和多模态理解能力。
Animate Anyone是由阿里巴巴智能计算研究院推出的一款将静态图像中的角色或人物进行动态化的开源框架,该框架在扩散模型的基础之上,引入了ReferenceNet、Pos...
ReplaceAnything是由阿里巴巴智能计算研究院推出的一款开源AI图像内容替换框架,利用先进的人工智能技术,能够实现对照片或图像中物体的智能替换。用户可以通...
Outfit Anyone是由阿里巴巴智能计算研究院推出的一个高质量服装虚拟试穿的开源项目,借助该技术,用户或模特无需亲自试穿衣服即可预览上身效果。Outfit Anyon...
PhotoMaker是由来自腾讯PCG部门的ARC实验室、南开大学和东京大学的研究人员最新推出的一款逼真的AI人物生成和照片风格化的开源模型和框架,可以帮助用户将上...
FaceChain是阿里巴巴达摩院推出的一个开源的人物写真和个人数字形象的AI生成框架(类似于免费开源版的妙鸭相机),用户仅需要提供最少一张照片即可生成独属于...
I2VGen-XL 是阿里巴巴达摩院推出的一款开源的图像到视频的生成模型,通过创新的级联扩散方法,将文本视频数据与视频结构解耦,同时利用静态图像作为关键指导...
MagicVideo-V2 是字节跳动公司团队开发的一款AI视频生成模型,通过将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到一个端到端的视频...
Motionshop是阿里巴巴智能计算研究院推出的一个AI角色动画框架,可将视频中的人物角色替换为3D化身,同时不改变视频中的其他场景和人物。该框架利用视频处理...
AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素...
InstantID是一种基于扩散模型的图像生成技术,它专注于实现零次(zero-shot)身份保留(Identity-Preserving)的个性化图像合成。这项技术允许用户仅使用一张...
VideoCrafter2是一个由腾讯AI实验室开发的视频生成模型,旨在克服高质量视频数据获取的局限性,训练出能够生成高质量视频的模型。该模型的核心思想是将视频的...