XiYan-SQL是阿里巴巴推出的自然语言到SQL(NL2SQL)框架,基于多生成器集成策略,结合提示工程和监督微调,提升SQL查询生成质量。XiYan-SQL引入M-Schema半结...
XiYan-SQL是阿里巴巴推出的自然语言到SQL(NL2SQL)框架,基于多生成器集成策略,结合提示工程和监督微调,提升SQL查询生成质量。XiYan-SQL引入M-Schema半结...
KuaiFormer是快手技术团队推出的基于Transformer的检索框架,用在大规模内容推荐系统。基于重新定义检索流程,从传统的分数估计任务转变为Transformer驱动的“...
EyeDiff是文本到图像的扩散模型,基于自然语言提示生成多模态眼科图像,提高常见和罕见眼病的诊断准确性。模型在多个大规模数据集上训练,能准确捕捉关键病变...
BlueLM-V-3B是vivo AI Lab和香港中文大学MMLab联合推出的算法和系统协同设计方法,支持高效部署多模态大型语言模型(MLLM)至移动设备。模型以小尺寸(2.7B语...
AtomThink是中山大学、香港科技大学、上海交通大学、香港大学及华为诺亚方舟实验室的研究人员共同推出的多模态数学推理框架。框架基于构建长链的思维(CoT)...
DeepSeek-R1-Lite是DeepSeek推出的推理模型预览版,DeepSeek-R1-Lite用强化学习训练,具备长思维链推理能力,能实时展示推理思考过程,性能在多个基准测试中...
Samsung Gauss2是三星公司推出的第二代多模态生成式AI模型,能提升Galaxy AI功能的性能和效率。Samsung Gauss2能同时处理文本、代码和图像等多种数据类型。Sa...
AlphaQubit是谷歌推出基于AI技术的量子错误解码器,用深度学习架构Transformers识别和纠正量子计算中的错误。AlphaQubit基于精确的误差识别,助力量子计算机...
CAD-MLLM是由上海科技大学、Transcengram、DeepSeek AI和香港大学共同推出的,计算机辅助设计(CAD)模型生成系统,根据用户的多种输入(如文本描述、图像、...
LaTRO(Latent Reasoning Optimization)是先进的框架,提升大型语言模型(LLMs)在复杂推理任务中的表现。基于将推理过程类比为从潜在分布中采样,用变分推...
ReCapture是谷歌和新加坡国立大学推出的视频处理技术,能从单一用户提供的视频中生成具有新相机轨迹的新视频。ReCapture用多视图扩散模型或基于深度的点云渲...
MagicClay 是 Adobe 推出3D建模工具,结合网格和有向距离场(SDF)技术,支持艺术家基于文本提示对3D模型的特定部分进行雕刻,同时保持模型的其他区域不变。M...
StableV2V是中国科技大学推出的开源视频编辑项目,基于文本、草图、图片等输入实现视频中物体的精准编辑和替换。项目用形状一致的编辑范式,基于三个主要组件...
Halo是开源的DIY健康追踪项目,基于低成本的智能戒指和开源软件,让用户构建自己的私人健康监测应用。Halo支持活动追踪、心率监测、睡眠分析等功能,且完全尊...
JoyVASA是京东健康国际公司开源的音频驱动的数字人头项目,基于扩散模型技术,根据音频信号生成与音频同步的面部动态和头部运动。JoyVASA能实现人物的唇形同...
TIP-I2V是大规模真实文本和图像提示数据集,用在图像到视频生成领域。TIP-I2V包含超过170万独特的用户文本和图像提示,及五种SOTA图生视频模型生成的相应视频...
FLUX Tools是黑森林实验室推出的一套模型工具,能增强基础文本到图像模型FLUX.1的控制性和可操作性。FLUX Tools包括FLUX.1 Fill(图像修复和扩展)、FLUX.1 D...
SmoothCache 是用在Diffusion Transformers (DiT)模型的通用推理加速技术,是 Roblox 和女王大学的研究团队推出。基于分析相邻扩散时间步的层输出相似性,...
AutoConsis是UI内容一致性智能检测,是美团技术团队与复旦大学联合推出的。工具基于深度学习和大型语言模型自动识别和提取界面中的关键数据,检测并识别数据...
OmniEdit是先进的图像编辑技术,通过结合多个专家模型的监督来训练一个通用模型,处理多种图像编辑任务。能处理不同纵横比的图像,七种不同的图像编辑任务,...
In-Context LoRA是阿里巴巴通义实验室推出的基于扩散变换器(DiTs)的图像生成框架,用模型的内在上下文学习能力,最小化调整激活模型的上下文生成能力。这种...
Add-it是NVIDIA推出的无需训练的图像编辑技术,能根据文本指令在图像中添加对象。这项技术基于扩展扩散模型的注意力机制,整合场景图像、文本提示和生成图像...
DINO-X是IDEA研究院推出的通用视觉大模型,具备开放世界对象检测与理解能力。支持文本、视觉和定制提示,能识别图像中的任何对象而无需用户提示。基于超过1亿...
The Matrix是与电影同名的、首个AI基础世界模拟器,是全华人团队推出的(作者分别来自阿里巴巴、香港大学、滑铁卢大学和加拿大AI研究机构Vector Insititute)...