LuminaBrush 是用在图像上绘制照明效果的交互式工具。LuminaBrush基于 Flux 文生图项目,用两阶段方法:第一阶段将图像转换为“均匀照明”的外观,第二阶段根据...
LuminaBrush 是用在图像上绘制照明效果的交互式工具。LuminaBrush基于 Flux 文生图项目,用两阶段方法:第一阶段将图像转换为“均匀照明”的外观,第二阶段根据...
HumanOmni 是专注于人类中心场景的多模态大模型,视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入,能全面理解人类行为、情感和交互。模型基于...
Spark-TTS 是SparkAudio 团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具, 无需额外的生成模型,直接从 LLM 预测的编码中重建音频,实现零样...
ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理,解决传统方法在处理复杂...
Shandu 是开源的 AI 研究自动化工具,结合了 LangChain 和 LangGraph 技术,能自动化地进行多层次信息挖掘和分析,生成结构化的研究报告。Shandu 的核心功能...
LCVD(Lighting Controllable Video Diffusion Model)是四川大学推出的高保真、光照可控的肖像动画生成框架。LCVD基于分离肖像的内在特征(如身份和外观)与...
SepLLM是香港大学、华为诺亚方舟实验室等机构联合提出的用于加速大语言模型(LLM)的高效框架,通过压缩段落信息并消除冗余标记,显著提高了模型的推理速度和...
CogView4 是智谱推出的开源文生图模型,具有60亿参数,支持原生中文输入和中文文字生成。模型在 DPG-Bench 基准测试中综合评分排名第一,达到开源文生图模型...
PRefLexOR(Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning)是MIT团队提出的新型自学习AI框架,结合了偏好优化...
Probly 是 AI 驱动的电子表格工具,结合电子表格功能与 Python 数据分析能力。Probly基于 WebAssembly 在浏览器中运行 Python 代码,支持交互式电子表格、数...
MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型,能将脑部功能性磁共振成像(fMRI)信号解码为自然语言文本。MindLLM基于一个主体无关(subjec...
MiniMind 是开源的超小型语言模型项目,极低成本帮助个人开发者从零开始训练自己的语言模型。MiniMind 基于轻量级设计,最小版本仅需25.8M参数,体积仅为GPT-...
Fractal Generative Models(分形生成模型)是麻省理工学院计算机科学与人工智能实验室和Google DeepMind团队推出的新型图像生成方法。Fractal Generative Mo...
Image-01 是 MiniMax 推出的先进文本到图像生成模型,具备卓越的图像生成能力。能将用户输入的文本描述精准转化为高质量图像,支持多种纵横比和高分辨率输出...
SuperGPQA 是字节跳动豆包大模型团队联合 M-A-P 推出的全面覆盖 285 个研究生级学科、包含 26529 道专业题目的知识推理基准测试集。解决传统评测基准学科覆盖...
SpeciesNet 是 Google 开源的人工智能模型,通过分析相机陷阱拍摄的照片来识别动物物种。基于超过 6500 万张图像训练而成,能识别超过 2000 种标签,包括动物...
GaussianCity 是南洋理工大学 S-Lab 团队推出的高效无边界3D城市生成框架,基于3D高斯绘制(3D-GS)技术。引入紧凑的 BEV-Point 表示方法,将场景的显存(VRA...
Asyncflow v1.0 是播客平台 Podcastle 推出的 AI 文本转语音模型。支持超过 450 种语音选项,能为文本内容生成高质量的语音朗读,适用于多种语言和风格。
ART(Anonymous Region Transformer) 是新型的多层透明图像生成技术,能根据全局文本提示和匿名区域布局直接生成多个独立的透明图层(支持 RGBA 格式),图...
NextGenAI是OpenAI推出的全球性联盟,基于AI技术推动教育和研究的进步。NextGenAI联合包括哈佛大学、麻省理工学院、牛津大学等在内的15所顶尖大学和机构,Ope...
NotaGen 是中央音乐学院、北京航空航天大学、清华大学等机构推出的音乐生成模型,基于模仿大型语言模型(LLM)的训练范式生成高质量的古典乐谱。NotaGen 基于...
DiffRhythm(中文名称:谛韵) 是西北工业大学与香港中文大学(深圳)联合开发的端到端音乐生成工具,基于潜扩散模型(Latent Diffusion)技术,能快速生成包...
OmniAlign-V 是上海交通大学、上海AI Lab、南京大学、复旦大学和浙江大学联合推出的专为提升多模态大语言模型(MLLMs)与人类偏好的对齐能力设计的高质量数据...
TrendPublish 是基于 AI 的趋势发现和内容发布系统。基于多源数据采集,从 Twitter/X、网站等渠道获取信息,用 DeepseekAI、千问等 AI 服务进行智能总结、关...