MindLLM - 耶鲁联合剑桥等机构推出的医疗领域 AI 模型
MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型,能将脑部功能性磁共振成像(fMRI)信号解码为自然语言文本。MindLLM基于一个主体无关(subjec...
MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型,能将脑部功能性磁共振成像(fMRI)信号解码为自然语言文本。MindLLM基于一个主体无关(subjec...
MiniMind 是开源的超小型语言模型项目,极低成本帮助个人开发者从零开始训练自己的语言模型。MiniMind 基于轻量级设计,最小版本仅需25.8M参数,体积仅为GPT-...
Fractal Generative Models(分形生成模型)是麻省理工学院计算机科学与人工智能实验室和Google DeepMind团队推出的新型图像生成方法。Fractal Generative Mo...
Image-01 是 MiniMax 推出的先进文本到图像生成模型,具备卓越的图像生成能力。能将用户输入的文本描述精准转化为高质量图像,支持多种纵横比和高分辨率输出...
SuperGPQA 是字节跳动豆包大模型团队联合 M-A-P 推出的全面覆盖 285 个研究生级学科、包含 26529 道专业题目的知识推理基准测试集。解决传统评测基准学科覆盖...
SpeciesNet 是 Google 开源的人工智能模型,通过分析相机陷阱拍摄的照片来识别动物物种。基于超过 6500 万张图像训练而成,能识别超过 2000 种标签,包括动物...
GaussianCity 是南洋理工大学 S-Lab 团队推出的高效无边界3D城市生成框架,基于3D高斯绘制(3D-GS)技术。引入紧凑的 BEV-Point 表示方法,将场景的显存(VRA...
Asyncflow v1.0 是播客平台 Podcastle 推出的 AI 文本转语音模型。支持超过 450 种语音选项,能为文本内容生成高质量的语音朗读,适用于多种语言和风格。
ART(Anonymous Region Transformer) 是新型的多层透明图像生成技术,能根据全局文本提示和匿名区域布局直接生成多个独立的透明图层(支持 RGBA 格式),图...
NextGenAI是OpenAI推出的全球性联盟,基于AI技术推动教育和研究的进步。NextGenAI联合包括哈佛大学、麻省理工学院、牛津大学等在内的15所顶尖大学和机构,Ope...
NotaGen 是中央音乐学院、北京航空航天大学、清华大学等机构推出的音乐生成模型,基于模仿大型语言模型(LLM)的训练范式生成高质量的古典乐谱。NotaGen 基于...
DiffRhythm(中文名称:谛韵) 是西北工业大学与香港中文大学(深圳)联合开发的端到端音乐生成工具,基于潜扩散模型(Latent Diffusion)技术,能快速生成包...
OmniAlign-V 是上海交通大学、上海AI Lab、南京大学、复旦大学和浙江大学联合推出的专为提升多模态大语言模型(MLLMs)与人类偏好的对齐能力设计的高质量数据...
TrendPublish 是基于 AI 的趋势发现和内容发布系统。基于多源数据采集,从 Twitter/X、网站等渠道获取信息,用 DeepseekAI、千问等 AI 服务进行智能总结、关...
Proxy Lite 是开源的轻量级视觉语言模型(VLM),参数量为3B,支持自动化网页任务。Proxy Lite 能像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等...
WeGen 是中国科学技术大学联合上海交通大学、微信团队、中国科学院等机构推出的统一多模态生成模型,基于自然对话实现多样化的视觉生成任务。WeGen结合多模态...
DiffBrush是北京邮电大学、清华大学、中国电信人工智能研究所和西北工业大学推出的,无需训练的图像生成与编辑框架,支持用户基于手绘草图直观地控制图像生成...
Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大型...
X-Dancer 是字节跳动联合加州大学圣地亚哥分校和南加州大学的研究人员共同推出的音乐驱动的人像舞蹈视频生成框架,支持从单张静态图像生成多样化且逼真的全身...
AVD2(Accident Video Diffusion for Accident Video Description)是清华大学联合香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等机构推出...
Kiss3DGen是创新的3D资产生成框架,通过重新基于预训练的2D图像扩散模型来高效生成、编辑和增强3D对象。核心在于生成“3D Bundle Image”,将多视图图像及对应...
Archon 是专注于构建和优化 AI 智能体的开源项目。通过自主生成代码和优化智能体性能,展示了现代 AI 开发的核心理念。Archon 的核心功能包括智能体的快速构...
PodAgent 是香港中文大学、微软和小红书联合推出的播客生成框架。基于模拟真实的脱口秀场景,用多智能体协作系统(包括主持人、嘉宾和编剧)自动生成丰富且结...
Chat2SVG 是创新的文本到矢量图形(SVG)生成框架,通过结合大型语言模型(LLMs)和图像扩散模型,实现高质量 SVG 图形的自动化创作。通过多阶段流程,首先基...