project
GENERator - 阿里 AI for Science 团队等推出的生成式 DNA 大模型
GENERator是阿里云飞天实验室 AI for Science 团队推出的生成式基因组基础模型,专注于 DNA 序列的设计和生成。模型基于 Transformer 解码器架构,具有 98k ...
GENERator是什么
GENERator是阿里云飞天实验室 AI for Science 团队推出的生成式基因组基础模型,专注于 DNA 序列的设计和生成。模型基于 Transformer 解码器架构,具有 98k 碱基对的上下文长度和 12 亿参数,训练数据涵盖 3860 亿 bp 的真核生物 DNA。在多个基准测试中表现出色,能生成与天然蛋白质家族结构相似的 DNA 序列,在启动子设计等任务中展现出优化潜力。
GENERator的主要功能
- DNA 序列生成:GENERator 能生成具有生物学意义的 DNA 序列,可以编码与已知家族结构相似的蛋白质。能成功生成组蛋白和细胞色素 P450 家族的全新变体。
- 启动子设计:通过微调,GENERator 可以设计具有特定活性的启动子序列,用于调控基因表达。实验表明,生成的启动子序列在活性上与天然样本有显著差异,展现出强大的基因表达调控潜力。
- 基因组分析与注释:在基因分类和分类群分类任务中,GENERator 表现出色,能高效识别基因位置、预测基因功能注释基因结构。
- 序列优化:GENERator 在序列优化方面展现出显著潜力,通过指令生成具有特定活性的 DNA 序列,为合成生物学和基因工程提供了新的工具。
GENERator的技术原理
- Transformer 解码器架构:GENERator 采用 Transformer 解码器架构,通过多头自注意力机制和前馈神经网络实现高效的序列建模。解码器能处理长序列,在生成过程中避免看到未来信息,保证生成的序列符合生物学逻辑。
- 超长上下文建模:模型具有 98k 碱基对 的上下文长度,能处理复杂的基因结构。在生成长序列时保持连贯性和生物学意义。
- 6-mer 分词器:GENERator 使用 6-mer 分词器,将 DNA 序列分割为长度为 6 的核苷酸片段。在生成任务中表现优于单核苷酸分词器和 BPE 分词器,平衡了序列分辨率和上下文覆盖。
- 预训练策略:模型在大规模数据上进行预训练,数据集包含 3860 亿 bp 的真核生物 DNA。预训练任务采用 Next Token Prediction (NTP),通过预测下一个核苷酸来学习 DNA 序列的语义。
- 下游任务适配:GENERator 在多个下游任务中表现出色,包括基因分类、分类群分类和启动子设计。通过微调,模型能生成具有特定活性的启动子序列,展现出强大的基因表达调控能力。
- 生物学验证:模型生成的 DNA 序列能编码与天然蛋白质家族结构相似的蛋白质。通过 Progen2 计算生成序列的困惑度(PPL)以及使用 AlphaFold3 预测其三维结构,验证了生成序列的生物学意义。
GENERator的项目地址
- 项目官网:https://generteam.github.io/
- Github仓库:https://github.com/GenerTeam/GENERator
- HuggingFace模型库:https://huggingface.co/GenerTeam
- arXiv技术论文:https://arxiv.org/pdf/2502.07272
GENERator的应用场景
- DNA 序列设计与优化:GENERator 能生成具有生物学意义的 DNA 序列,例如用于蛋白质家族的定制。能生成与天然蛋白质家族结构相似的 DNA 序列,如组蛋白和细胞色素 P450 家族的变体。
- 基因组分析与注释:在基因组学研究中,GENERator 可以高效识别基因位置、预测基因功能,注释基因结构。
- 合成生物学与基因工程:GENERator 提供了一种新的工具,用于设计和优化基因表达调控元件,如启动子和增强子。在合成生物学和基因工程中具有重要应用价值。
- 精准医疗与药物设计:通过生成与特定疾病相关的基因序列,GENERator 可以为精准医疗和药物设计提供支持。可以用于设计用于基因治疗的靶向序列。
- 生物技术中的序列优化:GENERator 能通过指令生成具有特定功能的 DNA 序列,为生物技术中的序列优化提供了新的可能性。