project
ELF - 何恺明团队推出的首个扩散语言模型
ELF(Embedded Language Flows)是何恺明团队推出的首个扩散语言模型,采用连续扩散范式替代传统自回归路线。模型全程在连续 embedding 空间中去噪生成文本,...
ELF是什么
ELF(Embedded Language Flows)是何恺明团队推出的首个扩散语言模型,采用连续扩散范式替代传统自回归路线。模型全程在连续 embedding 空间中去噪生成文本,在最后一步离散化为 token。模型用 105M 参数、45B 训练 token 和 32 步采样,在 OpenWebText 上实现 24 的生成困惑度,用少近 10 倍的训练数据超越主流离散扩散模型,在无条件生成、翻译和摘要等任务上表现优异。
ELF的主要功能
-
连续空间文本生成:全程在连续 embedding 空间执行去噪,在最终时间步(t=1)通过 unembedding 层将连续表示投影为离散 token。
-
无条件语言生成:从纯高斯噪声出发,经 32 步迭代生成自然、低困惑度的人类风格文本。
-
条件文本任务:支持机器翻译(WMT14)、文本摘要(XSum)等条件生成任务,性能超越现有扩散语言模型及部分自回归基线。
-
训练-推理统一架构:去噪网络与最终解码网络共享同一套参数,通过二值 mode token(去噪/解码模式)切换,无需额外训练独立 decoder。
ELF的技术原理
-
Continuous Embedding 编码:离散 token 先经 T5 预训练编码器映射为双向 contextual embedding,仅在训练阶段使用,推理时不增加额外模块。
-
Flow Matching + x-prediction:在连续空间定义从噪声到干净数据的 rectified flow 轨迹;网络直接预测干净 embedding(x-prediction),非速度场,训练目标为 MSE 损失,在高维表示上更稳定。
-
Final-step Discretization:最后一步将连续 embedding 通过可学习的 unembedding 矩阵投影为 token logits,训练时加入 token-level corruption 防止任务过简,损失为交叉熵。
-
Self-conditioning CFG:引入图像生成中的 classifier-free guidance 思想,采用 training-time CFG作为条件信号,无推理开销。
如何使用ELF
-
访问代码仓库:访问 GitHub克隆项目代码。
-
准备环境:安装依赖库(PyTorch 等),配置 GPU 环境。
-
数据预处理:将文本数据经 T5 编码器转换为连续 embedding 格式。
-
模型训练:使用 Flow Matching + x-prediction 目标函数训练去噪网络,支持 MSE 或 CE 损失。
-
文本生成:从高斯噪声出发,调用 ELF 去噪网络迭代 32 步,最后一步切换为解码模式输出 token。
-
下游任务微调:在 WMT14、XSum 等数据集上进行条件生成微调。
ELF的核心优势
-
数据效率极高:用 45B token 训练,相比 MDLM、Duo、FLM 等对手的 500B+ token 少一个数量级。
-
采样步数极少:32 步可达到甚至超越对手 1024 步的生成质量。
-
生成质量更优:OpenWebText 生成困惑度低至 24,文本更自然、AI 痕迹更弱。
-
架构简洁统一:去噪与解码共享网络,无需额外 decoder 模块,避免 latent diffusion 中 decoder 训练的开销与误差累积。
ELF的项目地址
- GitHub仓库:https://github.com/lillian039/ELF
- arXiv技术论文:https://arxiv.org/pdf/2605.10938
ELF的同类竞品对比
| 对比维度 | ELF | MDLM | LLaDA |
|---|---|---|---|
| 技术路线 | 连续扩散(embedding空间全程去噪,最后一步离散化) | 离散扩散(直接在token空间操作,每步维护离散状态) | 离散扩散(基于BERT架构的掩码扩散语言模型) |
| 参数规模 | 105M | 350M / 1.3B | 8B |
| 训练数据 | 45B token(少一个数量级) | 500B+ token | 数万亿 token |
| 采样步数 | 32步 | 1024步(标准)/ 64步(需蒸馏) | 64~128步 |
| 生成困惑度 | 24(OpenWebText,32步无蒸馏) | ~35(1024步)/ ~60(32步无蒸馏) | ~30(128步) |
| 架构设计 | 去噪与解码共享同一网络,无额外模块 | 每步在词表空间做离散状态转移 | 基于掩码预测的Transformer,每步预测被掩码token |
| 核心优势 | 数据效率极高、采样极快、架构最简 | 与语言离散性天然契合,理论直观 | 大规模参数带来强表达能力,可扩展性好 |
| 主要劣势 | 依赖预训练encoder提供embedding | 训练数据需求大、采样步数多、生成质量对步数敏感 | 推理成本高、需要大量训练数据、推理步数仍较多 |
ELF的应用场景
-
低资源高效文本生成:用 45B token 可训练出高质量模型,适合数据预算有限的企业和研究者快速部署自然语言生成能力。
-
机器翻译:在 WMT14 等翻译任务上超越现有扩散模型和部分自回归基线,可作为非自回归翻译系统的核心引擎。
-
文本摘要与内容改写:在 XSum 等摘要任务中表现稳定,适合新闻摘要、文档提炼等需要保留关键信息的场景。
-
创意写作与对话生成:生成困惑度低至 24,文本自然度高、AI 痕迹弱,适合长篇小说、营销文案等类人风格内容创作。
-
扩散语言模型研究基线:首次验证”连续到底”路线在文本生成的可行性,为后续大模型架构探索提供重要参考和基础框架。