ELF - 何恺明团队推出的首个扩散语言模型 - AiBoss

ELF是什么

ELF（Embedded Language Flows）是何恺明团队推出的首个扩散语言模型，采用连续扩散范式替代传统自回归路线。模型全程在连续 embedding 空间中去噪生成文本，在最后一步离散化为 token。模型用 105M 参数、45B 训练 token 和 32 步采样，在 OpenWebText 上实现 24 的生成困惑度，用少近 10 倍的训练数据超越主流离散扩散模型，在无条件生成、翻译和摘要等任务上表现优异。

ELF的主要功能

连续空间文本生成：全程在连续 embedding 空间执行去噪，在最终时间步（t=1）通过 unembedding 层将连续表示投影为离散 token。
无条件语言生成：从纯高斯噪声出发，经 32 步迭代生成自然、低困惑度的人类风格文本。
条件文本任务：支持机器翻译（WMT14）、文本摘要（XSum）等条件生成任务，性能超越现有扩散语言模型及部分自回归基线。
训练-推理统一架构：去噪网络与最终解码网络共享同一套参数，通过二值 mode token（去噪/解码模式）切换，无需额外训练独立 decoder。

ELF的技术原理

Continuous Embedding 编码：离散 token 先经 T5 预训练编码器映射为双向 contextual embedding，仅在训练阶段使用，推理时不增加额外模块。
Flow Matching + x-prediction：在连续空间定义从噪声到干净数据的 rectified flow 轨迹；网络直接预测干净 embedding（x-prediction），非速度场，训练目标为 MSE 损失，在高维表示上更稳定。
Final-step Discretization：最后一步将连续 embedding 通过可学习的 unembedding 矩阵投影为 token logits，训练时加入 token-level corruption 防止任务过简，损失为交叉熵。
Self-conditioning CFG：引入图像生成中的 classifier-free guidance 思想，采用 training-time CFG作为条件信号，无推理开销。

如何使用ELF

访问代码仓库：访问 GitHub克隆项目代码。
准备环境：安装依赖库（PyTorch 等），配置 GPU 环境。
数据预处理：将文本数据经 T5 编码器转换为连续 embedding 格式。
模型训练：使用 Flow Matching + x-prediction 目标函数训练去噪网络，支持 MSE 或 CE 损失。
文本生成：从高斯噪声出发，调用 ELF 去噪网络迭代 32 步，最后一步切换为解码模式输出 token。
下游任务微调：在 WMT14、XSum 等数据集上进行条件生成微调。

ELF的核心优势

数据效率极高：用 45B token 训练，相比 MDLM、Duo、FLM 等对手的 500B+ token 少一个数量级。
采样步数极少：32 步可达到甚至超越对手 1024 步的生成质量。
生成质量更优：OpenWebText 生成困惑度低至 24，文本更自然、AI 痕迹更弱。
架构简洁统一：去噪与解码共享网络，无需额外 decoder 模块，避免 latent diffusion 中 decoder 训练的开销与误差累积。

ELF的项目地址

GitHub仓库：https://github.com/lillian039/ELF
arXiv技术论文：https://arxiv.org/pdf/2605.10938

ELF的同类竞品对比

对比维度	ELF	MDLM	LLaDA
技术路线	连续扩散（embedding空间全程去噪，最后一步离散化）	离散扩散（直接在token空间操作，每步维护离散状态）	离散扩散（基于BERT架构的掩码扩散语言模型）
参数规模	105M	350M / 1.3B	8B
训练数据	45B token（少一个数量级）	500B+ token	数万亿 token
采样步数	32步	1024步（标准）/ 64步（需蒸馏）	64~128步
生成困惑度	24（OpenWebText，32步无蒸馏）	~35（1024步）/ ~60（32步无蒸馏）	~30（128步）
架构设计	去噪与解码共享同一网络，无额外模块	每步在词表空间做离散状态转移	基于掩码预测的Transformer，每步预测被掩码token
核心优势	数据效率极高、采样极快、架构最简	与语言离散性天然契合，理论直观	大规模参数带来强表达能力，可扩展性好
主要劣势	依赖预训练encoder提供embedding	训练数据需求大、采样步数多、生成质量对步数敏感	推理成本高、需要大量训练数据、推理步数仍较多

ELF的应用场景

低资源高效文本生成：用 45B token 可训练出高质量模型，适合数据预算有限的企业和研究者快速部署自然语言生成能力。
机器翻译：在 WMT14 等翻译任务上超越现有扩散模型和部分自回归基线，可作为非自回归翻译系统的核心引擎。
文本摘要与内容改写：在 XSum 等摘要任务中表现稳定，适合新闻摘要、文档提炼等需要保留关键信息的场景。
创意写作与对话生成：生成困惑度低至 24，文本自然度高、AI 痕迹弱，适合长篇小说、营销文案等类人风格内容创作。
扩散语言模型研究基线：首次验证”连续到底”路线在文本生成的可行性，为后续大模型架构探索提供重要参考和基础框架。

ELF是什么

ELF的主要功能

连续空间文本生成：全程在连续 embedding 空间执行去噪，在最终时间步（t=1）通过 unembedding 层将连续表示投影为离散 token。

无条件语言生成：从纯高斯噪声出发，经 32 步迭代生成自然、低困惑度的人类风格文本。

条件文本任务：支持机器翻译（WMT14）、文本摘要（XSum）等条件生成任务，性能超越现有扩散语言模型及部分自回归基线。

训练-推理统一架构：去噪网络与最终解码网络共享同一套参数，通过二值 mode token（去噪/解码模式）切换，无需额外训练独立 decoder。

ELF的技术原理

Continuous Embedding 编码：离散 token 先经 T5 预训练编码器映射为双向 contextual embedding，仅在训练阶段使用，推理时不增加额外模块。

Flow Matching + x-prediction：在连续空间定义从噪声到干净数据的 rectified flow 轨迹；网络直接预测干净 embedding（x-prediction），非速度场，训练目标为 MSE 损失，在高维表示上更稳定。

Final-step Discretization：最后一步将连续 embedding 通过可学习的 unembedding 矩阵投影为 token logits，训练时加入 token-level corruption 防止任务过简，损失为交叉熵。

Self-conditioning CFG：引入图像生成中的 classifier-free guidance 思想，采用 training-time CFG作为条件信号，无推理开销。

如何使用ELF

访问代码仓库：访问 GitHub克隆项目代码。

准备环境：安装依赖库（PyTorch 等），配置 GPU 环境。

数据预处理：将文本数据经 T5 编码器转换为连续 embedding 格式。

模型训练：使用 Flow Matching + x-prediction 目标函数训练去噪网络，支持 MSE 或 CE 损失。

文本生成：从高斯噪声出发，调用 ELF 去噪网络迭代 32 步，最后一步切换为解码模式输出 token。

下游任务微调：在 WMT14、XSum 等数据集上进行条件生成微调。

ELF的核心优势

数据效率极高：用 45B token 训练，相比 MDLM、Duo、FLM 等对手的 500B+ token 少一个数量级。

采样步数极少：32 步可达到甚至超越对手 1024 步的生成质量。

生成质量更优：OpenWebText 生成困惑度低至 24，文本更自然、AI 痕迹更弱。

架构简洁统一：去噪与解码共享网络，无需额外 decoder 模块，避免 latent diffusion 中 decoder 训练的开销与误差累积。

ELF的同类竞品对比

对比维度

ELF

MDLM

LLaDA

技术路线

连续扩散（embedding空间全程去噪，最后一步离散化）

离散扩散（直接在token空间操作，每步维护离散状态）

离散扩散（基于BERT架构的掩码扩散语言模型）

参数规模

105M

350M / 1.3B

训练数据

45B token（少一个数量级）

500B+ token

数万亿 token

采样步数

32步

1024步（标准）/ 64步（需蒸馏）

64~128步

生成困惑度

24（OpenWebText，32步无蒸馏）

~35（1024步）/ ~60（32步无蒸馏）

~30（128步）

架构设计

去噪与解码共享同一网络，无额外模块

每步在词表空间做离散状态转移

基于掩码预测的Transformer，每步预测被掩码token

核心优势

数据效率极高、采样极快、架构最简

与语言离散性天然契合，理论直观

大规模参数带来强表达能力，可扩展性好

主要劣势

依赖预训练encoder提供embedding

训练数据需求大、采样步数多、生成质量对步数敏感

推理成本高、需要大量训练数据、推理步数仍较多

ELF的应用场景

低资源高效文本生成：用 45B token 可训练出高质量模型，适合数据预算有限的企业和研究者快速部署自然语言生成能力。

机器翻译：在 WMT14 等翻译任务上超越现有扩散模型和部分自回归基线，可作为非自回归翻译系统的核心引擎。

文本摘要与内容改写：在 XSum 等摘要任务中表现稳定，适合新闻摘要、文档提炼等需要保留关键信息的场景。

创意写作与对话生成：生成困惑度低至 24，文本自然度高、AI 痕迹弱，适合长篇小说、营销文案等类人风格内容创作。

扩散语言模型研究基线：首次验证”连续到底”路线在文本生成的可行性，为后续大模型架构探索提供重要参考和基础框架。

すべてのカテゴリ

ELF是什么

ELF的主要功能

ELF的技术原理

如何使用ELF

ELF的核心优势

ELF的项目地址

ELF的同类竞品对比

ELF的应用场景

ELF是什么

ELF的主要功能

ELF的技术原理

如何使用ELF

ELF的核心优势

ELF的项目地址

ELF的同类竞品对比

ELF的应用场景