wordpress中的类,seo优化是什么意思,公司名后缀的邮箱,网站推广策略和营销策略LLMs之dLLM#xff1a;《LLaDA2.0: Scaling Up Diffusion Language Models to 100B》翻译与解读 导读#xff1a;这篇论文提出了一种开创性的方法#xff0c;旨在开发大规模离散扩散语言模型#xff08;dLLM#xff09;。传统上#xff0c;自回归#xff08;AR#xff…LLMs之dLLM《LLaDA2.0: Scaling Up Diffusion Language Models to 100B》翻译与解读导读这篇论文提出了一种开创性的方法旨在开发大规模离散扩散语言模型dLLM。传统上自回归AR模型主导着大语言模型领域但其顺序解码的固有局限性日益凸显。尽管dLLM提供了并行生成和双向上下文的优势但将其扩展到千亿参数规模一直是一个重大挑战。LLaDA2.0通过提出一种新颖、系统的转换范式来解决这一问题它利用现有的预训练AR模型作为基础而非从头开始训练dLLM。这种方法确保了知识继承并显著降低了训练成本。LLaDA2.0 提出了一套可操作的“从 AR 到 dLLM”的工程化路线Warmup–Stable–Decay document-level mask 后训练的互补掩码/ CAP / DPO / Top-k merge 工程化训练/推理栈在保持预训练知识的同时实现在 16B 与 100B 规模上可竞争甚至局部超越 AR 模型的性能特别在代码、Agent 与长上下文任务上表现突出论文同时给出了多处实用经验掩码带宽、block-size 与阈值选择、数值稳定技巧可直接供工程化迁移与生产部署参考。总之LLaDA2.0为社区提供了一个实用的方案可以在利用AR模型稳定性的同时实现扩散模型的并行性为高效、大规模语言建模开辟了新途径尤其是在新兴的代理LLM时代。研究结果表明dLLM是一种强大且可扩展的替代方案有望在需要结构化生成和工具使用的任务中表现出色。 背景痛点● 序列生成瓶颈自回归AR范式天然是左到右的串行生成导致推理延迟高、并行化受限不利于大规模部署与低延迟场景。● 规模迁移挑战直接从小规模或从头训练的离散扩散dLLM/MDLM难以扩展到数百亿参数训练成本高、数据利用率与工程成熟度不足且易丢失AR预训练的知识。● 训练效率与语义干扰块式/全序列扩散在 packed training 下会造成跨文档注意力污染spurious dependencies降低稳定性和数据利用效率同时高mask比率会引发梯度方差与数值不稳。● 推理速度与置信度不足扩散模型的迭代去噪本质使其推理步数多、吞吐受限而且模型预测置信度不高会限制激进并行解码的实用性。 具体的解决方案核心创新在于三阶段训练框架(1)、持续预训练CPT 此阶段将AR模型转换为dLLM。它采用了一种预热-稳定-衰减WSD策略通过渐进式调整块大小平滑地弥合了AR和dLLM之间的数据分布差异。该策略从小的块大小预热开始扩展到全序列掩码稳定以深化扩散理解然后缩回到紧凑的块大小衰减以提高推理效率。关键是引入了文档级注意力掩码以防止在打包异构文档时出现虚假依赖确保语义连贯性。此外Top-k检查点合并策略进一步增强了泛化能力。● WSD 连续预训练Warmup–Stable–Decay通过逐步放大再收缩 block-size把 AR 模型平滑转换为 MDLMBDLM兼顾知识继承与扩散式建模能力。Warmup→Stable→Decay 三阶段配合分段训练数据与 mask 策略。● 文档级块注意力掩码在 packed sequences 中引入 document-level block attention mask限制 self-attention 只在同一文档内发生避免跨文档语义污染从而提升双向去噪的鲁棒性。● Top-k Checkpoint Merge训练结束后选 top-k 验证最优的 checkpoint 做参数平均offline merge平滑参数空间、提升泛化而非仅用 EMA。(2)、块扩散预训练 在MDLM的基础上模型被训练去噪连续的文本块从而提高了计算效率和长程连贯性。(3)、后训练以实现实际部署 此阶段旨在使模型与人类偏好对齐并优化部署。关键技术包括● 监督微调SFT优化—互补掩码与掩码带宽结合互补掩码将数据利用率提高一倍和掩码比例带宽稳定收敛。在 SFT 阶段用 Complementary Masking原掩码与其补集同时作为训练样本与 mask-ratio 带宽限制几乎保证每个 token 在一对样本中至少一次为 clean从而大幅提高数据利用率、稳定收敛。● 置信度感知并行训练CAP通过引入辅助置信度损失来锐化预测显著提高了并行解码速度同时不影响质量。在 SFT 中加入辅助置信度损失 L_conf对已正确预测的 token 降低熵迫使模型“变得更自信”以便在并行阈值解码时接受更多高置信 token显著提升吞吐。● 直接偏好优化DPO将 DPO 迁移到扩散模型通过使用模型的重构损失基于条件块扩散ELBO重新制定目标从而适配dLLM。将难以计算的扩散条件似然替换为 Block-Diffusion ELBO并在此基础上应用 DPO直接偏好优化进行人类偏好对齐1.5M 偏好对。● 工程与推理栈优化该工作还详细介绍了强大的训练和推理基础设施包括使用Megatron-LM进行预训练、cuDNN进行高效块扩散、以及dInfer/SGLang进行高性能推理同时还采用了数值稳定性技术。基于 Megatron-LM dFactory2/dInfer 的分布式训练与推理引擎利用 cuDNN 优化的块注意力、KV-cache 重用与 zig-zag 分区以保证训练/推理效率。并发布两种指令调优变体LLaDA2.0-mini 16BLLaDA2.0-flash 100B。 核心思路步骤系统化流程● 阶段与步骤概览—Stage-1CPT从强 AR 基础模型出发逐步用 WSD 把模型转为 MDLMWarmup: LB 从1→4→32→64→4096Stable: 在 LB4096 上大规模训练Decay: LB 逐步降回如32 以恢复 BDLM 效率。● 损失与目标Warmup/DecayBDLM使用 L_BDLM按块对被 mask 的 token 做交叉熵加权StableMDLM使用 L_MDLM全序列去噪目标的简化形式。● 文档级注意力构建将 xtnoisy与 x0clean拼接为 2L 序列按 block 划分并构建三类掩码block-diagonal、offset block-causal、block-causal确保 xt→x0 的跨块关注仅向前可见禁止 x0→xt 的关注从而既支持并行向量化计算又保留因果结构。● Post-trainingSFT → CAP → DPOSFT 用条件块扩散目标对指令数据训练并加入 Complementary Masking 与 mask-ratio 带宽CAP 在 SFT 后或并行阶段加入置信度损失最后基于 ELBO 的 DPO 做偏好对齐。● 数值与稳定技巧为避免 mask token embedding 在 AR 训练中“塌陷/为 0”导致 CPT 初期梯度爆炸采用对被 mask token embedding 输出加独立高斯噪声的策略以保持 L2 范数与稳定训练。 优势论文发布了两个经过指令微调的混合专家MoE变体LLaDA2.0-mini16B和LLaDA2.0-flash100B。通过对47个基准测试的广泛评估表明LLaDA2.0模型具有高度竞争力并且在几个复杂、结构化的领域如代码生成、高级数学和代理工具使用甚至超越了最先进的AR模型。LLaDA2.0-flash-CAP变体比AR基线模型实现了高达2.1倍的推理加速。● 保留知识、降低成本以 AR checkpoint 为起点知识继承比从零训练更省资源且能保留预训练能力缩短到高质量 dLLM 的路径。● 并行解码与吞吐提高通过块扩散与 CAP可开启更激进的并行阈值解码LLaDA2.0-flash-CAP 在实测中达到 535 TPS比未加 CAP 与 AR baseline 有明显提升最高可达 ~2.1× 加速。● 复杂结构任务优势在大规模评测里47 项基准LLaDA2.0-flash 在代码生成、Agent工具使用与部分数学任务上超过或接近同类 AR 模型HumanEval、MBPP、BFCL 等表现突出表明扩散式模型在结构化生成任务上有先天优势。● 长上下文鲁棒性在 RULER 长上下文测试4k–32k中表现稳定native 32k 窗口下性能优异支持 YaRN 动态 RoPE 扩展到 64k虽会有精度下降但具延展性。● 训练泛化与稳定性Top-k checkpoint merge 能平滑参数、提升泛化mask-ratio 带宽与互补掩码提升样本效率与训练稳健性。 论文的结论与观点侧重经验与建议●渐进式转换优于一次性切换Warmup→Stable→Decay 的分阶段 block-size 调度能平滑架构与目标的断层避免直接切换导致的知识遗忘或训练崩溃。建议在大规模迁移中采用渐进策略并在每一档做适量训练。● 文档级掩码不可或缺在 packed training 场景下document-level block attention mask 对稳定训练与语义一致性至关重要应作为 CPT 的基本构件而非可选技巧。● 数据利用与掩码策略Complementary Masking 在后训练SFT阶段能显著提升数据利用率但在 CPT极大语料规模中未必总优论文指出在 100B tokens 场景优势不明显因此建议对数据规模敏感地选择是否使用。● 推理超参的折中选择实验表明 denoising threshold≈0.95 与 block size32 在质量/速度上是较佳折中32 提升吞吐且只小幅牺牲分数阈值过低虽快但质量跌幅大建议工程化部署以此为起点做业务微调。● 稳定性工程实践CPT 起始阶段用对被 mask token embedding 加噪而非重置能避免训练初期的梯度爆炸与灾难性遗忘表明细节工程改动在大规模迁移中非常重要。● 生产化路径结合 CAP、KV-cache 重用与 dInfer/SGLang 等推理优化能将扩散模型的并行潜力真实转化为线上吞吐提升同时保留 Top-k merging 与 DPO 等对齐步骤以保证质量与对齐安全。目录《LLaDA2.0: Scaling Up Diffusion Language Models to 100B》翻译与解读Abstract核心要点经验技巧快速读懂该论文的价值1、Introduction核心要点经验技巧2 相关工作2.1 从头训练dLLM2.2 通过AR模型初始化扩展dLLM2.3 dLLM的后训练经验技巧3 LLaDA2.0 训练范式核心要点经验技巧4 通过预热-稳定-衰减WSD进行持续预训练核心要点经验技巧5 后训练5.1 块扩散监督微调SFT5.2 置信度感知并行训练CAP5.3 DPO直接偏好优化5.4 推理经验技巧6 评估6.1 设置6.2 结果6.3 分析经验技巧7 训练与推理基础设施7.1 预训练7.2 后训练7.3 推理引擎经验技巧8 Conclusion核心要点经验技巧《LLaDA2.0: Scaling Up Diffusion Language Models to 100B》翻译与解读LLaDA2.0通过系统转换和三阶段训练将扩散语言模型扩展至千亿参数的范式创新与实践地址论文题目《LLaDA2.0: Scaling Up Diffusion Language Models to 100B》https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf时间2025年12月11日作者Ant Group蚂蚁集团、Renmin University of China中国人民大学、Zhejiang University浙江大学、Westlake University西湖大学、HongKong University of Science and Technology香港科技大学AbstractThis paper presents LLaDA2.0 — a tuple of discrete diffusion large language models (dLLM) scaling up to 100B total parameters through systematic conversion from auto-regressive (AR) models — establishing a new paradigm for frontier-scale deployment. Instead of costly training from scratch, LLaDA2.0 upholds knowledge inheritance, progressive adaption and efficiency-aware design principle, and seamless converts a pre-trained AR model into dLLM with a novel 3-phase block-level WSD based training scheme: progressive increasing block-size in block diffusion (warm-up), large-scale full-sequence diffusion (stable) and reverting back to compact-size block diffusion (decay). Along with post-training alignment with SFT and DPO, we obtain LLaDA2.0-mini (16B) and LLaDA2.0-flash (100B), two instruction-tuned Mixture-of-Experts (MoE) variants optimized for practical deployment. By preserving the advantages of parallel decoding, these models deliver superior performance and efficiency at the frontier scale. Both models were open-sourced.本文介绍了LLaDA2.0——一组通过系统性地从自回归AR模型转换而来的离散扩散大型语言模型dLLM其总参数规模可扩展至 1000 亿开创了前沿规模部署的新范式。LLaDA2.0并非从头开始进行成本高昂的训练而是秉持知识传承、渐进式适应和效率导向的设计原则采用一种新颖的三阶段块级权重共享扩散WSD训练方案将预训练的 AR 模型无缝转换为 dLLM在块扩散中逐步增加块大小预热、大规模全序列扩散稳定以及重新回到紧凑大小的块扩散衰减。通过与 SFT 和 DPO 的后训练对齐我们获得了 LLaDA2.0-mini160 亿和 LLaDA2.0-flash1000 亿这两个针对实际部署优化的指令调优的专家混合MoE变体。通过保留并行解码的优势这些模型在前沿规模上实现了卓越的性能和效率。这两个模型均已开源。本文介绍了LLaDA2.0一个通过从自回归AR模型系统转换而来的离散扩散大语言模型dLLM系列其参数规模高达1000亿。LLaDA2.0建立了一个前沿规模部署的新范式强调知识继承、渐进适应和效率感知设计。其核心是一个新颖的三阶段块级WSD预热-稳定-衰减训练方案并结合SFT和DPO进行后训练对齐。最终发布了针对实际部署优化的LLaDA2.0-mini16B和LLaDA2.0-flash100B两个指令微调的混合专家MoE变体。这些模型保留了并行解码的优势并在前沿规模上展现出卓越的性能和效率。核心要点模型名称与规模 LLaDA2.0是一个离散扩散大语言模型系列参数规模高达1000亿。核心方法 通过从预训练的自回归AR模型进行系统转换而非从头开始昂贵的训练。设计原则 秉持知识继承、渐进适应和效率感知设计。关键训练方案 采用新颖的三阶段块级WSD训练方案预热warm-up、稳定stable和衰减decay。后训练对齐 结合监督微调SFT和直接偏好优化DPO进行模型对齐。发布模型 LLaDA2.0-mini16B和LLaDA2.0-flash100B均为指令微调的MoE变体。核心优势 保留并行解码优势在前沿规模上提供卓越的性能和效率。经验技巧利用现有资源 通过转换而非从头训练可以有效继承AR模型的语言知识并节省大量训练成本。分阶段渐进式训练 WSD策略提供了一种平滑、稳定的AR到dLLM转换路径。多目标优化 结合SFT和DPO进行后训练以同时优化指令遵循能力和人类偏好对齐。快速读懂该论文的价值比喻理解想象 AR 是“沿街排队一个一个发货”速度受限LLaDA2.0 要做的是把货打包好、分块并行配送但又不丢掉原先店铺AR积累的货物信息知识继承。实现这件事用的是 WSD渐进放大再收缩 block、文档级掩码保证“不同包不串味”、CAP 提升“每包的自信”从而放心并行发货。AR 的核心痛点问题LLaDA2.0 针对性解决点具体方法论文里的关键技术直接收益论文给出的实证/结论代价 / 限制 / 注意点推理串行、吞吐/延迟受限AR 逐 token 生成难以并行提供可并行的生成范式并工程化为可部署的系统。将 AR 模型转换为扩散式dLLM用 block-diffusion / MDLM 支持并行阈值解码 CAP 提升置信度以允许更激进并行解码。并行解码下吞吐显著提升LLaDA2.0-flash-CAP 实测 535 TPS相比 AR baseline 可有 ~2.1× 加速。并行解码依赖模型的置信度与阈值调优极端并行会牺牲质量需要 CAP 等技巧平衡。单向因果限制对双向/整体推理不利AR 只能左到右引入双向去噪建模以获得全局/双向上下文理解能力。采用 MDLM全序列 masked-denoising与 BDLMblock-wise diffusion来利用 bidirectional 信息。WSD三阶段平滑过渡以保留 AR 知识。在一些结构化任务代码、数学、Agent 工具使用上dLLM 在部分基准超越或接近 AR 模型表现更好。双向训练需防止跨文档“语义污染”需要 document-level attention mask 等工程手段见第3条。Packed training导致跨文档注意力污染训练不稳定限制注意力只在同一文档范围内避免“虚假依赖/语义混淆”。设计 document-level block attention mask在 packed sequences 下按文档划分 block构建 block-diagonal / offset / causal 等掩码。保持语义连贯与训练稳定性使 CPT从 AR 到 dLLM 的持续训练可行且高效。需要在数据 packing / attention 实现上做工程优化cuDNN fusion、zig-zag 分区等增加实现复杂度。直接从 AR 切换到扩散丢失预训练知识 / 不稳定提出渐进式转换以平滑架构与目标的差异降低灾难性遗忘。Warmup–Stable–Decay (WSD)逐步增大 block-size → 在大块MDLM上大规模稳定训练 → 再逐步缩回小 blockBDLM并保留/融合 AR 先验。能以较少成本把已有 AR checkpoint 迁移到高质量 dLLM保持预训练能力同时获得扩散优势。WSD 需要额外的 CPT 阶段、超参调度和中间阶段训练数据工程复杂度和训练时间有增加但比从头训练省资源。扩散训练单样本信号弱、数据利用率低随机 mask 导致信息稀疏提高后训练阶段的数据利用率与收敛速度稳定 SFT。Complementary Masking对每条序列生成互补的两个掩码样本保证每个 token 在一对样本中至少一次为 clean并引入 mask-ratio 带宽等技巧。加速收敛、提高样本效率SFT 阶段更快达到 instruction-following 能力。Complementary Mask 在极大语料100B tokens下效果不总是显著论文指出仅在 post-training 使用它更合适。推理置信度不足限制激进并行解码出错/不确定训练时显式提高预测置信度允许更高阈值并行解码而不牺牲质量。Confidence-Aware Parallel (CAP)在 SFT 中加入置信度损失 L_conf对已正确预测的 token 降低熵/提高确定性配合阈值解码。解锁更激进的并行解码显著提高 TPS见第1行在保持质量的前提下提升吞吐。需要调整 λ置信度损失权重与解码阈值过度追求置信度可能导致分布过锐或生成欠多样。工程 / 可部署性如何在大规模上实现 dLLM给出完整训练 推理栈与实测部署方案包含 MoE 变体。Megatron-LM dFactory/dInfer 实现大规模训练与推理优化cuDNN fused block attention、KV-cache 重用、zig-zag 分区等并发布 16B / 100B 可用模型。需要复杂基础设施与工程实现但论文已提供实践路径与开源代码以降低入门门槛。工程 / 可部署性如何在大规模上实现 dLLM1、IntroductionLarge Language Models have achieved remarkable success through the AR paradigm, modeling sequences via next-token prediction with strict left-to-right causal dependencies (Hurst et al., 2024; Grattafiori et al., 2024; Yang et al., 2025). This approach naturally aligns with the sequential structure of language and enables efficient training through next-token likelihood maximization. However, the very success of this paradigm creates fundamental limitations: the sequential generation process imposes severe inference bottlenecks, precluding parallelization, and increasing latency at scale, while the rigid causal structure can be suboptimal for tasks requiring bidirectional reasoning and holistic understanding.Discrete Masked Diffusion Language Models (MDLM) have emerged as a compelling alternative to the prevailing AR paradigm. By reconstructing sequences from random masked inputs, these models inherently support parallel generation and leverage a full bidirectional context, offering a different architectural ap-proach (Gong et al., 2025; Yu et al., 2025). Although these conceptual advantages are clear, the field is still in an early developmental stage. Current research is actively focused on key challenges, including the refinement of specialized training regimes, the design of efficient sampling strategies, the efficient inference of open-source models, and reinforcement learning for MDLM. As a result of this ongoing exploration, most existing diffusion models, including recent advancements like Block Diffusion Language Models (BDLMs) (Arriola et al., 2025), operate at a smaller scale (e.g., ≤8B parameters). Bridging this scale difference to the hundreds of billions of parameters seen in the leading mainstream AR models is a primary frontier for enabling diffusion models to fully capture complex linguistic patterns for practical deployment.大型语言模型通过自回归AR范式取得了显著的成功通过严格的从左到右因果依赖关系进行下一个标记预测来建模序列Hurst 等人2024 年Grattafiori 等人2024 年Yang 等人2025 年。这种方法自然地与语言的序列结构相契合并通过最大化下一个标记的可能性实现高效训练。然而这种范式的巨大成功也带来了根本性的局限序列生成过程造成了严重的推理瓶颈阻碍了并行化且在大规模应用时增加了延迟而严格的因果结构对于需要双向推理和整体理解的任务来说可能并非最优选择。离散掩码扩散语言模型MDLM作为自回归范式的有力替代方案应运而生。通过从随机掩码输入中重建序列这些模型固有地支持并行生成并利用了完整的双向上下文提供了一种不同的架构方法Gong 等人2025 年Yu 等人2025 年。尽管这些概念上的优势显而易见但该领域仍处于早期发展阶段。当前的研究积极聚焦于关键挑战包括专业训练方案的优化、高效采样策略的设计、开源模型的高效推理以及用于多模态扩散语言模型MDLM的强化学习。由于这种持续探索现有的大多数扩散模型包括近期的进展如块扩散语言模型BDLMsArriola 等人2025 年其规模都较小例如参数数量≤80 亿。弥合这一规模差异达到主流先进自动回归AR模型所拥有的数百亿参数规模是使扩散模型能够充分捕捉复杂语言模式以实现实际应用的主要前沿领域。In this work, we introduce LLaDA2.0 series with 100B/16B total parameters diffusion language models that resolves these fundamental challenges through a novel two-stage continual pre-training (CPT) paradigm. Rather than attempting to train diffusion models from scratch, we leverage existing AR checkpoints as the foundation for a systematic conversion process that preserves linguistic knowledge while introducing diffusion capabilities.The first stage, CPT aims to transform the foundational AR model into a capable diffusion language model. However, direct conversion is challenging due to the inherent data distribution gap between left-to-right generation and bidirectional denoising. Although the BDLM formulation partially reduces this gap through blockwise masked reconstruction, it suffers from low data utilization, limiting the effective exploitation of large-scale corpora. To this end, we introduce the Warmup–Stable–Decay (WSD) strategy, smoothly bridging the AR-to-dLLM gap while substantially improving CPT efficiency. WSD gradually expands the model’s receptive field to introduce diffusion-style context (Warmup), strengthens global denoising under full-sequence training (Stable), and then refines the model into an efficient blockwise structure (Decay). This progressive adjustment enables a stable and>在本研究中我们推出了 LLaDA2.0 系列包含 1000 亿/160 亿参数的扩散语言模型通过一种新颖的两阶段持续预训练CPT范式解决了这些根本挑战。我们并非试图从头开始训练扩散模型而是利用现有的 AR 检查点作为基础进行系统性的转换过程在保留语言知识的同时引入扩散能力。在第一阶段CPT 的目标是将基础的自回归模型转化为有能力的扩散语言模型。然而由于自左向右生成与双向去噪之间固有的数据分布差异直接转换颇具挑战性。尽管 BDLM 的公式化部分缩小了这一差距但其数据利用率低限制了大规模语料库的有效利用。为此我们引入了预热 - 稳定 - 衰减WSD策略平滑地弥合了自回归模型到扩散语言模型的差距同时大幅提高了 CPT 的效率。WSD 逐步扩大模型的接受域以引入扩散式的上下文预热在全序列训练中强化全局去噪稳定然后将模型精炼为高效的块状结构衰减。这种渐进式的调整实现了向基于扩散学习的稳定且高效的数据过渡。此外在打包训练序列的全注意力机制下扩散模型存在跨文档边界形成虚假依赖的风险从而导致双向训练中的语义混乱和不稳定。为防止此类跨文档干扰我们引入了一个文档级注意力掩码将自注意力限制在单个文档内确保上下文建模的连贯性。The second stage, Post-training for Practical Deployment, transitions the model from a raw predictive engine into a capable and efficient assistant. The random masking nature of the diffusion fine-tuning objective means any single sample provides only a partial learning signal. We address this by employing a complementary masking strategy, which ensures near-100% data utilization and accelerates convergence by guaranteeing every token contributes to the model’s learning. With an efficient foundation for instruction tuning, we then align the model with human preferences by adapting modern techniques like Direct Preference Optimization (DPO)—originally designed for AR models—by reformulating the objective over the model’s reconstruction loss. Beyond alignment, practical deployment hinges on inference speed. To realize the full promise of parallel decoding, which is often limited by a model’s lack of predictive confidence, we incorporate an auxiliary confidence prediction loss. This trains the model to be “sharper” and more certain, unlocking aggressive and efficient parallel generation without degrading quality.We release instruction-tuned variants for practical deployment: LLaDA2.0-mini (16B parameters) for resource-constrained applications and LLaDA2.0-flash (100B parameters) for high-performance scenarios. Both vari-ants retain the parallel decoding advantages of our diffusion training while being optimized for instruction following and safety through comprehensive post-training alignment.Our contributions provide a practical recipe for the community to leverage AR stability while achieving diffusion parallelism, opening new possibilities for efficient large-scale language modeling.第二阶段即用于实际部署的训练后处理将模型从原始的预测引擎转变为功能强大且高效的助手。扩散微调目标的随机掩码特性意味着任何单个样本仅提供部分学习信号。为解决这一问题我们采用了一种互补掩码策略确保近乎 100% 的数据利用率并通过保证每个标记都对模型的学习做出贡献来加速收敛。有了高效的指令微调基础我们接着通过调整现代技术如最初为 AR 模型设计的直接偏好优化DPO来使模型与人类偏好保持一致通过重新制定模型重建损失的目标来实现。除了对齐之外实际部署还取决于推理速度。为了实现并行解码的全部潜力这通常受到模型缺乏预测信心的限制我们引入了一个辅助的置信度预测损失。这训练模型变得更“敏锐”和更确定从而在不降低质量的情况下实现激进且高效的并行生成。我们发布了适用于实际部署的指令调优变体LLADA2.0-mini160 亿参数适用于资源受限的应用场景LLADA2.0-flash1000 亿参数适用于高性能场景。这两个变体在保持我们扩散训练的并行解码优势的同时通过全面的后期训练对齐进行了优化以遵循指令和确保安全性。我们的贡献为社区提供了一种实用的方法以利用 AR 稳定性并实现扩散并行性为高效的大规模语言建模开辟了新的可能性。本节首先肯定了自回归AR语言模型在序列建模方面的巨大成功但也指出了其固有的局限性如顺序生成导致的推理瓶颈和僵化的因果结构。随后介绍了离散掩码扩散语言模型MDLM作为一种有前景的替代方案它支持并行生成和利用双向上下文。然而现有扩散模型在规模上远不及主流AR模型。LLaDA2.0旨在通过一种新颖的两阶段持续预训练CPT范式将AR模型系统地转换为大规模dLLM同时克服上述挑战。核心要点AR模型的局限性 严格的从左到右因果依赖导致顺序生成、推理瓶颈、大规模部署时延迟增加且不利于需要双向推理和整体理解的任务。MDLM的优势 通过从随机掩码输入重建序列本质上支持并行生成并利用完整的双向上下文。现有MDLM的挑战 多数MDLM包括BDLM规模较小≤8B难以与百亿参数级别的AR模型匹敌。LLaDA2.0的解决方案 引入两阶段持续预训练CPT范式将现有AR检查点转换为dLLM以保留语言知识并引入扩散能力。CPT第一阶段转换 提出WSD预热-稳定-衰减策略平滑AR到dLLM的转换并引入文档级注意力掩码以防止跨文档干扰。CPT第二阶段部署 采用互补掩码提高数据利用率并引入辅助置信度预测损失以实现高效并行生成。发布模型 LLaDA2.0-mini16B和LLaDA2.0-flash100B。经验技巧识别并解决核心瓶颈 针对AR模型在并行性和双向上下文上的不足提出MDLM作为替代。渐进式知识迁移 通过CPT范式在保留AR模型强大知识能力的基础上逐步引入MDLM的优势。细致的训练策略 WSD和文档级注意力掩码是解决AR到dLLM转换中数据分布差异和上下文连贯性问题的有效手段。Figure 2:A schematic of the progressive training framework for transforming an AR model into a MDLM. Continual Pre-Training Stage facilitates the Warmup-Stable-Decay strategies by scheduling block size LBL_BLB enables smooth, stable, and effective attention mask adaptation. Post-training Stage facilitates the same block diffusion configuration conducting the instruction SFT, Confidence-Aware Parallel SFT, and DPO. The right panel illustrates the document-level block diffusion attention mask, which enables an efficient, vectorized forward pass by constructing a single input sequence from multiple noisy and clean examples, such as [xnoisy1,…,xclean1,…][x_{noisy1}, \ldots, x_{clean1}, \ldots][xnoisy1,…,xclean1,…]. The forward pass then employs a combination of block-diagonal (MBDM_{BD}MBD), offset block-causal (MOBCM_{OBC}MOBC), and block-causal (MBCM_{BC}MBC) masks.用于将自回归AR模型转换为掩码扩散语言模型MDLM的渐进式训练框架示意图。持续预训练阶段Continual Pre-Training Stage通过对 block 大小 LBL_BLB 进行调度实现了Warmup–Stable–Decay策略从而支持平滑、稳定且高效的注意力掩码适配。后训练阶段Post-training Stage在相同的 block 扩散配置下依次进行指令微调instruction SFT、**置信度感知并行微调Confidence-Aware Parallel SFT**以及DPODirect Preference Optimization。右侧图示展示了文档级 block 扩散注意力掩码。该掩码通过将多个带噪样本与干净样本构造成单一输入序列例如 [xnoisy1,…,xclean1,…][x_{noisy1}, \ldots, x_{clean1}, \ldots][xnoisy1,…,xclean1,…]从而实现高效、向量化的前向计算。在前向传播过程中模型联合使用了以下三种注意力掩码块对角掩码block-diagonalMBDM_{BD}MBD偏移块因果掩码offset block-causalMOBCM_{OBC}MOBC块因果掩码block-causalMBCM_{BC}MBC2 相关工作本节回顾了离散扩散语言模型dLLM领域的现有研究主要分为从头训练dLLM、通过AR模型初始化扩展dLLM以及dLLM的后训练三个方面。它指出了现有方法在模型规模、训练效率和性能上存在的局限性为LLaDA2.0的创新提供了背景。2.1 从头训练dLLMLLaDA8B密集MDLM和LLaDA-MoE首次引入MoE架构到MDLM展示了从头训练dLLM的潜力性能可与同等规模AR模型竞争。局限性 性能仍落后于SOTA AR模型主要受限于训练数据量、基础设施成熟度和模型规模通常≤8B。2.2 通过AR模型初始化扩展dLLMDiffusionLLaMA、Dream-7B等采用掩码退火策略RND1直接转换因果注意力机制以降低训练成本并缩小与AR模型的性能差距。块扩散语言模型BDLM通过块级生成结合扩散和AR建模支持KV-cache复用提高推理效率。例如SDAR利用Qwen-3系列训练BDLM。局限性 现有AR初始化方法模型规模受限7B到30B且块扩散训练效率低难以应用于大规模语料库和更大模型。2.3 dLLM的后训练监督微调SFT Dream-Coder代码生成、Dream-7B通用任务等通过SFT使dLLM适应特定领域。强化学习RL SPG、TraceRL等研究探索RL来增强dLLM的推理能力但面临对数似然难以处理的挑战。推理优化 DPad无训练加速、D2F混合自回归-扩散范式等方法旨在解决dLLM迭代去噪导致的推理速度慢问题D2F首次使dLLM推理速度超越同等规模AR模型。局限性 dLLM的后训练领域仍处于早期特别是如何将这些技术扩展到千亿参数模型仍是未解决的挑战。经验技巧成本效益分析 从头训练dLLM成本高昂且效率低利用AR模型初始化是更实际的路径。混合架构优势 BDLM结合扩散和AR的优势在效率和性能之间取得平衡。后训练的重要性 SFT、RL和推理优化是释放dLLM全部潜力的关键步骤需根据dLLM特性进行适配。3 LLaDA2.0 训练范式本节详细阐述了LLaDA2.0的整体训练流程这是一个分阶段、可扩展的框架旨在将AR语言模型转换为高效的扩散语言模型。该范式遵循三个主要阶段从AR到MDLM的持续预训练、块扩散预训练以及用于对齐和任务专长的后训练。它强调了知识继承、渐进适应和效率感知设计以实现从AR模型到流畅、灵活、快速的扩散大语言模型的无缝演进。核心要点整体训练流程 LLaDA2.0采用三阶段渐进式训练框架。阶段1从AR到MDLM的持续预训练CPT。 将强大的AR基础模型适应为MDLM学习双向去噪以重建随机掩码的token同时保留原始模型的表示几何结构。阶段2块扩散预训练。 在MDLM的基础上进一步训练模型去噪连续的文本块而非单个token从而提高计算效率和长程连贯性。阶段3后训练。 包括SFT和DPO旨在将模型的输出与人类意图、指令遵循能力和下游应用需求对齐确保强大的生成骨干在多样任务中实现实际性能提升。设计理念 LLaDA2.0的训练范式强调知识继承、渐进适应和效率感知设计。经验技巧分步实现复杂目标 将AR到dLLM的转换分解为多个可管理的阶段每个阶段都有明确的目标。从细粒度到粗粒度 从token级扩散MDLM过渡到块级扩散BDLM逐步提升效率和处理长序列的能力。端到端考量 训练不仅关注模型能力也关注最终的实际部署性能通过后训练实现。4 通过预热-稳定-衰减WSD进行持续预训练本节详细介绍了LLaDA2.0持续预训练阶段的核心策略——预热-稳定-衰减WSD旨在解决AR模型与dLLM在架构归纳偏置和训练目标上的根本性不匹配问题实现平滑、稳定、数据高效的转换。此外还引入了文档级注意力掩码以确保语义连贯性并采用Top-k检查点合并来增强模型泛化能力。核心要点核心挑战 AR模型与dLLM在架构归纳偏置和训练目标上存在根本性不匹配直接转换会导致优化不稳定和预训练知识严重退化。WSD策略 将转换过程分解为三个协调阶段预热Warmup 渐进式增加块扩散语言模型BDLM中的块大小从1到4096逐步将AR模型转换为全序列掩码扩散语言模型MDLM。每个块大小转换都在中等规模数据上训练以确保平滑适应。稳定Stable 当块大小达到4096模型转变为MDLM模式后固定块大小在大规模语料上进行广泛训练深化模型对扩散动力学的理解。此阶段计算效率显著提高因为“干净”部分的注意力计算不再需要维护。衰减Decay 在大规模MDLM训练后逐步减小块大小从4096到32将模型转换回高效BDLM。此过程将MDLM学到的全局上下文知识提炼到紧凑的块级结构中在保留语义理解的同时恢复BDLM的实际优势如KV-cache复用和快速变长生成。文档级注意力掩码问题 打包异构文档到固定长度序列会引入跨文档的人工长程依赖导致上下文混淆。解决方案 重新定义注意力机制使用专门的块级文档级注意力掩码确保注意力严格限制在文档边界内防止跨文档污染从而在去噪过程中充分利用双向上下文。MDLM简化 在MDLM模式下掩码简化为仅确保token属于同一文档。Top-k检查点合并在BDLM预训练完成后识别表现最佳的k个模型检查点基于验证指标并对其参数进行算术平均形成一个统一的BDLM。优势 增强泛化能力和鲁棒性平滑参数空间缓解过拟合。与EMA区别 是一种离线过程选择并平均不同的高性能模型状态而非持续平滑参数。经验技巧渐进式块大小调整 WSD策略通过平滑调整块大小有效管理AR到dLLM转换中的复杂性。上下文边界管理 文档级注意力掩码是处理打包序列、确保语义连贯性的关键技术。模型集成优化 Top-k检查点合并是一种简单而有效的后处理技术可以提升模型整体性能和泛化能力。数值稳定性 在AR到扩散模型转换初期通过向掩码token嵌入输出添加独立高斯噪声防止梯度爆炸保护预训练知识。5 后训练本节详细介绍了LLaDA2.0在预训练之后如何通过一系列后训练技术来解锁其全部潜力使其与特定任务和人类偏好对齐并优化推理效率。这包括监督微调SFT、置信度感知并行训练CAP以及直接偏好优化DPO。5.1 块扩散监督微调SFT目标 通过将扩散训练目标条件化于输入提示c使模型遵循用户指令。填充策略与掩码比例带宽序列长度量化将序列长度向上取整到块大小的最近倍数以确保与块级注意力掩码兼容。掩码比例带宽将掩码率采样限制在有界区间[αmin, αmax]内避免极端掩码率导致的高梯度方差和低学习信号从而稳定收敛并提高生成困惑度。互补掩码Complementary Masking原理 从单个源序列x0生成两个对立的训练实例一个使用随机掩码另一个使用其逻辑反掩码。优势 确保序列长度L上的每个token位置都以未损坏状态呈现给模型一次将每个样本的有效数据利用率提高一倍加速收敛并消除token级采样偏差增强鲁棒性。应用限制 在LLaDA2.0中仅用于后训练因为在CPT阶段数据量不足100B token时效果不明显。数据配方策划 构建平衡、高质量的SFT数据集包含推理、通用和工业三大支柱任务以确保模型具备全面的技能防止能力偏斜。5.2 置信度感知并行训练CAP目标 增强模型的预测置信度这对于高效并行解码至关重要。方法 引入辅助置信度损失Lconf选择性地最小化模型输出分布pθ(x0|xt, c)的熵但仅针对给定步骤中正确预测的token。效果 强制模型提高其正确预测的确定性从而在保持竞争性压缩性能的同时有效提高LLaDA2.0-flash的解码效率如图3所示。5.3 DPO直接偏好优化目标 在SFT阶段后进一步将策略模型πθ与人类意图对齐。数据集 构建了包含150万个跨领域通用知识、数学、指令遵循偏好对的数据集。挑战与解决方案 标准DPO公式需要精确的对数似然但对于扩散模型来说难以处理。因此遵循扩散模型的既定实践用条件块扩散ELBOBBDLM代替条件对数似然并将其定义在掩码token上。优化目标 最大化策略模型πθ相对于冻结参考模型πθref从SFT后模型初始化的ELBO估计之间的裕度。5.4 推理块级采样 在扩散步骤中一次采样一个块条件是先前采样的块。迭代细化 每个块的生成本身是一个多步迭代细化过程。混合接受策略 首先接受所有采样概率超过预定义置信度阈值的token如果不足则触发低置信度回退接受固定数量的最可能token无论其绝对置信度如何以确保稳定的生成进度。经验技巧SFT中的数据增强 互补掩码和掩码比例带宽是提高SFT数据效率和训练稳定性的有效手段。并行解码优化 CAP训练通过增强模型置信度显著提升扩散模型的并行解码速度。DPO的适配 对于扩散模型通过ELBO近似来重新定义DPO目标可以实现有效的偏好对齐。智能推理策略 块级采样结合混合接受策略可以平衡扩散模型的生成质量和推理速度。6 评估本节全面评估了LLaDA2.0系列模型的性能使用了涵盖知识、推理、编码、数学以及代理与对齐五个维度的47个基准测试。结果显示LLaDA2.0架构具有高度竞争力并在特定复杂结构化任务中超越了自回归AR模型。此外还对推理超参数和上下文长度进行了详细分析。6.1 设置基准测试 采用包含47个基准测试的综合套件分为知识、推理、编码、数学、代理与对齐五大类别。对比模型 与强大的开源自回归AR模型进行比较。LLaDA2.0配置 温度0.0块大小32解码阈值0.95。6.2 结果总体表现 LLaDA2.0架构具有高度竞争力在特定关键领域缩小甚至超越了AR模型。LLaDA2.0-mini16B 平均得分64.34与AR同类模型Ling-mini-2.065.77接近。在推理SQuAD 2.086.50、指令遵循IFEval80.78和编码HumanEval86.59等任务上表现优异。LLaDA2.0-flash100B 平均得分73.18与强大的Qwen3-30B-A3B-Instruct-250773.60持平。在复杂生成任务中展现出明显优势如编码HumanEval94.51MBPP88.29MultiPL-E74.87、代理能力BFCL v375.43和高级数学AIME 202560.00。结论 扩散语言模型是自回归范式的强大且可扩展的替代方案在通用基准上迅速缩小差距并在代码生成和工具使用等复杂结构化领域展现出超越传统架构的潜力。6.3 分析推理超参数分析去噪阈值与块大小去噪阈值 0.95阈值在最高质量70.15分与最低推理速度2.55 TPF之间存在权衡。0.85阈值速度最快3.31 TPF但质量下降。块大小 块大小16得分最高70.26但推理最慢2.44 TPF。块大小32显著提高了速度2.55 TPF质量仅略微下降70.15。块大小64则速度和质量均下降。块大小32是最佳平衡点。上下文长度分析RULER基准两模型在32k上下文长度内表现出强大的稳健性。LLaDA2.0-flash在4k到32k长度内得分始终高于93。LLaDA2.0-mini在32k时略有下降。通过动态RoPE缩放YaRN方法扩展到64k上下文长度时两模型性能均有所下降表明上下文长度扩展与任务准确性之间存在权衡。经验技巧多维度综合评估 采用广泛的基准测试套件可以全面评估模型在不同能力上的表现。权衡优化 推理超参数如去噪阈值和块大小需要在生成质量和推理速度之间进行仔细权衡和调优。上下文管理 模型在原生上下文窗口内表现稳健但超出其设计范围的上下文扩展如通过外推法可能会带来性能损失。7 训练与推理基础设施本节详细介绍了LLaDA2.0模型在预训练、后训练和推理阶段所依赖的基础设施和关键技术。它强调了如何通过高效的并行化策略、定制化的优化以及数值稳定性措施来支持百亿参数模型的训练并实现高速推理。7.1 预训练后端 采用Megatron-LM作为预训练后端支持1000亿参数模型和长序列的高效训练。并行化 利用数据并行DP、流水线并行PP、张量并行TP、上下文并行CP和专家并行EP等多种并行策略。高效块扩散训练使用cuDNN作为注意力机制的后端实现端到端1.3倍的速度提升和注意力层超过90%的内存节省。采用zig-zag分区策略对块扩散注意力掩码进行有效负载均衡。数值稳定性 解决AR到扩散模型转换过程中特别是高掩码率下的梯度爆炸问题。通过在训练初期向每个掩码token嵌入的输出添加独立高斯噪声确保掩码token嵌入的L2范数保持显著从而稳定训练过程并保护预训练知识。7.2 后训练框架 利用dFactoryInclusionAI和VeOmni分布式训练框架进行高效后训练。并行化 结合数据并行DP和专家并行EP。数据吞吐量 采用数据打包策略类似于持续预训练中将多个短序列连接成一个长序列以提高数据吞吐量和硬件利用率。7.3 推理引擎适配 适配dInfer高性能扩散LLM推理引擎以高效支持块扩散推理。优化 利用传统AR模型优化技术如KV-cache复用减少预填充计算。集成 将块扩散推理支持集成到SGLang中使其受益于为AR模型设计的系统级优化。推理速度 优化后的LLaDA2.0-flash-CAP达到535 TPS显著优于标准LLaDA2.0-flash383 TPS和AR基线模型256-237 TPS最高可达2.1倍加速。经验技巧综合并行化策略 针对超大规模模型训练结合多种并行化技术是必不可少的。定制化后端优化 针对特定模型架构如块扩散优化底层计算库如cuDNN可以带来显著的性能提升。数值稳定性保障 在模型转换或复杂训练中主动设计机制如添加噪声来维护数值稳定性保护模型知识。推理引擎的复用与适配 将扩散模型的推理与AR模型的成熟优化技术如KV-cache相结合可以大幅提升推理速度。8ConclusionIn this work, we introduced LLaDA2.0, discrete diffusion language models scaling up to 100B total parameters through systematic conversion from auto-regressive models, as well as a set of novel and comprehensive recipes designed to smooth and effectively transform traditional AR language models into highly efficient and performant Masked Diffusion Language Models.Through extensive evaluations, it validates the feasibility of the training paradigm. The LLaDA2.0-mini and LLaDA2.0-flash models achieve performances that are competitive with their AR counterparts. Slightly surprisingly, LLaDA2.0-flash seems to have demonstrated advantages in complex, structured domains such as code generation, mathematical reasoning, and agentic tool use. These may have opened a new door to future work in the agentic LLM era while solidifying a gaugeable potential of dLLM for test-time scaling.Future work may point to further scaling of the parameter volume, RL/thinking paradigm and extending the decoding speed to its extreme.在这项工作中我们介绍了 LLaDA2.0这是一种通过系统地从自回归模型转换而来的离散扩散语言模型其总参数量可扩展至 1000 亿并且还设计了一套新颖且全面的方法旨在平滑且有效地将传统的自回归语言模型转换为高效且性能出色的掩码扩散语言模型。通过广泛的评估验证了这种训练范式的可行性。LLaDA2.0-mini 和 LLaDA2.0-flash 模型在性能上可与自回归模型相媲美。稍显意外的是LLaDA2.0-flash 在代码生成、数学推理和代理工具使用等复杂结构化领域似乎展现出了优势。这可能为代理型 LLM 时代的未来工作开辟了一条新路同时也巩固了 dLLM 在测试时扩展的可衡量潜力。未来的工作可能会指向参数量的进一步扩展、强化学习/思考范式的应用以及将解码速度提升至极限。本文介绍了LLaDA2.0一个通过系统转换自回归模型而扩展到1000亿参数的离散扩散语言模型。它提出了一套新颖且全面的方法旨在将传统AR语言模型平滑有效地转换为高效且高性能的掩码扩散语言模型。通过广泛评估LLaDA2.0模型在性能上与AR模型具有竞争力并且在代码生成、数学推理和代理工具使用等复杂结构化领域展现出独特优势为未来的代理LLM时代开辟了新途径。核心要点核心成果 LLaDA2.0成功将离散扩散语言模型扩展到1000亿参数规模通过系统转换AR模型实现。方法论贡献 提出了一套新颖且全面的方法有效将传统AR语言模型转换为高效且高性能的MDLM。性能验证 LLaDA2.0-mini和LLaDA2.0-flash在性能上与AR模型具有竞争力。特定领域优势 LLaDA2.0-flash在代码生成、数学推理和代理工具使用等复杂结构化领域展现出独特优势。未来展望 这些优势为未来的代理LLM时代开辟了新途径并证实了dLLM在测试时扩展的潜力。未来工作方向 可能包括进一步扩大参数规模、探索强化学习/思维范式以及将解码速度推向极致。经验技巧聚焦特定优势 扩散模型在结构化生成和工具使用方面的固有优势使其在特定任务中可能超越AR模型。持续创新 即使取得了显著进展仍需不断探索模型规模、训练范式和推理速度的极限。开放合作 通过开源模型和方法促进社区共同进步。