第三部分 预训练3.5 分布式训练数据并行(DP、DDP)本页总览数据并行(DP、DDP) 要解决的问题 单卡显存无法放下 billion 级参数,但同一份模型权重可在多卡上处理不同 micro-batch,通过同步梯度等价于更大 batch 训练。数据并行(Data Parallelism, DP)是最基础的分布式维度,理解它是掌握 DDP、ZeRO、FSDP 的前提。