Encoder-only / Decoder-only / Encoder-Decoder 三大范式

要解决的问题

Transformer 堆栈可裁剪为三种 架构范式，对应不同预训练目标与产品形态。选型决定数据格式、推理方式与生态工具链。

范式	代表	预训练目标	推理	典型应用
Encoder-only	BERT、RoBERTa	MLM、NSP	双向一次前向	分类、检索、NLI
Decoder-only	GPT、Llama、Qwen	CLM（下一 token）	自回归逐 token	对话、代码、推理
Encoder-Decoder	T5、BART、原始 Transformer	Span corruption 等	Encoder 编码 + Decoder 生成	翻译、摘要（专用时代）