跳到主要内容

Encoder-only / Decoder-only / Encoder-Decoder 三大范式

要解决的问题

Transformer 堆栈可裁剪为三种 架构范式,对应不同预训练目标与产品形态。选型决定数据格式、推理方式与生态工具链。

对比总表

范式代表预训练目标推理典型应用
Encoder-onlyBERT、RoBERTaMLM、NSP双向一次前向分类、检索、NLI
Decoder-onlyGPT、Llama、QwenCLM(下一 token)自回归逐 token对话、代码、推理
Encoder-DecoderT5、BART、原始 TransformerSpan corruption 等Encoder 编码 + Decoder 生成翻译、摘要(专用时代)

Decoder-only 为何成为 LLM 主流

  1. 统一生成接口:所有任务可表述为文本续写
  2. Scaling 路径清晰:CLM + 算力 + 数据
  3. 推理栈成熟:KV Cache、投机解码、vLLM 等均围绕自回归优化

Encoder-Decoder 的当代地位

  • T5/UL2 等仍用于特定研究
  • 部分多模态模型用「视觉 Encoder + 语言 Decoder」
  • 纯文本通用 LLM 新品较少采用完整 Encoder-Decoder

Encoder-only 的当代地位

  • Embedding 模型(检索、RAG):双塔或 late interaction,常基于 BERT 类或 LLM 派生 embedding
  • 不与万亿参数生成模型争「通用对话」主战场

参考链接