跳到主要内容

附录 B 常用术语中英对照表

按主题分组;英文缩写首次给出全称。细节见正文对应章节。

模型与架构

英文中文备注
LLM大语言模型1.1.1
Foundation Model基础模型预训练基座
TransformerTransformer主流骨干
MoE混合专家Mixture-of-Experts
MLA多头潜在注意力DeepSeek 系 KV 压缩
GQA分组查询注意力Grouped-Query Attention
MHA多头注意力Multi-Head Attention
FFN / MLP前馈网络常 SwiGLU
RoPE旋转位置编码Rotary Position Embedding
SSM状态空间模型Mamba 等
VLA视觉-语言-动作具身模型

预训练与数据

英文中文备注
Pre-training预训练自监督
Causal LM因果语言建模GPT 类
MLM掩码语言建模BERT 类
BPE字节对编码分词
Tokenizer分词器
Corpus语料库
Dedup去重
Data mixture数据混合配方
ChinchillaChinchilla 法则算力最优分配
Scaling law缩放定律
Emergent ability涌现能力有争议

后训练与对齐

英文中文备注
SFT监督微调Supervised Fine-Tuning
RLHF人类反馈强化学习
RM奖励模型Reward Model
PPO近端策略优化
DPO直接偏好优化
IPO / KTO / ORPO偏好优化变体见 4.4
Constitutional AI宪法 AI
RLAIFAI 反馈强化学习
LoRA低秩适配
QLoRA量化 LoRA
PEFT参数高效微调
Catastrophic forgetting灾难性遗忘

推理与部署

英文中文备注
KV cacheKV 缓存
TTFT首 token 时间Time To First Token
Throughput吞吐tokens/s
Quantization量化INT8/FP8/4bit
Speculative decoding投机解码
Continuous batching连续批处理
PagedAttention分页注意力vLLM
FlashAttentionFlashAttentionIO 友好 attention

推理与 Agent

英文中文备注
CoT思维链Chain-of-Thought
Test-time compute测试时算力
PRM过程奖励模型Process RM
ORM结果奖励模型Outcome RM
GRPO组相对策略优化DeepSeek-R1
RLVR可验证奖励 RL
MCTS蒙特卡洛树搜索
Agent智能体工具+规划
RAG检索增强生成
Function Call函数调用
Tool use工具使用

评估

英文中文备注
Benchmark基准
MMLU大规模多任务语言理解
HumanEval代码生成评测
LLM-as-judge模型作裁判
Contamination基准污染
Needle in haystack大海捞针长上下文

系统与分布式

英文中文备注
Data parallel数据并行
Tensor parallel张量并行
Pipeline parallel流水线并行
ZeROZeRO 优化器分片DeepSpeed
FSDP全分片数据并行PyTorch
EP专家并行MoE
MFU模型 FLOPs 利用率

安全与前沿

英文中文备注
Alignment对齐
Jailbreak越狱
Prompt injection提示注入
Hallucination幻觉
World model世界模型
AGI通用人工智能定义不一
RSI递归自举改进Recursive SI

相关章节