缩放点积注意力（Scaled Dot-Product Attention）

要解决的问题

序列中每个位置需要 聚合其他位置的信息。缩放点积注意力用 Query-Key 相似度做 加权求和，并行计算整个序列，成为 Transformer 核心。

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right) V

对语言模型，位置 $i$ 只能 attend $j \le i$ 。掩码矩阵 $M_{ij}=0$ 若 $j\le i$ ，否则 $-\infty$ ，再加到 $QK^\top$ 上。

实际实现常用 online softmax（分块累加 max 与 exp 和），Flash Attention 即在分块上完成等价计算。

时间 $\approx O(L^2 d_k)$ ，空间（朴素）存 $L\times L$ 注意力矩阵。 $L$ 增大是长上下文瓶颈根源。