跳到主要内容

多头注意力(Multi-Head Attention)

Attention

伪代码如上所示

Grouped Query Attentionppo

Grouped Query Attentionppo

将 query 在 KV cache 当中保存了 G 份,这样现存就少很多了

query 是全量的 heads,可是 k-v 的 heads 就比较少了

query 是全量的 heads,可是 k-v 的 heads 就比较少了

计算逻辑

计算逻辑

优点

减少了计算量

减少了 kv-cache 的容量,进而提升整个模型的吞吐

Multi-Lantent-Attention

伪代码如上所示

Multi-Lantent-Attention

hidden_state = up(down(hidden_size))

稀疏与高效注意力(专章)

Ring Attention、NSA、滑动窗口、DeepSeek DSA、线性注意力等 长序列与稀疏注意力 内容已迁至专章,避免与原理篇重复维护: