跳到主要内容

局部-全局稀疏注意力(Local + Global)

滑动窗口基础见 滑动窗口注意力。可学习多分支见 NSA

要解决的问题

滑动窗口 难以让任意两个远距离 token 直接 交互。Longformer、BigBird 等在 局部窗口 之外,为少量位置保留 全局 attention 边,在 O(Lw+Lg)O(L\cdot w + L\cdot g) 复杂度下兼顾局部与远程,gg 为全局 token 数(常 L\ll L)。

Longformer

结构

  • 滑动窗口:每个 token attend 邻近 ww 个 token(局部);
  • 全局 token
    • 任务驱动全局:如 QA 中整段 问题 token 对所有文档 token 可见;
    • 空全局 token(如 <s>):作为汇聚信息的枢纽。

复杂度

每层约 O(Lw+Lg)O(L \cdot w + L \cdot g);当 gLg \ll Lww 固定时,相对 O(L2)O(L^2) 显著节省。

适用场景

长文档 QA、摘要等 明确「全局锚点」 的任务;预训练通用 LM 时需设计全局 token 策略,否则 inductive bias 与下游不匹配。

BigBird

稀疏图组成

BigBird 将 attention 图定义为三种边的并集:

边类型含义作用
Window局部滑窗局部性、硬件友好
Random随机块连接扩大感受野、理论连通性
Global少数 token 连接全体远程信息高速公路

理论性质

BigBird 证明在适当参数下,该类稀疏图 可近似全连接 attention 的表达力(图灵完备性相关讨论见原论文),并给出 O(L)O(L) 复杂度变体。

与 Longformer 对比

LongformerBigBird
全局边任务相关全局 token内置 global + random
随机边通常无
主要应用长文档理解编码器、部分预训练

稀疏模式可视化(概念)

对序列位置 ii,允许 attend 的 jj 集合示意:

全连接:     ████████████████  (所有 j)
滑窗 only: ....████.... (|i-j|<=w)
Local+Global: ..██Global██.. + 窗口块

与 NSA、DSA 的历史脉络

时代思路代表
固定图稀疏人工设计窗口+全局+随机Longformer, BigBird
可学习块稀疏三分支压缩+选择+滑窗、可训练NSA
工业 content-awareIndexer top-kk + MLADSA

NSA 可看作在 硬件对齐块 上统一了「全局压缩 + 局部选择 + 滑窗」;DSA 则用 连续训练 的 indexer 实现 内容相关 稀疏,而非固定 gg 个全局 token。

工程落地

  • BERT 时代 编码器长文本常用 Longformer/BigBird 变体;
  • Decoder LLM 时代更常见纯 SWA(Mistral)或 DSA/NSA;Local+Global 思想仍体现在 全局 sink tokenNSA 压缩分支 等设计中。
  • 实现需 稀疏 attention mask 或 block-sparse kernel;稀疏度不足时收益有限。

局限

  1. 全局 token 数量 gg 需调参;过小损远程能力,过大趋近稠密。
  2. Random 边 增加实现与复现复杂度,推理引擎支持不均。
  3. KV 压缩(MLA) 正交:可先 Local+Global 减 FLOPs,再用 MLA 减 cache。

参考链接