跳到主要内容

语言学基础与文本表示

要解决的问题

自然语言具有 层次结构(字词→短语→句子→篇章)与 歧义;模型需要一种将文本变为可计算对象的方式。理解语言学层次有助于设计 分词、位置编码、评估指标

语言学的几个层次

层次内容NLP 对应
形态/词汇词、词根、词缀分词、子词(BPE)
句法短语结构、依存关系句法分析、代码 AST
语义词义、指代、逻辑关系NLI、QA、推理
语用语境、意图、言外之意对话、Agent 规划

LLM 不显式建语法树,但通过大规模统计 隐式编码 多层次的规律。

文本表示演进

  1. One-hot / Bag-of-Words:高维稀疏,丢失顺序。
  2. 词向量(Word2Vec、GloVe):稠密语义相似度。
  3. 上下文表示(ELMo):双向 RNN 动态 embedding。
  4. 子词 + Transformer:BPE/SentencePiece + 自注意力,当前 LLM 标准。

详见 3.2 分词技术

中文等特殊文字

  • 无空格分词:依赖 BPE/字符级或专门中文词表。
  • 多音字、简繁:语料混合与规范化见 1.4.3 文本预处理

与 LLM 的关系

预训练目标为 下一 token 预测,等价于在子词序列上学习联合分布;「理解」体现为下游 prompt 下的条件生成能力,而非符号逻辑显式推理(除非后训练强化)。

参考链接