跳到主要内容

语言学基础与文本表示

要解决的问题

自然语言具有 层次结构（字词→短语→句子→篇章）与歧义；模型需要一种将文本变为可计算对象的方式。理解语言学层次有助于设计 分词、位置编码、评估指标。

语言学的几个层次

层次	内容	NLP 对应
形态/词汇	词、词根、词缀	分词、子词（BPE）
句法	短语结构、依存关系	句法分析、代码 AST
语义	词义、指代、逻辑关系	NLI、QA、推理
语用	语境、意图、言外之意	对话、Agent 规划

LLM 不显式建语法树，但通过大规模统计 隐式编码 多层次的规律。

文本表示演进

One-hot / Bag-of-Words：高维稀疏，丢失顺序。
词向量（Word2Vec、GloVe）：稠密语义相似度。
上下文表示（ELMo）：双向 RNN 动态 embedding。
子词 + Transformer：BPE/SentencePiece + 自注意力，当前 LLM 标准。

详见 3.2 分词技术。

中文等特殊文字

无空格分词：依赖 BPE/字符级或专门中文词表。
多音字、简繁：语料混合与规范化见 1.4.3 文本预处理。

与 LLM 的关系

预训练目标为 下一 token 预测，等价于在子词序列上学习联合分布；「理解」体现为下游 prompt 下的条件生成能力，而非符号逻辑显式推理（除非后训练强化）。

参考链接