第三部分 预训练3.1 预训练数据数据清洗与去重本页总览数据清洗与去重 要解决的问题 原始 crawl 含 HTML 噪声、 boilerplate、乱码、近重复与完全重复段落。不去重则模型浪费算力记忆重复 n-gram,并放大记忆化与泄露风险;不清洗则 tokenizer 与 loss 被垃圾字符主导。目标是在可接受成本下,将语料变为干净、近似独立同分布的训练流。 核心概念 类型手段复杂度格式清洗去 HTML、unicode 规范化、控制字符低启发式过滤