第三部分 预训练3.1 预训练数据数据来源(Common Crawl、C4、The Pile、Dolma、FineWeb)本页总览数据来源(Common Crawl、C4、The Pile、Dolma、FineWeb) 要解决的问题 预训练需要数十亿到数万亿 token 的文本,但「从互联网抓什么、以什么形态交付给训练」直接决定模型的语言能力、事实覆盖、代码/数学能力与安全边界。工程上要在规模、多样性、许可合规、清洗成本之间权衡,并建立可复现的数据版本(snapshot + 处理 pipeline)。 核心概念 语料 / 项目规模与特点典型用途Common Crawl