数据版权与合规

要解决的问题

预训练数据常来自受版权保护的网页、书籍、代码仓库与数据库。法律与平台 ToS 限制抓取、再分发与商用；训练本身是否构成合理使用各地法律不同。团队需要可审计的数据来源清单、许可标签、PII/个人信息处理流程，以及对外发布模型与数据集时的合规叙事。

核心概念

维度	要点
版权	文字、翻译、编译物的复制权；书籍/新闻风险高于用户生成内容
开源许可	代码：MIT、Apache、GPL 对组合与再训练影响不同
服务条款	网站 robots.txt、API 使用限制
隐私	GDPR、个人信息保护法；PII 过滤与删除权
出口与内容	某些地区对模型训练数据内容有额外要求

常见标注字段：license、source_url、opt_out（权利人退出名单）。「仅用于研究」 数据集不可直接用于商用产品。

方法/算法

合规 pipeline 建议：

来源白名单：优先使用明确 CC 许可、公有领域、企业自有数据。
opt-out 列表：维护域名/作者/ISBN 黑名单，训练前过滤。
PII 检测：正则 + NER 脱敏或丢弃；日志中禁止明文存身份证、电话。
代码许可聚合：按 repo LICENSE 文件统计；GPL 污染是否影响发行需法务判断。
文档化：发布 Data Card / Model Card，说明采集时间、处理步骤、已知限制。

工程实践

可追溯：每条样本保留 source_id，支持事后按权利人要求删除子集（machine unlearning 仍属研究前沿，工程上常重训子集）。
内部与开源：对内全量 crawl，对外仅发布清洗后子集（如 Dolma、FineWeb）可降低风险。
第三方数据：采购合同明确训练权与再许可。
与数据来源联动：Common Crawl 不等于「可商用任意使用」。

代表工作

BIG-bench / 社区关于数据治理讨论（背景阅读）
Dolma 开放数据与许可说明：https://arxiv.org/abs/2402.00159
EU AI Act 与 GDPR 官方文本（政策，非论文）
Copilot 相关诉讼与开源许可案例（行业新闻，需法务解读）

局限与注意点

法律地域差异：美国 fair use 与欧盟/database right 不一致，不能照搬单一结论。
许可推断错误：网页未标明许可时不能默认为可商用。
模型权重≠数据：发布 checkpoint 一般不附带训练集，但仍可能面临「记忆化复制」争议。
本笔记非法律意见：具体项目须咨询专业律师。

延伸说明

发布前确认：训练数据是否可再分发、模型是否涉及 GPL 传染、是否含未授权书籍。

实践检查清单

Data Card
opt-out
PII

小结

本节核心：Data Card 与全链路 opt-out 协同；上线前用检查清单做回归。

合规交付物

文档	内容
Data Card	来源、时间、处理步骤、已知偏见
Model Card	训练数据摘要、限制、滥用风险
DPA	第三方数据合同中的处理目的与删除条款

开源发布建议

对外发布权重时，不必公开全量训练集，但应说明是否使用 opt-out 列表与 PII 过滤版本。

数据版权与合规

要解决的问题​

核心概念​

方法/算法​

工程实践​

代表工作​

局限与注意点​

延伸说明​

实践检查清单​

小结​

合规交付物​

开源发布建议​

相关章节​