数据版权与合规
要解决的问题
预训练数据常来自受版权保护的网页、书籍、代码仓库与数据库。法律与平台 ToS 限制抓取、再分发与商用;训练本身是否构成合理使用各地法律不同。团队需要可审计的数据来源清单、许可标签、PII/个人信息处理流程,以及对外发布模型与数据集时的合规叙事。
核心概念
| 维度 | 要点 |
|---|---|
| 版权 | 文字、翻译、编译物的复制权;书籍/新闻风险高于用户生成内容 |
| 开源许可 | 代码:MIT、Apache、GPL 对组合与再训练影响不同 |
| 服务条款 | 网站 robots.txt、API 使用限制 |
| 隐私 | GDPR、个人信息保护法;PII 过滤与删除权 |
| 出口与内容 | 某些地区对模型训练数据内容有额外要求 |
常见标注字段:license、source_url、opt_out(权利人退出名单)。「仅用于研究」 数据集不可直接用于商用产品。
方法/算法
合规 pipeline 建议:
- 来源白名单:优先使用明确 CC 许可、公有领域、企业自有数据。
- opt-out 列表:维护域名/作者/ISBN 黑名单,训练前过滤。
- PII 检测:正则 + NER 脱敏或丢弃;日志中禁止明文存身份证、电话。
- 代码许可聚合:按 repo
LICENSE文件统计;GPL 污染是否影响发行需法务判断。 - 文档化:发布 Data Card / Model Card,说明采集时间、处理步骤、已知限制。
工程实践
- 可追溯:每条样本保留
source_id,支持事后按权利人要求删除子集(machine unlearning 仍属研究前沿,工程上常重训子集)。 - 内部与开源: 对内全量 crawl,对外仅发布清洗后子集(如 Dolma、FineWeb)可降低风险。
- 第三方数据:采购合同明确训练权与再许可。
- 与 数据来源 联动:Common Crawl 不等于「可商用任意使用」。
代表工作
- BIG-bench / 社区关于数据治理讨论(背景阅读)
- Dolma 开放数据与许可说明:https://arxiv.org/abs/2402.00159
- EU AI Act 与 GDPR 官方文本(政策,非论文)
- Copilot 相关诉讼与开源许可案例(行业新闻,需法务解读)
局限与注意点
- 法律地域差异:美国 fair use 与欧盟/database right 不一致,不能照搬单一结论。
- 许可推断错误:网页未标明许可时不能默认为可商用。
- 模型权重≠数据:发布 checkpoint 一般不附带训练集,但仍可能面临「记忆化复制」争议。
- 本笔记非法律意见:具体项目须咨询专业律师。
延伸说明
发布前确认:训练数据是否可再分发、模型是否涉及 GPL 传染、是否含未授权书籍。
实践检查清单
- Data Card
- opt-out
- PII
小结
本节核心:Data Card 与全链路 opt-out 协同;上线前用检查清单做回归。
合规交付物
| 文档 | 内容 |
|---|---|
| Data Card | 来源、时间、处理步骤、已知偏见 |
| Model Card | 训练数据摘要、限制、滥用风险 |
| DPA | 第三方数据合同中的处理目的与删除条款 |
开源发布建议
对外发布权重时,不必公开全量训练集,但应说明是否使用 opt-out 列表与 PII 过滤版本。
相关章节
- 上一节:3.1.4 数据混合
- 采集:3.1.1 数据来源
- 过滤:3.1.3 质量过滤
- 后训练对齐:第四部分 SFT