跳到主要内容

数据版权与合规

要解决的问题

预训练数据常来自受版权保护的网页、书籍、代码仓库与数据库。法律与平台 ToS 限制抓取、再分发与商用;训练本身是否构成合理使用各地法律不同。团队需要可审计的数据来源清单、许可标签、PII/个人信息处理流程,以及对外发布模型与数据集时的合规叙事。

核心概念

维度要点
版权文字、翻译、编译物的复制权;书籍/新闻风险高于用户生成内容
开源许可代码:MIT、Apache、GPL 对组合与再训练影响不同
服务条款网站 robots.txt、API 使用限制
隐私GDPR、个人信息保护法;PII 过滤与删除权
出口与内容某些地区对模型训练数据内容有额外要求

常见标注字段:licensesource_urlopt_out(权利人退出名单)。「仅用于研究」 数据集不可直接用于商用产品。

方法/算法

合规 pipeline 建议:

  1. 来源白名单:优先使用明确 CC 许可、公有领域、企业自有数据。
  2. opt-out 列表:维护域名/作者/ISBN 黑名单,训练前过滤。
  3. PII 检测:正则 + NER 脱敏或丢弃;日志中禁止明文存身份证、电话。
  4. 代码许可聚合:按 repo LICENSE 文件统计;GPL 污染是否影响发行需法务判断。
  5. 文档化:发布 Data Card / Model Card,说明采集时间、处理步骤、已知限制。

工程实践

  • 可追溯:每条样本保留 source_id,支持事后按权利人要求删除子集(machine unlearning 仍属研究前沿,工程上常重训子集)。
  • 内部与开源:对内全量 crawl,对外仅发布清洗后子集(如 Dolma、FineWeb)可降低风险。
  • 第三方数据:采购合同明确训练权与再许可。
  • 数据来源 联动:Common Crawl 不等于「可商用任意使用」。

代表工作

  • BIG-bench / 社区关于数据治理讨论(背景阅读)
  • Dolma 开放数据与许可说明:https://arxiv.org/abs/2402.00159
  • EU AI Act 与 GDPR 官方文本(政策,非论文)
  • Copilot 相关诉讼与开源许可案例(行业新闻,需法务解读)

局限与注意点

  • 法律地域差异:美国 fair use 与欧盟/database right 不一致,不能照搬单一结论。
  • 许可推断错误:网页未标明许可时不能默认为可商用。
  • 模型权重≠数据:发布 checkpoint 一般不附带训练集,但仍可能面临「记忆化复制」争议。
  • 本笔记非法律意见:具体项目须咨询专业律师。

延伸说明

发布前确认:训练数据是否可再分发、模型是否涉及 GPL 传染、是否含未授权书籍。

实践检查清单

  • Data Card
  • opt-out
  • PII

小结

本节核心:Data Card 与全链路 opt-out 协同;上线前用检查清单做回归。

合规交付物

文档内容
Data Card来源、时间、处理步骤、已知偏见
Model Card训练数据摘要、限制、滥用风险
DPA第三方数据合同中的处理目的与删除条款

开源发布建议

对外发布权重时,不必公开全量训练集,但应说明是否使用 opt-out 列表与 PII 过滤版本。

相关章节