OLMo 2(AI2 全开放模型)
项目:Allen AI OLMo | 领读:OLMo 2
要解决的问题
「开源」常仅开放权重;AI2 推动 全栈开放——数据、代码、训练日志、checkpoint 与 可复现 recipe,支撑学术界研究 数据归因、遗忘、评测污染 等。
核心概念
| 开放层级 | OLMo 2 提供物 |
|---|---|
| 权重 | 多尺寸 checkpoint |
| 数据 | Dolma 等 可追溯 预训练混合 |
| 代码 | 训练 脚本、配置 YAML |
| 日志 | 中间 loss、scaling 实验记录 |
架构要点
- 稠密 Transformer,标准 RoPE + GQA(以 2 代配置为准)。
- 规模:7B / 13B / 32B 等(随发布更新)。
- 强调 训练稳定性 与 数据消融 可复现,而非单一榜单 SOTA。
与 Llama / Qwen 定位差异
| OLMo 2 | 商业开源旗舰 | |
|---|---|---|
| 目标 | 科研可复现 | 产品 SOTA |
| 数据 | 公开混合配方 | 部分保密 |
| 许可 | Apache 2.0(以版本为准) | 各异 |
工程实践
- 复现预训练:需 多机 GPU 与 AI2 容器;适合实验室而非初创产品首版。
- 微调:在 OLMo 上继续 SFT/DPO 研究 数据效率。
- 评测:用 OLMES 等开放评测套件减少泄漏。