跳到主要内容

Llama 4(原生多模态 + iRoPE + 超长上下文)

Meta 技术材料与社区报告 | 领读:Llama 4 paper-reading

要解决的问题

Meta 需在 开源权重 路线中同时推进:原生多模态(非事后拼接)、超长上下文(10M 级宣传窗口)与 MoE 效率,并与 Llama 3.x 生态平滑迁移。

核心概念

术语含义
iRoPE改进 RoPE 外推,支持更长有效上下文
原生多模态视觉-语言联合预训练,而非仅 LLM + 冻结 ViT 拼接
MoE 变体Scout / Maverick 等不同专家规模面向边缘与云端
10M context产品级窗口目标;实际任务仍受 Needle、衰减 限制

架构要点(公开信息汇总)

  • Transformer + MoE 混合系列;部分型号强调 轻量激活 适合设备端。
  • 多模态塔:图像 patch 编码与文本 token 统一序列建模。
  • 上下文:官方材料强调 超长;工程上需分层缓存与稀疏/压缩(社区实现进展不一)。

与 Llama 3.1 对比

Llama 3.1Llama 4
多模态Mostly 文本原生 MM
上下文128K 级10M 目标
许可Llama 社区许可延续社区许可框架
生态极成熟迁移中

工程实践

  • 推理:llama.cpp、vLLM、Transformers;多模态需 图像预处理 管线对齐。
  • 微调:Llama-Factory 等;注意 许可 对商用与蒸馏的限制。
  • 评测:除文本榜外,加 MMMU、DocVQA 等多模态基准。

局限与注意点

  • 10M token 多为理论窗口;全量 attention 成本极高,生产常用 RAG + 截断
  • 超长外推 位置编码 与训练长度不一致时,尾部质量下降(见 9.1.2 扩展方法)。
  • 与闭源 Gemini/GPT-4o 对比时注明 是否含图像输入
学习路径

本页为 第八部分大纲摘要。型号表、许可与基准领读见 Llama 4 技术报告领读

部署与评测检查清单

说明
权重版本核对 Hugging Face revision 与 config.json
Chat template与官方 tokenizer 模板一致,避免 silently truncate
思考模式明确 API 字段(reasoning / think budget)
成本测 prefill+decode $/1M tokens @ 典型并发
合规许可、地域、日志留存策略

与领读配合

  • 本页 不重复 paper-reading 全文;领读负责实验细节与引用索引。
  • 更新模型版本时:先改 paper-reading,再回本页改摘要表。

外部参考(精选)

类型入口
原始报告见正文 arXiv / 官方博客链接
权重与配置Hugging Face config.json 与 model card
深度领读见上文 :::tiptech-report 索引
工具链附录 D 工具生态
术语附录 B 术语表

相关章节