跳到主要内容

开放问题与研究方向

要解决的问题

尽管工业界产品日新月异,基础研究问题 大量未闭。列出供 选题、论文、创业技术壁垒 参考的方向(2025–2026)。

数据与预训练

问题简述
数据墙高质量文本是否即将耗尽?合成数据比例上限?
Scaling 是否放缓Chinchilla 之后最优分配是否随 MoE/推理变化?
多语言低资源119 语言宣称 vs 实际质量均衡
版权与合规训练数据授权对开源的影响

架构

  • 稀疏 vs 稠密 长期谁主导?DSA、Mamba、混合的最终份额?
  • 统一多模态 是否一个 Transformer 吃掉全部模态?
  • 可解释电路 能否定位 真实算法 而非探针故事?

对齐与安全

  • 可扩展 oversight:超强模型谁来判断对齐?
  • 可证明安全 是否可能,还是永远 概率缓解
  • 多目标对齐:有用 vs 无害 vs 诚实的 Pareto 前沿

推理与 Agent

  • 测试时 compute 最优分配:何时思考、何时停?
  • PRM vs ORM 何者更可扩展?(见 6.2.3
  • Agent 评测 如何防 环境泄漏过拟合工具

评测科学

  • 动态基准(定期换新题)vs 静态榜。
  • 污染检测 自动化可信度。
  • 经济任务 基准(真实工单、客服)。

系统与可持续

  • $/有用 token 能否十年降 100× 仍满足能源政策?
  • 边缘 vs 云端 分裂下的 联邦微调

哲学与社会(非技术但影响研发)

  • AGI 时间线与 就业 结构变化。
  • 开源权重国际安全 平衡。

如何跟进

  1. arXiv cs.CLcs.LG + 顶会 ACL/NeurIPS/ICML。
  2. 本仓库 weekly-paperpaper-reading
  3. 复现 一个小问题 胜过泛读百篇摘要。

检查清单(自学 / 落地)

步骤动作
1阅读官方 primary source(报告、博客、模型卡)
2固定 prompt 与解码参数,在自有验证集上建基线
3记录延迟、成本、上下文长度与是否启用思考模式
4与相邻章节对照,画出与上下游模块的数据流
5paper-reading 或本大纲相关节做深度笔记

常见误区

误区澄清
公开基准 = 产品表现必须用业务端到端任务回归
长窗口 = 长理解需 Needle + 真实文档任务验证
单次实验可定论固定随机种子、数据版本与评测脚本

延伸练习

相关章节