跳到主要内容

开放问题与研究方向

要解决的问题

尽管工业界产品日新月异，基础研究问题 大量未闭。列出供 选题、论文、创业技术壁垒 参考的方向（2025–2026）。

数据与预训练

问题	简述
数据墙	高质量文本是否即将耗尽？合成数据比例上限？
Scaling 是否放缓	Chinchilla 之后最优分配是否随 MoE/推理变化？
多语言低资源	119 语言宣称 vs 实际质量均衡
版权与合规	训练数据授权对开源的影响

架构

稀疏 vs 稠密 长期谁主导？DSA、Mamba、混合的最终份额？
统一多模态 是否一个 Transformer 吃掉全部模态？
可解释电路 能否定位 真实算法 而非探针故事？

对齐与安全

可扩展 oversight：超强模型谁来判断对齐？
可证明安全 是否可能，还是永远 概率缓解？
多目标对齐：有用 vs 无害 vs 诚实的 Pareto 前沿

推理与 Agent

测试时 compute 最优分配：何时思考、何时停？
PRM vs ORM 何者更可扩展？（见 6.2.3）
Agent 评测 如何防 环境泄漏 与 过拟合工具？

评测科学

动态基准（定期换新题）vs 静态榜。
污染检测 自动化可信度。
经济任务 基准（真实工单、客服）。

系统与可持续

$/有用 token 能否十年降 100× 仍满足能源政策？
边缘 vs 云端 分裂下的 联邦微调。

哲学与社会（非技术但影响研发）

AGI 时间线与就业结构变化。
开源权重 与 国际安全 平衡。

如何跟进

arXiv cs.CL、cs.LG + 顶会 ACL/NeurIPS/ICML。
本仓库 weekly-paper 与 paper-reading。
复现 一个小问题 胜过泛读百篇摘要。

检查清单（自学 / 落地）

步骤	动作
1	阅读官方 primary source（报告、博客、模型卡）
2	固定 prompt 与解码参数，在自有验证集上建基线
3	记录延迟、成本、上下文长度与是否启用思考模式
4	与相邻章节对照，画出与上下游模块的数据流
5	在 paper-reading 或本大纲相关节做深度笔记

常见误区

误区	澄清
公开基准 = 产品表现	必须用业务端到端任务回归
长窗口 = 长理解	需 Needle + 真实文档任务验证
单次实验可定论	固定随机种子、数据版本与评测脚本

延伸练习

复现表中 一行关键结论（ablation 或小型对照实验）。
用附录 D 工具或 lm-eval 跑通评测脚本。
将未知参数整理进 9.5.3 开放问题个人笔记。

相关章节

全景：9.5.1
建议：9.5.2
涌现争议：3.4.5
附录论文清单：附录 E