介绍
什么是 Natural Language Reinforcement Learning 呢?
顾名思义,其实就是自然语言和强化学习的结合,在 NLRL 方法中的核心组件都被定义为自然语言,比如:Strategy、Goal、Evaluation 等方法,在高水平的指令理解能力下,只需要编写简单的 Prompt 即可实现复杂的决策、动作空间挖掘等复杂的强化学习功能。
强化学习通常会将问题构建成数学模型来教机器来学习,其中可使用马尔可夫决策过程(Markov Decision Process)来模拟并学习事物背后的原理,这种方法在游戏和机器人领域取得了非常惊人的进展。