强化学习

强化学习背后的生物学原理可以在操作性条件反射和奖赏中找到。

强化学习（RL）是通过告诉软件代理它做得有多好来教它在一个环境中如何表现。它是机器学习的一个领域，受到行为主义心理学的启发。

强化学习与监督学习不同，因为正确的输入和输出从未被显示出来。另外，强化学习通常是边走边学（在线学习），不像监督学习。这意味着代理人必须在探索和坚持自己最熟悉的东西之间做出选择。

简介

强化学习系统由一个策略（π {displaystyle \pi } $\pi$ ）、一个奖励函数（R {displaystyle R} $R$ ）、一个价值函数（v {displaystyle v} $v$ ）和一个可选的环境模型组成。

一个政策告诉代理人在某种情况下该怎么做。它可以是一个简单的规则表，也可以是对正确行动的复杂搜索。政策甚至可以是随机的，这意味着政策不是规则，而是为每个行动分配概率。政策本身可以使代理人做事情，但它不能自己学习。

奖励函数定义了一个代理的目标。它接收一个状态（或一个状态和在该状态下采取的行动），并返回一个叫做奖励的数字，它告诉代理人处于该状态有多好。代理人的工作是在长期内获得可能的最大数量的奖励。如果一个行动产生的奖励很低，代理人可能会在未来采取一个更好的行动。生物学使用奖励信号，如快乐或痛苦，以确保生物体保持活力以进行繁殖。奖励信号也可以是随机的，就像赌场的老虎机一样，有时会支付，有时不会。

价值函数告诉代理人在遵循政策π {displaystyle \pi } $\pi$ ，从状态s {displaystyle s} $s$ ，它将获得多少奖励。它代表了处于某种状态的理想程度。由于价值函数不是直接给代理的，它需要根据它到目前为止得到的奖励，想出一个好的猜测或估计。价值函数的估计是大多数强化学习算法中最重要的部分。

一个模型是代理人对环境的心理拷贝。它被用来计划未来的行动。

知道了这一点，我们就可以谈一谈强化学习情节的主循环。代理人以离散的时间步骤与环境互动。把它想象成时钟的 "嘀嗒 "声。在离散时间里，事情只在 "滴答 "和 "滴答 "期间发生，而不是在两者之间。在每个时间t=0 , 1 , 2 , 3 , . . .{displaystyle t=0,1,2,3,...} $t=0,1,2,3,...$ 代理人观察环境的状态S t {displaystyle S_{t}} $S_{t}$ ，并根据策略π {displaystyle A_{t}} $A_{t}$ ，选择一个行动A t {displaystyle \pi }。 $\pi$ .在下一个时间步骤中，代理收到一个奖励信号R t + 1 {displaystyle R_{t+1}} $R_{t+1}$ 和一个新的观察S t + 1 {displaystyle S_{t+1}}。 $S_{t+1}$ .值函数v ( S t ) {displaystyle v(S_{t})} $v(S_{t})$ 使用奖励进行更新。这样一直持续到达到终端状态S T {displaystyle S_{T}} 。 $S_{T}$

强化学习

简介

按字母搜索