强化学习
强化学习(RL)是通过告诉软件代理它做得有多好来教它在一个环境中如何表现。它是机器学习的一个领域,受到行为主义心理学的启发。
强化学习与监督学习不同,因为正确的输入和输出从未被显示出来。另外,强化学习通常是边走边学(在线学习),不像监督学习。这意味着代理人必须在探索和坚持自己最熟悉的东西之间做出选择。
简介
强化学习系统由一个策略(π {displaystyle \pi } )、一个奖励函数(R {displaystyle R} )、一个价值函数(v {displaystyle v} )和一个可选的环境模型组成。
一个政策告诉代理人在某种情况下该怎么做。它可以是一个简单的规则表,也可以是对正确行动的复杂搜索。政策甚至可以是随机的,这意味着政策不是规则,而是为每个行动分配概率。政策本身可以使代理人做事情,但它不能自己学习。
奖励函数定义了一个代理的目标。它接收一个状态(或一个状态和在该状态下采取的行动),并返回一个叫做奖励的数字,它告诉代理人处于该状态有多好。代理人的工作是在长期内获得可能的最大数量的奖励。如果一个行动产生的奖励很低,代理人可能会在未来采取一个更好的行动。生物学使用奖励信号,如快乐或痛苦,以确保生物体保持活力以进行繁殖。奖励信号也可以是随机的,就像赌场的老虎机一样,有时会支付,有时不会。
价值函数告诉代理人在遵循政策π {displaystyle \pi } ,从状态s {displaystyle s} ,它将获得多少奖励。它代表了处于某种状态的理想程度。由于价值函数不是直接给代理的,它需要根据它到目前为止得到的奖励,想出一个好的猜测或估计。价值函数的估计是大多数强化学习算法中最重要的部分。
一个模型是代理人对环境的心理拷贝。它被用来计划未来的行动。
知道了这一点,我们就可以谈一谈强化学习情节的主循环。代理人以离散的时间步骤与环境互动。把它想象成时钟的 "嘀嗒 "声。在离散时间里,事情只在 "滴答 "和 "滴答 "期间发生,而不是在两者之间。在每个时间t=0 , 1 , 2 , 3 , . . .{displaystyle t=0,1,2,3,...}代理人观察环境的状态S t {displaystyle S_{t}} ,并根据策略π {displaystyle A_{t}} ,选择一个行动A t {displaystyle \pi }。.在下一个时间步骤中,代理收到一个奖励信号R t + 1 {displaystyle R_{t+1}} 和一个新的观察S t + 1 {displaystyle S_{t+1}}。.值函数v ( S t ) {displaystyle v(S_{t})} 使用奖励进行更新。这样一直持续到达到终端状态S T {displaystyle S_{T}} 。