强化学习背后的生物学原理可以在操作性条件反射奖赏中找到。

强化学习(RL)是通过告诉软件代理它做得有多好来教它在一个环境中如何表现。它是机器学的一个领域,受到为主义心理学的启发。

强化学习与监督学习不同,因为正确的输入和输出从未被显示出来。另外,强化学习通常是边走边学(在线学习),不像监督学习。这意味着代理人必须在探索和坚持自己最熟悉的东西之间做出选择。