VIP专享文档
免费专享文档
强化学习(reinforcement learning)
强化学习是人工智能中策略学习的一种,是一种重要的机器学习方法,又称再励学习、评价学习,是从动物学习、参数扰动自适应控制等理论发展而来.所谓强化学习是指从环境状态到动作映射的学习,以使动作从环境中获得的累积奖赏值最大。该方法不同于监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错(trial and error)来发现最优行为策略。常用的强化学习算法包括TD(Temporal Difference)算法、Q学习算法、Sarsa算法等。