马尔可夫决策过程是一个四元组(S, A, P, R),其中: S是状态集合,表示智能体(Agent)可能处于的所有状态;A是动作集合,表示智能体可以采取的所有动作;P是状态转移概率,描述了在当前状态下采取某个动作后转移到下一个状态的概率;R是奖励函数,描述了智能体在某个状态下采取某个动作后获得的奖励。 马尔可夫决策过程的一个重要特点是“无记忆性”,即未来只与现在有关,与过去无关。这种特性大大简化了决策问题的复杂度,使得我们可以通过动态规划(Dynamic Programming,简称DP)等方法来求解最优策略。 资料 强化学习