介绍
MDP(Markov Decision Process)由5元组构成\(MDP(S,A,{P_{sa}},\gamma,R)\),具体的 参数介绍如下:
- \(S\):状态集合
- \(A\):动作集合
- \(P_{sa}\):状态转移概率分布,\(P_{sa}(s')\)表示在\(s\)状态下采取 \(s\)动作,转移到\(s'\)的概率,\(P_{sa}(s')\geq0\)
- \(\gamma\):折扣系数取值范围\(0\leq\gamma\le1\)
- \(R\):回报函数,\(R:S\mapsto \mathbb{R ...