MDP
- S : state 의 집합
- P : state transition function
- state를 받아서 다른 state로 맵핑 해주는 함수
- n개의 state 가 있으면 n*n matrix 가 됨
- memoryless random process
- history를 알 필요 없이 현재 state만 알고 있으면 됨
- markov property
- 현재 state가 주어지면 과거의 일과 미래의 일이 독립이다.
Markov Reward Process
- markov process에서 reward 개념을 추가한것
- V(s)는 state S에서 시작할때 return 의 기댓값
Value Function
- $V_{\pi}(S)$ : Policy &\pi&에서 State S가 주어졌을때 Value Function
- $Q_{\pi}(S,a)$ : Polivy $\pi$ 에서 State S 와 action a가 주어졌을 때 value Function
Bellman Equation
- Value Function을 구하기 위한 방정식
- $V_{\pi}(S) = E_{\pi} [R_{t+1} +\gamma V(S_{t+1}) | S_t = S]$
Optimal Value Function
- policy 마다 다른 value function이 주어지는 데 value function을 최대화 하는 policy를 적용했을때의 value function
Prediction & Control
- Prediction : MDP가 주어지고 Policy가 주어졌을때 Value Function을 구하는 과정
- Control : MDP가 주어질때 optimal policy를 구하는 것
- MDP가 주어진다는 것은 S,A,P,R,$\gamma$ 가 주어진것
- S : State
- A : Action
- P : State transition Probablity
- R: Reward
- $\gamma$ : 시간에 따른 감소상수
Policy Improvement
- Policy를 가지고 Value Function을 구하고 구한 Value Function을 바탕으로 Optimal Policy를 구하는 것
- 시작할때 Random Policy를 이용해서 Value function을 도출하고, 도출된 Value function으로 Greedy Optimal policy를 구하고 다시 새로운 Policy로 Value function을 도출하는 과정을 반복하는 것
- 반드시 optimal policy로 수렴한다.