Markov Decision Process (MDP)

2021. 12. 27. 13:24

MDP

S : state 의 집합
P : state transition function
- state를 받아서 다른 state로 맵핑 해주는 함수
- n개의 state 가 있으면 n*n matrix 가 됨
memoryless random process
- history를 알 필요 없이 현재 state만 알고 있으면 됨
markov property
- 현재 state가 주어지면 과거의 일과 미래의 일이 독립이다.

Markov Reward Process

Value Function

Bellman Equation

Optimal Value Function

policy 마다 다른 value function이 주어지는 데 value function을 최대화 하는 policy를 적용했을때의 value function

Prediction & Control

Policy Improvement

Policy를 가지고 Value Function을 구하고 구한 Value Function을 바탕으로 Optimal Policy를 구하는 것
시작할때 Random Policy를 이용해서 Value function을 도출하고, 도출된 Value function으로 Greedy Optimal policy를 구하고 다시 새로운 Policy로 Value function을 도출하는 과정을 반복하는 것
반드시 optimal policy로 수렴한다.

김영진