MDP

  • S : state 의 집합
  • P : state transition function
    • state를 받아서 다른 state로 맵핑 해주는 함수
    • n개의 state 가 있으면 n*n matrix 가 됨
  • memoryless random process
    • history를 알 필요 없이 현재 state만 알고 있으면 됨 
  • markov property
    • 현재 state가 주어지면 과거의 일과 미래의 일이 독립이다. 

Markov Reward Process

  • markov process에서 reward 개념을 추가한것 
  • V(s)는 state S에서 시작할때 return 의 기댓값 

Value Function

  • $V_{\pi}(S)$ : Policy &\pi&에서 State S가 주어졌을때 Value Function
  • $Q_{\pi}(S,a)$ : Polivy $\pi$ 에서 State S 와 action a가 주어졌을 때 value Function

Bellman Equation

  • Value Function을 구하기 위한 방정식
  • $V_{\pi}(S) = E_{\pi} [R_{t+1} +\gamma V(S_{t+1}) | S_t = S]$

Optimal Value Function

  • policy 마다 다른 value function이 주어지는 데 value function을 최대화 하는 policy를 적용했을때의 value function

Prediction & Control 

  • Prediction : MDP가 주어지고 Policy가 주어졌을때 Value Function을 구하는 과정
  • Control : MDP가 주어질때 optimal policy를 구하는 것 
  • MDP가 주어진다는 것은 S,A,P,R,$\gamma$ 가 주어진것 
    • S : State
    • A : Action
    • P : State transition Probablity
    • R: Reward
    • $\gamma$ : 시간에 따른 감소상수

Policy Improvement

  • Policy를 가지고 Value Function을 구하고 구한 Value Function을 바탕으로 Optimal Policy를 구하는 것 
  • 시작할때 Random Policy를 이용해서 Value function을 도출하고, 도출된 Value function으로 Greedy Optimal policy를 구하고 다시 새로운 Policy로 Value function을 도출하는 과정을 반복하는 것 
  • 반드시 optimal policy로 수렴한다. 

'AI 기초 공부 > 인공지능의 기초' 카테고리의 다른 글

게임 이론  (0) 2022.01.04
강화학습  (0) 2021.12.27
지역 탐색  (0) 2021.12.21
휴리스틱 탐색  (0) 2021.12.21
인공지능의 소개 및 역사  (0) 2021.12.13

+ Recent posts