강화학습

  • 장점 : 룰을 일일히 알려주기 힘든 상황에서 사용가능
  • 단점 : 학습시간이 오래걸림
  • 특징
    • 보상함수를 통해서 학습
    • 에이전트가 스스로 배워야한다.
    • 피드백이 늦게 올 수도 있다 (바둑은 결과를 끝내야 리워드가 온다)

 

강화학습 용어

  • Policy : 에이전트가 어떤 행동을 할지 정해주는 함수
  • Value function : state가 얼마나 좋은지 평가해주는 함수
  • Model : 에이전트가 환경을 표현하는 모든 것 
  • RL agent는 policy, value function, model로 구성
  • RL model은 state, action, reward 로 구성 

 

policy

  • Deterministic Policy : 어떤 상태에서 어떤 액션을 할지 정의한 것 
  • Stocastic Policy : 어떤 상태에서 어떤 액션을 할지 확률적으로 정의한 것 

 

Value Function

  • 미래의 보상에 대한 예측값
  • $ V  _{\pi} (S) =  E_{\pi}[R_{t+1} +  \gamma R_{t+2}+ \gamma^2R_{t+3} + \cdots  | S_t = S ]$
  • $V_{\pi}$ 는 $\pi$ 라는 policy일때 Value Function
  • $E_{\pi}$ 는 기댓값
  • $R_{t+1}$ 은 t+1 step에서 reward
  • $S_t$ 는 t step에서 state

 

Model

  • $P_{SS' }^a$ : t step에 S에 있고 a라는 action을 취했을때 S'으로 갈 확률 
  • $R_S^a$ : S state에 있고 a라는 action을 취했을 때 얻는 reward

 

Exploration & Explotation

  • Exploration : 탐험, 경험해보지 않은 state에 대해서 random action을 취하는 것 
  • Explotation : 이미 알고 있는 정보를 이용해서 reward를 maximize 하는 것
  • Exploraion을 통해서 새로운 것을 학습하고 Explotaion을 통해 reward를 maximize

 

Prediction & Control

  • Prediction : Policy $\pi$ 가 주어졌을 때 가치함수 $V_{\pi}(S)$ 를 구하는 것 
  • Control : reward를 최대로 하는 Policy를 구하는 것 

 

'AI 기초 공부 > 인공지능의 기초' 카테고리의 다른 글

게임 이론  (0) 2022.01.04
Markov Decision Process (MDP)  (0) 2021.12.27
지역 탐색  (0) 2021.12.21
휴리스틱 탐색  (0) 2021.12.21
인공지능의 소개 및 역사  (0) 2021.12.13

+ Recent posts