강화학습
- 장점 : 룰을 일일히 알려주기 힘든 상황에서 사용가능
- 단점 : 학습시간이 오래걸림
- 특징
- 보상함수를 통해서 학습
- 에이전트가 스스로 배워야한다.
- 피드백이 늦게 올 수도 있다 (바둑은 결과를 끝내야 리워드가 온다)
강화학습 용어
- Policy : 에이전트가 어떤 행동을 할지 정해주는 함수
- Value function : state가 얼마나 좋은지 평가해주는 함수
- Model : 에이전트가 환경을 표현하는 모든 것
- RL agent는 policy, value function, model로 구성
- RL model은 state, action, reward 로 구성
policy
- Deterministic Policy : 어떤 상태에서 어떤 액션을 할지 정의한 것
- Stocastic Policy : 어떤 상태에서 어떤 액션을 할지 확률적으로 정의한 것
Value Function
- 미래의 보상에 대한 예측값
- $ V _{\pi} (S) = E_{\pi}[R_{t+1} + \gamma R_{t+2}+ \gamma^2R_{t+3} + \cdots | S_t = S ]$
- $V_{\pi}$ 는 $\pi$ 라는 policy일때 Value Function
- $E_{\pi}$ 는 기댓값
- $R_{t+1}$ 은 t+1 step에서 reward
- $S_t$ 는 t step에서 state
Model
- $P_{SS' }^a$ : t step에 S에 있고 a라는 action을 취했을때 S'으로 갈 확률
- $R_S^a$ : S state에 있고 a라는 action을 취했을 때 얻는 reward
Exploration & Explotation
- Exploration : 탐험, 경험해보지 않은 state에 대해서 random action을 취하는 것
- Explotation : 이미 알고 있는 정보를 이용해서 reward를 maximize 하는 것
- Exploraion을 통해서 새로운 것을 학습하고 Explotaion을 통해 reward를 maximize
Prediction & Control
- Prediction : Policy $\pi$ 가 주어졌을 때 가치함수 $V_{\pi}(S)$ 를 구하는 것
- Control : reward를 최대로 하는 Policy를 구하는 것
'AI 기초 공부 > 인공지능의 기초' 카테고리의 다른 글
게임 이론 (0) | 2022.01.04 |
---|---|
Markov Decision Process (MDP) (0) | 2021.12.27 |
지역 탐색 (0) | 2021.12.21 |
휴리스틱 탐색 (0) | 2021.12.21 |
인공지능의 소개 및 역사 (0) | 2021.12.13 |