게임 이론의 가정
- 모든 player는 합리적인 선택을 한다
- 모든 플레이어는 자신의 utility를 최대화 하기 위한 선택을 한다.
- 모든 플레이어는 다른 플레이어가 합리적인 선택을 할 것 임을 알고 있다.
- Dominant Action : 상대방이 어떤 Action을 하던지 내가 취할수있는 최고의 action
Game Theory의 수학적 표현 (N,A,u)
- N : 플레이어 수 , i 라는 index로 표현
- A : Action set
- $A_i$ : i player가 수행할 수 있는 action set
- u : utility function
- $u_i(a)$ : 플레이어 i가 a 라는 액션을 선택했을때의 utility
- 일반적으로 u는 N차원 벡터
Zero Sum Game
- 모든 플레이어의 utility 합이 0인 게임
- 나의 utility를 최대화 하기 위해서는 상대방의 utility를 최소화 해야한다.
Nash Equlibrium
- $S_i$ : 플레이어 i가 취할 수 있는 action에 대한 확률 분포
- Strategy Profile S : N명의 플레이어들의 모든 $S_i$ 값을 모은 것
- S = ($S_1,S_2, \cdots , S_N$)
- support : 확률 분포가 있을때 확률이 0보다 큰부분
- pure strategy : 모든 플레이어들이 항상 똑같은 전략을 사용, 시간에 따라 $S_i$가 달라지지 않음
- mixed strategy : $S_i$를 따라서만 선택하는 것이 아니라 무작위성을 가짐
- Best response : 나를 제외한 모든 player들의 전략이 주어졌을때 내가 선택할 수 있는 최선의 전략
- Nash Equlibrium : 모든 Player들의 전략이 best response 일때
- minmax Strategy
- 상대방이 상대방에게 가장 유리한 선택을 한다는 것을 안다고 가정
- 최솟값을 구함, 여기서 최솟값은 player1이 i번째 action을 취했을때 플레이어2가 최선의 액션을 취한 상황
- $V_i^1 = min{x_i^1 , \cdots , x_i^n}$
- 각 행의 최솟값중 최대값이 되는 행을 선택하는 것이 maxmin strategy
- $V^1 = max{V_i^1 , \cdots , V_n^1}$
- utility 행렬이 player 1의 입장이기때문에 플레이어 2는 반대로 minmax strategy를 택함
- value of the game : $V^1 = V^2 = V$ 인 V
- $V^1$ 과 $V^2$ 를 선택하는 두 플레이어의 전략 $(a_i,b_j)$ 를 Nash Equlibrium이라고 한다.
'AI 기초 공부 > 인공지능의 기초' 카테고리의 다른 글
Markov Decision Process (MDP) (0) | 2021.12.27 |
---|---|
강화학습 (0) | 2021.12.27 |
지역 탐색 (0) | 2021.12.21 |
휴리스틱 탐색 (0) | 2021.12.21 |
인공지능의 소개 및 역사 (0) | 2021.12.13 |