설명 슬롯머신 투자를 최적화하기 위해 시작된 알고리즘 각 슬롯머신의 승률이 다르다는 경험적 사실을 바탕으로 시작. 각 슬롯머신마다 다른 reward를 고려했을 때, 1)어떤 슬롯을 2)어떤 순서로 당겨야 가장 많은 보상을 확보할 수 있는가 Exploration(탐색): 각 슬롯머신의 승률을 확인하는 과정 Exploitation(활용): 가장 높은 승률이 예상되는 슬롯머신을 선택해 arm(손잡이)를 당기는 과정 탐색-활용의 비율 조정에 따라 알고리즘이 나뉨 Epsilon-Greedy Softmax UCB(Upper Confidence Bound) Thompson Sampling 사용 예시 [개인화 추천 서비스에서 사용] 장점 1) 실제 환경에서 목표를 학습할 수 있음 MAB는 강화 학습 기반의 프레임워크로..