복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. ▶9.2 9.2.2 최적 정책 학습 알고리즘이 해야 할 일 - '누적(최종) 보상'을 최대화하는 '최적 정책'(optimal policy)을 알아내야 한다. - 최적 정책이란? - ex. 다중 손잡이 밴딧에서 승률이 가장 높은 4번 손잡이를 당기는 정책 - ex. Fronzenlake에서 상태 4에서 행동 1을 취해 안전한 길을 찾는다. 확률 분포로 표현되는 정책 9.2.3 가치 함수로 찾는 최적 정책 최적 정책(optimal policy)을 찾는 학습 알고리즘의 필요성 - 이전 예제에서는 최적 정책을 쉽게 찾았는데 문제가 단순..