복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. ▶9.3 동적 프로그래밍 (Dynamic Programming 9.3.2 가치 반복 알고리즘 동적 프로그래밍은 부트스트랩(bootstrap) 방식 - 모든 상태가 부정확한 값으로 출발하여 이웃 상태와 정보를 주고받으며 점점 수렴해 가는 방식 - ex. FrozenLake에서는 목적지에 인접한 상태부터 정확해져서 점점 멀리 확산 - 부트스트랩 : agent가 자체적으로 가치 함수나 q-value 함수를 업데이트하는 것 - 당장의 보상과 이웃 상태에서의 가치 함숫값이나 q-value 함숫값을 이용 - 이웃 상태(neighbor st..