728x90

가치 반복 알고리즘 2

[인공지능] 9장. 강화 학습(Reinforcement Learning) 3

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. ▶9.3 동적 프로그래밍 (Dynamic Programming 9.3.2 가치 반복 알고리즘 동적 프로그래밍은 부트스트랩(bootstrap) 방식 - 모든 상태가 부정확한 값으로 출발하여 이웃 상태와 정보를 주고받으며 점점 수렴해 가는 방식 - ex. FrozenLake에서는 목적지에 인접한 상태부터 정확해져서 점점 멀리 확산 - 부트스트랩 : agent가 자체적으로 가치 함수나 q-value 함수를 업데이트하는 것 - 당장의 보상과 이웃 상태에서의 가치 함숫값이나 q-value 함숫값을 이용 - 이웃 상태(neighbor st..

[인공지능] 9장. 강화 학습(Reinforcement Learning) 2

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. ▶9.2 9.2.2 최적 정책 학습 알고리즘이 해야 할 일 - '누적(최종) 보상'을 최대화하는 '최적 정책'(optimal policy)을 알아내야 한다. - 최적 정책이란? - ex. 다중 손잡이 밴딧에서 승률이 가장 높은 4번 손잡이를 당기는 정책 - ex. Fronzenlake에서 상태 4에서 행동 1을 취해 안전한 길을 찾는다. 확률 분포로 표현되는 정책 9.2.3 가치 함수로 찾는 최적 정책 최적 정책(optimal policy)을 찾는 학습 알고리즘의 필요성 - 이전 예제에서는 최적 정책을 쉽게 찾았는데 문제가 단순..

728x90