728x90

2023/05/30 2

[인공지능] 9장. 강화 학습(Reinforcement Learning) 2

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. ▶9.2 9.2.2 최적 정책 학습 알고리즘이 해야 할 일 - '누적(최종) 보상'을 최대화하는 '최적 정책'(optimal policy)을 알아내야 한다. - 최적 정책이란? - ex. 다중 손잡이 밴딧에서 승률이 가장 높은 4번 손잡이를 당기는 정책 - ex. Fronzenlake에서 상태 4에서 행동 1을 취해 안전한 길을 찾는다. 확률 분포로 표현되는 정책 9.2.3 가치 함수로 찾는 최적 정책 최적 정책(optimal policy)을 찾는 학습 알고리즘의 필요성 - 이전 예제에서는 최적 정책을 쉽게 찾았는데 문제가 단순..

[인공지능] 9장. 강화 학습(Reinforcement Learning) 1

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. 컴퓨터로 이런 방식의 학습을 할 수 있을까? - 지금까지 공부한 지도 학습(다층 퍼셉트론, 컨볼루션 신경망, 순환 신경망)은 부적절하다. - 입력/환경 정보를 한 번에 또는 순차적으로 넣고 결과를 확인하는 방법이다. - 중간에 입력/환경 정보가 바뀌지는 않는다. (은닉층은 바뀔 수 있다.) - 대안이 필요하다. 강화 학습(Reinforcement Learning) - Reinforcement : 보상과 처벌을 통해 행동을 형성하는 과정 (심리학/행동) - 보상 또는 페널티와 같은 피드백으로 에이전트의 학습 과정을 돕는 방법이다...

728x90