'상태 가치 함수' 태그의 글 목록

[인공지능] 9장. 강화 학습(Reinforcement Learning) 2

복습하기 위해 학부 수업 내용을 필기한 내용입니다. 이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다. 그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다. ▶9.2 9.2.2 최적 정책 학습 알고리즘이 해야 할 일 - '누적(최종) 보상'을 최대화하는 '최적 정책'(optimal policy)을 알아내야 한다. - 최적 정책이란? - ex. 다중 손잡이 밴딧에서 승률이 가장 높은 4번 손잡이를 당기는 정책 - ex. Fronzenlake에서 상태 4에서 행동 1을 취해 안전한 길을 찾는다. 확률 분포로 표현되는 정책 9.2.3 가치 함수로 찾는 최적 정책 최적 정책(optimal policy)을 찾는 학습 알고리즘의 필요성 - 이전 예제에서는 최적 정책을 쉽게 찾았는데 문제가 단순..

컴퓨터공학/인공지능 2023.05.30

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

오구리의 DevLog

상태 가치 함수 1

티스토리툴바