아래 내용은 딥 리워드 핸즈온 세미나를 참석하면서 작성한 필기 내용을 담은 포스팅 입니다. 세부 내용들은 링크들을 따라가시면 확인하실 수 있으므로 개략적으로만 담았습니다. https://festa.io/events/383 매달 정기적으로 진행하는 스터디. 전 세션까지는 안들어도 되지만 이번 세션부터 중간에 참여하면 어려울 수 있음. 페이스북 딥리워드 그룹에서 확인하실 수 있음. 사전 준비 사항 https://github.com/DeepReward/ 101/blob/master/README.md 아나콘다 + 파이썬 3 jupyter notebook 환경 + numpy, matplotlib 스타2 설치, pysc2 연동. tensorflow 설치. 첫번째 세션 https://github.com/Youngsam/dr101 위의 코드를 기준으로 강화 학습의 개념을 설명. jupyter notebook 실행. Sutton 교수님의 책을 기준으로 설명하시는 듯. 강화학습의 기본적인 탐색법 epsilon-greedy(e-greedy, 입실론 그리디) 가위바위보를 한다고 할때 이론적으로는 확률이 반반이지만 사람에 따라서 편차가 있을 수 있다. 이를 찾는 알고리즘. 잘 터지는 슬롯 머신 고르기 문제 위의 문제에 업그레이드 문제? 농담으로 입구쪽의 슬롯머신이 광고를 위해서 잘터진다고 함. 탐색이 필요하다는 예시 아래는 그리디, 엡실론 0.1, 0.001에 대한 성능 향상 그래프 이고, 그리디는 향상이 없음. 엡실론 0.1이 더 빨리 좋아졌지만 0.001이 나중에는 더 좋아질 수도 있음. Markov Decision Processes and Dynamic Programming 아래와 같이 각 state가 연결되어 있고 다음 state로 넘어가는 확률이 정해져 있는 문제 벨만 등식 부동산에서 옆동네가 가격이 오르면 나도 오르는것 처럼. 다음 state의 가치가 상승할시 ...