PyTorch로 시작하는

강화학습 입문 CAMP

딥러닝과 결합시킨 최신 강화학습의 알고리즘을 이해하고,
자신의 업무에 적용할 수 있도록-

#최신 강화학습#코드중심 실습

#한글판 자료

기간 & 일정

2019.02.09. – 04.06.
매주 토요일 14:00 – 17:00
주 1회, 총 24시간 (3/2 휴강)

장소 & 준비물

패스트캠퍼스 강남강의장
강남역 4번 출구, 미왕빌딩
필기구, 개인 노트북 권장

담당자 & 문의

이샘 매니저
02-518-4822
help-ds@fastcampus.co.kr

강화학습 이론 공부. 참 어렵죠?

관련 자료를 참고하고 싶어도,
이해하기 쉽게 번역된 자료를 찾기란
하늘의 별따기!

더이상 자료를 찾는데 시간을 쓰지 마세요!

여기, 강화학습의 기본기를 익히고
실무 활용법을 익혀갈 수 있는
최신 강화학습 알고리즘 강의가 있습니다.

당신의 머릿속에 강화학습의 이론들이
코드로 구현되는 과정이 자연스럽게 그려지는 그 순간까지!

이해하기 쉽게 번역한 강의 자료와
강사님과 함께 하는 코드 실습을 중심으로,

강화학습의 기초부터 실무활용방법까지 모두 전수해드립니다.

강의 목표 .

강화학습의 기본기를 다져
알고리즘을 이해하고, 자신의 업무나
프로젝트에 적용하는 것.

강의 특징 .

icon5

가장 최신의
강화학습 기초 강의

딥러닝을 제대로 알지 못하면 최신 강화학습 알고리즘을 이해할 수 없습니다.
고전 강화학습 뿐만 아니라 딥러닝을 결합시킨 DQN, REINFORCE, A3C등의 강화학습의 베이스라인 알고리즘까지 모두 가르쳐드립니다. 또한, 총 37개의 논문을 다룸으로써 논문을 읽을 수 있는 능력을 기르고, 강화학습의 큰 흐름을 파악하실 수 있습니다.

icon4 (1)

코드 중심의
실습형 강의

필요한 만큼의 수식만 골라 입문자의 눈높이에서 가르쳐드리고, 코드 실습을 위주로 강의가 진행됩니다. PyTorch를 사용해 강화학습의 이론들이 어떻게 코드로 구현되는지, 강사님과 함께 알고리즘을 따라해보며 몸소 익히실 수 있습니다.

icon3 (1)

이해하기 쉽게
번역한 강의

강화학습은 관련 자료를 찾는 것 부터가 쉽지 않아 학습을 시작조차 못하는 분들이 많습니다. 또한, 강화학습을 심도있게 공부하다보면 대부분의 관련 자료가 영문으로 되어 있어, 진도를 나가는데 막막함을 느끼고는 하죠. 하지만, 본 강의에서는 해외자료들을 모두 한글로 번역하여 다루며, 이론 하나 하나를 풀어서 설명해주시는 강사님의 도움으로 강화학습의 내용을 쉽게 이해하실 수 있습니다.

총 37편의 논문 리뷰 .

본 강의에서는 강화학습과 관련한 총 37개의 논문을 리뷰합니다.
고전이 되는 논문부터 최근의 논문까지 강화학습 분야의 발전 방향에 대해 살펴볼 예정입니다.

 

[강의에서 다루게 될 논문 예시]
① Goodfellow, Ian, et al. “Generative adversarial nets.” Advances in neural information processing systems. 2014.
② Mnih, Volodymyr, et al. “Human-level control through deep reinforcement learning.” Nature 518.7540 (2015): 529.
③ van Hasselt, Hado, Arthur Guez, and David Silver. “Deep Reinforcement Learning with Double Q-Learning.” Thirtieth AAAI Conference on Artificial Intelligence. 2016. 외 34개

커리큘럼 .

Part 1. 강화학습의 기초 

Day 1. 강화학습 개요 및 PyTorch 소개

강화 학습의 이론적 배경인 Markov Decision Processes(MDP)를 학습하고, 강화학습을 기계학습과 Markov Decision Process의 두 가지 관점에서 소개합니다. 이후 강의를 위해 필요한 python, numpy, pytorch 등을 설치하고 기본적인 모듈 사용법을 살펴봅니다.

[이론]
1) 강화학습의 소개
2) 기계학습 관점에서의 강화학습 바라보기
3) 강화학습의 이론적 배경인 Markov Decision Processes(MDP), DP의 개념 이해하기

[실습]
1) 딥러닝 프레임워크 PyTorch소개
2) 수업에 필요한 각종 라이브러리 설치 및 환경 설정
3) 교사 학습(분류), 비교사 학습(밀도 추정) 실습
4) 가치 기반 알고리즘: Value Iteration / 정책 기반 알고리즘: Policy Iteration

Day2. Value based methods

강화학습의 기본 이론인 MDP를 기계학습 방법론으로 풀기 위해 필요한 부트스트래핑 개념을 살펴봅니다. 딥강화학습의 시작이 된 논문인 Deep Q Network(DQN)과 이를 개선한 논문인 Double, Duel, Prioritized experience replay(PER) 들을 공부합니다.

[이론]
1) 부트스트래핑 개념 이해하기
2) Q-Learning, Sarsa Learning 알고리즘 이해하기
3) 첫 심층 강화학습 알고리즘 DQN 알고리즘과 그 후속 연구들 소개

[실습]
1) OpenAI gym 소개
2) 첫 심층 강화학습 알고리즘 DQN 구현 및 적용
3) Double Q-Learning과 Dueling network 구현 및 적용
4) PER 구현 및 적용

Day3. Policy based methods

정책함수를 직접 모델링하여 MDP를 푸는 방법론들을 소개합니다. 이러한 방법론들은 가치함수를 모델링 하여 MDP를 푸는 것보다 학습이 안정적이라는 장점이 있습니다. 또한, 정책 기반 방법론들의 문제점인 varaince를 줄이기 위한 시도들을 공부합니다.

[이론]
1) 정책함수의 학습을 위한 Score function 개념과 Policy gradient theorem 이해하기
2) 정책함수의 gradient의 variance를 줄이는 방법론들의 소개
– Baseline method
– Generalized Advantage estimator
– Minorization-Maximization optimization

[실습]
1) 기본적인 정책 기반 알고리즘 Advantage-Actor critic(A2C) 알고리즘 구현 및 적용
2) 효율적인 정책 기반 알고리즘 Proximal Policy optimization(PPO) 알고리즘 구현 및 적용

Part 2. 심화 강화 학습 

Day4. Experience replay

가치함수 기반 방법론들의 장점과 정책함수 기반 방법론들의 장점을 모두 수용하기 위해 2주차에 등장했던 개념인 Memory replay를 policy based method에 접목하기 위한 연구들을 살펴봅니다. 또 이러한 노력들이 어떠한 방향으로 응용 가능한지 살펴봅니다.

[이론]
1) 적은 표본을 통해서도 학습 가능한 off-policy 정책함수 기반 방법론들 소개
– Retrace lambda, Actor Critic with Experience Replay(ACER)
– Policy Gradient with Q-Learning, Path Consistency Learning, Soft Actor Critic(SAC)
2) Memory replay를 활용한 다양한 응용 연구 소개
– Deep Q-Learning from Demonstration(DQFD), Self-Imitation Learning(SIL)

[실습]
1) ACER 알고리즘 구현 및 적용
2) SAC 알고리즘 구현 및 적용
3) SIL 알고리즘 구현 및 적용

Day5. Exploration techniques

좋은 성능의 정책을 학습하기 위해서 좋은 데이터를 모으는 것은 강화학습에서 중요한 문제이며 이를 exploration & exploitation dilemma라고 합니다. Exploration을 위한 고전적인 이론 연구부터, 고차원 환경에서 뛰어난 성능을 보인 최신의 연구까지를 살펴봅니다.

[이론]
1) 고전적인 exploration에 관한 연구 소개
– Entropy regularization
– Thompson sampling
2) 고차원 환경을 위한 내적 동기 부여(intrinsic motivation, IM) 방법론 소개

[실습]
1) 베이지안 심층학습을 활용한 Thompson sampling 구현 및 적용
2) IM방법론인 Random Network Distillation(RND) 구현 및 적용

Day6. Uncertainty in RL

정책의 다양성 혹은 학습 성능의 개선을 위해서 에이전트가 잘 모르는 것에 대해 불확실성을 정량화하는 것은 중요합니다. 불확실성을 고려하기 위한 강화학습의 연구들을 살펴보고 이러한 연구들의 응용 방향을 소개합니다.

[이론]
1) 불확실성의 개념 정리(Aleatoric, Epistemic uncertainty)
2) DQN의 성능 개선을 위한 Distributional DQN 방법론 소개(C51, QR-DQN, IQN)
3) 정책의 다양성을 고려한 학습 방법론 소개(SVPG, Soft-QL)

[실습]
1) Distributional RL 방법론인 Implicit Quantile Network 구현 및 적용
2) Multi-modal 정책함수 학습방법론인 Soft-QL 구현 및 적용

Part 3. 다양한 환경에서의 강화학습 방법론 

Day7. Imitation Learning

실제 문제를 강화학습으로 모델링 하다보면 보상 함수를 모델링하기 어렵거나 비싼 경우가 있습니다. 보상함수가 없는 상황에서도 강화학습을 할 수 있는 imitation learning에 대해 알아봅니다. 또한 이러한 방법론들이 어떠한 문제에 적용될 수 있는지 알아봅니다.

[이론]
1) 보상함수를 찾는 역강화학습 방법론 소개 및 모방 학습의 소개
2_ 모방 학습 방법론들의 소개
– Generative Adversarial Imitation Learning(GAIL)
– Info-GAIL
– Variational Adversarial Imitation Learning(VAIL)

[실습]
1) GAIL 구현 및 적용
2) VAIL 구현 및 적용

Day8. Multi-agent RL

실제 문제에서는 모델링된 환경에 여러 에이전트가 있는 경우가 있습니다. 이를 위한 다중 에이전트 강화학습의 이론적 배경과 최근의 연구에 대해 알아봅니다.

[이론]
1) 다중 에이전트 강화학습의 이론적 기반인 게임 이론 소개
2) 알파고에 사용된 개념인 Monte-Carlo Tree Search(MCTS) 개념 소개
3) 다중 에이전트 강화학습을 위한 Regret 기반 방법론의 소개

[실습]
1) MCTS 구현 및 적용
2) Advantage-based Regret Minimization(ARM) 방법론 소개

8주 후, 당신은 .

eng-be-icon90-4
#DQN, REINFORCE, A3C 등의 강화학습의 베이스라인을 이해할 수 있습니다.
#기본적인 문제들에 대해 강화학습을 적용하여 풀 수 있습니다.
#자신의 업무나 프로젝트에 강화학습을 어떻게 적용할 지를 생각해 낼 수 있습니다.

추천 대상 .

icon_man4_3_oh

강화학습을 혼자서 공부해보려 했지만
어려움을 겪은 분

icon_woman1_2_happy-150x150

강화학습에 대한 기본기를 익히고,
PyTorch로 구현하는 역량을 기르고 싶은 분

icon_man3_2_happy-150x150

본인의 업무에 강화학습을
적용해 해결하고 싶은 분

수강생 체크 리스트

잠깐, 본 강의는 약간의 선수지식이 필요한 강의입니다. 수강 전, 꼭 체크해보세요!

-파이썬 코딩이 가능하거나, PyTorch/Tensorflow/Keras사용경험이 있는 분
-MNIST와 같은 딥러닝 예제를 따라해보신 분

수강 후기 .

강사님의 실습이 대단히 좋았습니다. 실제로 강화학습을 이해하고 활용하려는 분들에게 적합하다 느꼈습니다. 알고리즘이 세세하게 코드로 구현되어있고, 각 부분이 이론의 어떤부분과 합치하는지 설명해주셨습니다. 수식이 이해가 잘 안되더라도 알고리즘이 어떤 방식으로 작동하는지 명확하게 이해하는데 큰 도움이 되었습니다.

“강사님의 자질이 아주 뛰어나보입니다. 질문도 막힘없이 잘 설명해주시구요.”  – 3기 수강생 K님

“수업시간에 다루었던 코드가 현업에서 활용하게 되었을 때 도움이 많이 되었습니다.”  – 3기 수강생 Y님

” 지속적으로 강의자료를 갱신하시면서 컨텐츠를 충실하게 구성해주신 점이 좋았습니다.”  – 4기 수강생 K님

“대부분 수강생분들의 질문에 대해 납득가능한 답변을 주셨으며, 이론과 수식에 대한 일반론적인 묘사나 설명보단 최대한 이해가능한 형태의 설명을 해주시려는 점이 좋았습니다.”  – 4기 수강생 K님

“코드실습에서 저수준으로 구현된 코드를 수식 및 알고리즘에 대응해가며 설명해주시는 점이 좋았습니다.”  – 4기 수강생 E님

“전체과정 간 적어도 강화학습이라는 분야에서 최소한 반드시 알아야만하는 내용들은 모두 포함되었다고 생각합니다.”  – 4기 수강생 S님

강사 소개 .

IMG_4007

김성엽 강사님

서울대학교 산업공학과에서 다중 에이전트 강화학습을 연구하였습니다. 강화학습 연구들은 다양한 응용 가능성을 가지고 있지만 논문에 등장하는 난해한 수식들로 인해 진입 장벽이 비교적 높습니다. 본 강의에서는 논문을 이해하기 위해 꼭 필요한 수식들을 선별하여 그 수식들의 바탕에 깔려있는아이디어를 전달합니다. 또 이를 코드로 구현하는 과정에 집중하여 이후 새로운 강화학습 연구들이 공개되어도 이를 부담없이 읽을 수 있도록 하겠습니다.

[약력]

-서울대학교 산업공학과 석사 졸업, 최적화 전공(다중 에이전트 강화학습)
-서울대학교 산업공학과/ 수리과학부 학사 졸업

[강의 경험]

-2017-2018 서울대학교 최적화 원론(Convex Optimization) 강의 조교
-2018 패스트캠퍼스 Tensorflow로 시작하는 강화학습 입문 CAMP 1-3기 조교
-2018 패스트캠퍼스 데이터 사이언스 논문 세미나 5월/9월 강의

딥러닝과 결합시킨 최신 강화학습의 알고리즘을
이해하고, 자신의 업무에 적용할 수 있도록-

PyTorch로 시작하는 강화학습 입문 CAMP

일    정 2019.02.09.~ 2019.04.06. | 총 8주
매주 토 오후 14:00 ~ 17:00
준비물 개인 노트북 사용 추천
(본인 PC에 맞는 개발 환경 설정 및 원활한 개별 실습을 위하여)
장    소 강남역 부근 패스트캠퍼스 강의장
문    의 이샘 매니저 : 02-518-4822 | help-ds@fastcampus.co.kr
메일로 문의 주실 경우 자세한 상담을 원하신다면 휴대폰 번호, 상담가능 시간을 남겨주세요:)

142만원 (정가:150만원)

※ 할인가는 매주 목요일 자정에 변경됩니다.
※ 다음 기수 강의 정보가 궁금하다면? 출시알림을 신청하세요!
※ 카드 12개월 무이자 할부 가능!

출시알림

강의장 안내