PyTorch로 시작하는

강화학습 CAMP

강화학습의 기초부터 최신 강화학습 알고리즘까지,
내 업무에 적용할 수 있도록- 모두 가르쳐 드립니다

#최신 강화학습#코드중심 실습

#한글판 자료

기간 & 일정

2019.04.20. – 06.22.
매주 토요일 10:00 – 13:00
주 1회, 총 27시간 (5/4 휴강)

장소 & 준비물

패스트캠퍼스 강남강의장
강남역 4번 출구, 미왕빌딩
필기구, 개인 노트북 권장

담당자 & 문의

이샘 매니저
02-518-4822
help-ds@fastcampus.co.kr

강화학습 이론 공부. 참 어렵죠?

왜 이렇게 어려운 걸까요?

data_camp_reinf_2

찾기 힘든 국문 자료

한국어 자료 찾기가 너무 어렵습니다.
영어 자료를 받아 해석을 하고,
그걸 다시 이해하는 건 너무
시간이 많이 걸립니다.
data_camp_reinf_1

너무 어려운 수식

이론을 이해하는 건 그렇게 어렵지 않지만,
강화학습과 관련된 수식이 너무 어려워
이해하기가 힘듭니다.
data_camp_reinf_3

딥러닝 이해 필요

강화학습의 이론을 알아도,
딥러닝에 대해 모르면
최신의 강화학습 알고리즘을
이해하기 힘듭니다.
data_camp_reinf_4

이해가 어려운 코드 구현

주어진 코드가 어떻게 구성되었고
어떻게 적용해야 하는지

이해하기가 너무 어렵습니다.

그런 당신을 위해,

강화 학습의 기초부터,
강화학습 수식에 대한 이해 방법,
딥러닝 강화학습 알고리즘,
직관적인 코드 구현 과정까지 
담은
최신 강화학습 알고리즘 강의가 있습니다.

당신의 머릿속에 강화학습의 이론들이
코드로 구현되는 과정이 자연스럽게 그려지는 그 순간까지!

이해하기 쉽게 번역한 강의 자료와
강사님과 함께 하는 코드 실습을 중심으로,

강화학습의 기초부터 실무활용방법까지 모두 전수해드립니다.

강의 목표 .

강화학습의 기본기를 다져
알고리즘을 이해하고, 자신의 업무나
프로젝트에 적용하는 것.

추천 대상.

icon_man4_3_oh

강화학습을 혼자서 공부해보려 했지만
어려움을 겪은 분

icon_woman1_2_happy-150x150

강화학습에 대한 이론/실습을
직관적으로 이해하고 싶은 분

icon_man3_2_happy-150x150

강화학습의 아이디어 및 연구 결과를 본인의 업무나 연구에 적용하고 싶은 분

수강생 체크 리스트

잠깐, 본 강의는 약간의 선수지식이 필요한 강의입니다. 수강 전, 꼭 체크해보세요!

-파이썬 코딩이 가능하거나, PyTorch/Tensorflow/Keras사용경험이 있는 분
-MNIST와 같은 딥러닝 예제를 따라해보신 분

강의 특징.

강화학습, 실무에 적용하실 수 있도록!

icon5

기초와 최신 동향,
모두 잡았습니다.

본 강의에서는 고전 강화학습 이론뿐만 아니라 딥러닝을 결합시킨 DQN, REINFORCE, A3C등의 강화학습의 베이스라인 알고리즘까지 모두 가르쳐 드립니다.

icon4 (1)

‘직관적 코드 구현’에
초점을 맞췄습니다.

실무에서 강화학습을 활용하고 싶은 분들을 위해, 필요한 만큼의 수식만 골라 입문자의 눈높이에서 가르쳐드리고, 코드 실습을 위주로 강의가 진행됩니다. 따라서 PyTorch를 사용해 강화학습의 이론들이 어떻게 코드로 구현되는지, 강사님과 함께 알고리즘을 따라해보며 몸소 익히실 수 있습니다.

icon3 (1)

단 하나밖에 없는
강화학습 강의입니다.

강화학습은 관련 자료를 찾는 것부터가 쉽지 않아 학습을 시작조차 못하는 분들이 많습니다. 또한, 강화학습을 심도있게 공부하다 보면 대부분의 관련 자료가 영문으로 되어 있어, 진도를 나가는데 막막함을 느낍니다. 본 강의는 그런 여러분을 위해 만들어진, 이 세상 단 하나밖에 없는 강의입니다. 

뿐만 아니라,
총 37편의 논문 리뷰까지
!

본 강의에서는 강화학습과 관련한 총 37개의 논문을 리뷰합니다.
고전이 되는 논문부터 최근의 논문까지 강화학습 분야의 발전 방향에 대해 살펴볼 예정입니다.

 

[강의에서 다루게 될 논문 예시]
① Goodfellow, Ian, et al. “Generative adversarial nets.” Advances in neural information processing systems. 2014.
② Mnih, Volodymyr, et al. “Human-level control through deep reinforcement learning.” Nature 518.7540 (2015): 529.
③ van Hasselt, Hado, Arthur Guez, and David Silver. “Deep Reinforcement Learning with Double Q-Learning.” Thirtieth AAAI Conference on Artificial Intelligence. 2016. 외 34개

커리큘럼 .

Part 1. 강화학습의 기초 

Day 1. 강화학습 개요 및 PyTorch 소개

강화 학습의 이론적 배경인 Markov Decision Processes(MDP)를 학습하고, 강화학습을 기계학습과 Markov Decision Process의 두 가지 관점에서 소개합니다. 이후 강의를 위해 필요한 python, numpy, pytorch 등을 설치하고 기본적인 모듈 사용법을 살펴봅니다.

[이론]
1) 강화학습의 소개
2) 기계학습 관점에서의 강화학습 바라보기
3) 강화학습의 이론적 배경인 Markov Decision Processes(MDP), DP의 개념 이해하기

[실습]
1) 딥러닝 프레임워크 PyTorch소개
2) 수업에 필요한 각종 라이브러리 설치 및 환경 설정
3) 교사 학습(분류), 비교사 학습(밀도 추정) 실습
4) 가치 기반 알고리즘: Value Iteration / 정책 기반 알고리즘: Policy Iteration

Day2. Value based methods

강화학습의 기본 이론인 MDP를 기계학습 방법론으로 풀기 위해 필요한 부트스트래핑 개념을 살펴봅니다. 딥강화학습의 시작이 된 논문인 Deep Q Network(DQN)과 이를 개선한 논문인 Double, Duel, Prioritized experience replay(PER) 들을 공부합니다.

[이론]
1) 부트스트래핑 개념 이해하기
2) Q-Learning, Sarsa Learning 알고리즘 이해하기
3) 첫 심층 강화학습 알고리즘 DQN 알고리즘과 그 후속 연구들 소개

[실습]
1) OpenAI gym 소개
2) 첫 심층 강화학습 알고리즘 DQN 구현 및 적용
3) Double Q-Learning과 Dueling network 구현 및 적용
4) PER 구현 및 적용

Day3-4. Policy based methods

정책함수를 직접 모델링하여 MDP를 푸는 방법론들을 소개합니다. 이러한 방법론들은 가치함수를 모델링 하여 MDP를 푸는 것보다 학습이 안정적이라는 장점이 있습니다. 또한, 정책 기반 방법론들의 문제점인 varaince를 줄이기 위한 시도들을 공부합니다.

[이론]
1) 정책함수의 학습을 위한 Score function 개념과 Policy gradient theorem 이해하기
2) 정책함수의 gradient의 variance를 줄이는 방법론들의 소개
– Baseline method
– Generalized Advantage estimator
– Minorization-Maximization optimization

[실습]
1) 기본적인 정책 기반 알고리즘 Advantage-Actor critic(A2C) 알고리즘 구현 및 적용
2) 효율적인 정책 기반 알고리즘 Proximal Policy optimization(PPO) 알고리즘 구현 및 적용

Part 2. 심화 강화 학습 

Day5. Experience replay

가치함수 기반 방법론들의 장점과 정책함수 기반 방법론들의 장점을 모두 수용하기 위해 2주차에 등장했던 개념인 Memory replay를 policy based method에 접목하기 위한 연구들을 살펴봅니다. 또 이러한 노력들이 어떠한 방향으로 응용 가능한지 살펴봅니다.

[이론]
1) 적은 표본을 통해서도 학습 가능한 off-policy 정책함수 기반 방법론들 소개
– Retrace lambda, Actor Critic with Experience Replay(ACER)
– Policy Gradient with Q-Learning, Path Consistency Learning, Soft Actor Critic(SAC)
2) Memory replay를 활용한 다양한 응용 연구 소개
– Deep Q-Learning from Demonstration(DQFD), Self-Imitation Learning(SIL)

[실습]
1) ACER 알고리즘 구현 및 적용
2) SAC 알고리즘 구현 및 적용
3) SIL 알고리즘 구현 및 적용

Day6. Exploration techniques

좋은 성능의 정책을 학습하기 위해서 좋은 데이터를 모으는 것은 강화학습에서 중요한 문제이며 이를 exploration & exploitation dilemma라고 합니다. Exploration을 위한 고전적인 이론 연구부터, 고차원 환경에서 뛰어난 성능을 보인 최신의 연구까지를 살펴봅니다.

[이론]
1) 고전적인 exploration에 관한 연구 소개
– Entropy regularization
– Thompson sampling
2) 고차원 환경을 위한 내적 동기 부여(intrinsic motivation, IM) 방법론 소개

[실습]
1) 베이지안 심층학습을 활용한 Thompson sampling 구현 및 적용
2) IM방법론인 Random Network Distillation(RND) 구현 및 적용

Day7. Uncertainty in RL

정책의 다양성 혹은 학습 성능의 개선을 위해서 에이전트가 잘 모르는 것에 대해 불확실성을 정량화하는 것은 중요합니다. 불확실성을 고려하기 위한 강화학습의 연구들을 살펴보고 이러한 연구들의 응용 방향을 소개합니다.

[이론]
1) 불확실성의 개념 정리(Aleatoric, Epistemic uncertainty)
2) DQN의 성능 개선을 위한 Distributional DQN 방법론 소개(C51, QR-DQN, IQN)
3) 정책의 다양성을 고려한 학습 방법론 소개(SVPG, Soft-QL)

[실습]
1) Distributional RL 방법론인 Implicit Quantile Network 구현 및 적용
2) Multi-modal 정책함수 학습방법론인 Soft-QL 구현 및 적용

Part 3. 다양한 환경에서의 강화학습 방법론 

Day8. Imitation Learning

실제 문제를 강화학습으로 모델링 하다보면 보상 함수를 모델링하기 어렵거나 비싼 경우가 있습니다. 보상함수가 없는 상황에서도 강화학습을 할 수 있는 imitation learning에 대해 알아봅니다. 또한 이러한 방법론들이 어떠한 문제에 적용될 수 있는지 알아봅니다.

[이론]
1) 보상함수를 찾는 역강화학습 방법론 소개 및 모방 학습의 소개
2_ 모방 학습 방법론들의 소개
– Generative Adversarial Imitation Learning(GAIL)
– Info-GAIL
– Variational Adversarial Imitation Learning(VAIL)

[실습]
1) GAIL 구현 및 적용
2) VAIL 구현 및 적용

Day9. Multi-agent RL

실제 문제에서는 모델링된 환경에 여러 에이전트가 있는 경우가 있습니다. 이를 위한 다중 에이전트 강화학습의 이론적 배경과 최근의 연구에 대해 알아봅니다.

[이론]
1) 다중 에이전트 강화학습의 이론적 기반인 게임 이론 소개
2) 알파고에 사용된 개념인 Monte-Carlo Tree Search(MCTS) 개념 소개
3) 다중 에이전트 강화학습을 위한 Regret 기반 방법론의 소개

[실습]
1) MCTS 구현 및 적용
2) Advantage-based Regret Minimization(ARM) 방법론 소개

9주 후, 당신은 .

eng-be-icon90-4
#DQN, REINFORCE, A3C 등의 강화학습의 베이스라인을 이해할 수 있습니다.
#기본적인 문제들에 대해 강화학습을 적용하여 풀 수 있습니다.
#자신의 업무나 프로젝트에 강화학습을 어떻게 적용할 지를 생각해 낼 수 있습니다.

수강 후기 .

강사님의 실습이 대단히 좋았습니다. 실제로 강화학습을 이해하고 활용하려는 분들에게 적합하다 느꼈습니다. 알고리즘이 세세하게 코드로 구현되어있고, 각 부분이 이론의 어떤부분과 합치하는지 설명해주셨습니다. 수식이 이해가 잘 안되더라도 알고리즘이 어떤 방식으로 작동하는지 명확하게 이해하는데 큰 도움이 되었습니다.

“강사님의 자질이 아주 뛰어나보입니다. 질문도 막힘없이 잘 설명해주시구요.”  – 3기 수강생 K님

“수업시간에 다루었던 코드가 현업에서 활용하게 되었을 때 도움이 많이 되었습니다.”  – 3기 수강생 Y님

” 지속적으로 강의자료를 갱신하시면서 컨텐츠를 충실하게 구성해주신 점이 좋았습니다.”  – 4기 수강생 K님

“대부분 수강생분들의 질문에 대해 납득가능한 답변을 주셨으며, 이론과 수식에 대한 일반론적인 묘사나 설명보단 최대한 이해가능한 형태의 설명을 해주시려는 점이 좋았습니다.”  – 4기 수강생 K님

“코드실습에서 저수준으로 구현된 코드를 수식 및 알고리즘에 대응해가며 설명해주시는 점이 좋았습니다.”  – 4기 수강생 E님

“전체과정 간 적어도 강화학습이라는 분야에서 최소한 반드시 알아야만하는 내용들은 모두 포함되었다고 생각합니다.”  – 4기 수강생 S님

강사 소개 .

IMG_4007

김성엽 강사님

서울대학교 산업공학과에서 다중 에이전트 강화학습을 연구하였습니다. 강화학습 연구들은 다양한 응용 가능성을 가지고 있지만 논문에 등장하는 난해한 수식들로 인해 진입 장벽이 비교적 높습니다. 본 강의에서는 논문을 이해하기 위해 꼭 필요한 수식들을 선별하여 그 수식들의 바탕에 깔려있는아이디어를 전달합니다. 또 이를 코드로 구현하는 과정에 집중하여 이후 새로운 강화학습 연구들이 공개되어도 이를 부담없이 읽을 수 있도록 하겠습니다.

[약력]

-서울대학교 산업공학과 석사 졸업, 최적화 전공(다중 에이전트 강화학습)
-서울대학교 산업공학과/ 수리과학부 학사 졸업

[강의 경험]

-2017-2018 서울대학교 최적화 원론(Convex Optimization) 강의 조교
-2018 패스트캠퍼스 Tensorflow로 시작하는 강화학습 입문 CAMP 1-3기 조교
-2018 패스트캠퍼스 데이터 사이언스 논문 세미나 5월/9월 강의

강화학습의 기초부터 최신 강화학습 알고리즘까지,

PyTorch로 시작하는 강화학습 CAMP

일    정 2019.04.20.~ 2019.06.22. | 총 9주
매주 토 오후 14:00 ~ 17:00
준비물 개인 노트북 사용 추천
(본인 PC에 맞는 개발 환경 설정 및 원활한 개별 실습을 위하여)
장    소 강남역 부근 패스트캠퍼스 강의장
문    의 이샘 매니저 : 02-518-4822 | help-ds@fastcampus.co.kr
메일로 문의 주실 경우 자세한 상담을 원하신다면 휴대폰 번호, 상담가능 시간을 남겨주세요:)

출시할인가 127만원(~3.28)(정가:150만원)

※ 할인가는 매주 목요일 자정에 변경됩니다.
※ 다음 기수 강의 정보가 궁금하다면? 출시알림을 신청하세요!
※ 카드 12개월 무이자 할부 가능!

수강 신청하기

강의장 안내