강화학습을 활용한
감정분석 연구방법론
CAMP.

Laptop Img 연구과정 A-Z 경험 Setting Img 강의+토론식 9주 과정 Mic Img 현업 연구원의 1:1 피드백
  • 기간

    2018년 11월 24일
    - 2019년 1월 26일
    총 9주
    *휴강 : 12월 29일

  • 일정

    매주 토요일
    10:00 -13:00
    매주 1회, 회당 3시간
    총 9회, 총 27시간

  • 장소

    패스트캠퍼스 강남강의장

  • 문의

    강호준 매니저
    02-517-0697
    help-ds
    @fastcampus.co.kr

강의 목표.

현업 연구자와 연구 과정의 A-Z를 함께 진행하면서, 대학원에 가지않고도 실무에 필요한 연구 경험을 기르고, 최신 강화학습 기법과 연구 트렌드 속 인사이트를 얻는 것.

강의 개요.

연구 주제

강화학습을 이용한 감정분석 

주로 감정분석 문제는 딥러닝을 적용하면 된다는 의견이 지배적입니다. 최근들어 감정분석 문제를 해결하기 위한 다양한 시도 중 강화학습을 이용한 해결방법이 제안되고 있지만 일부 “영어”에 대한 연구만 진행되고(참고 : https://arxiv.org/pdf/1801.02243.pdf) “한국어” 감정분석 관련하여 강화학습을 활용한 사례는 없습니다. 이 주제를 연구하고 싶다고 해도, 실무자 입장에서는 따로 대학원을 다니기도 부담스럽고, 게다가 강화학습 분야 자체가 수식이 굉장히 많기 때문에 혼자석 독학하기는 어려운 점이 많습니다.

본 강의에서는 한국어 텍스트 속 감정 분석 문제해결에 강화학습을 적용하는 연구를 현업 연구자와 함께 진행합니다. 강화학습 분야의 특성상 실무에 적용되기보다는 아직까지 “연구 단계”에서 발전되고 있기때문에 9주간 연구방법론 측면에서 접근하여, 직접 연구의 A-Z를 경험하는 것을 목표로 합니다. 또한, 이 과정을 통해 도출된 “연구 결과물”을 함께 공유하며 인사이트를 가져가는 감으로써 강화학습 분야에 대한 앞선 인사이트를 기를 수 있을 것입니다.

연구 주제 참고문헌 (클릭하면 펼쳐집니다.)

1) Kuvayev, L., & Sutton, R. S. (1996). Model-based reinforcement learning with an approximate, learned model. In in Proceedings of the Ninth Yale Workshop on Adaptive and Learning Systems.
2) Lapan, M., (2018) Deep Reinforcement Learning Hands-On, Packt Publishing
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., … Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529–533.
3) Peng, B., Li, X., Gao, J., Liu, J., & Wong, K.-F. (2018). Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning, ACL.
4) Stooke, A., & Abbeel, P. (2018). Accelerated Methods for Deep Reinforcement Learning. ArXiv:1803.02811 [Cs].
5 Sutton, R. S. (1988). Learning to predict by the methods of temporal differences. Machine Learning, 3(1), 9–44.
6) Sutton, R. S., & Barto, A. G. (1990). Time-derivative models of Pavlovian reinforcement. In M. Gabriel & J. Moore (Eds.), Learning and Computational Neuroscience: Foundations of Adaptive Networks (pp. 497–537). MIT Press, Cambridge, MA.
7) Sutton, R. S., & Barto, A. G. (1998). Reinforcement learning: An introduction (Vol. 1). MIT press Cambridge.
Sutton, R. S., McAllester, D. A., Singh, S. P., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. In Advances in neural information processing systems (pp. 1057–1063).
Sutton, R. S., Szepesvári, C., Geramifard, A., & Bowling, M. P. (2012). Dyna-style planning with linear function approximation and prioritized sweeping. arXiv preprint arXiv:1206.3285.
8) Szepesvári, C. (2010). Algorithms for reinforcement learning. Synthesis lectures on artificial intelligence and machine learning, 4(1), 1-103.
9) Watkins, C. J., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292.
10) Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256.(

# 매 강의는 이론 강의와 실습으로 구성됩니다.
# 중식은 패스트캠퍼스에서 제공합니다.

강의 특징.

111_c

연구 전과정 압축적 경험

실무자의 경우 연구 경험이 없기 때문에, 어떻게 “문제 정의”를 하고 연구를 시작해야 하는지, “문헌 고찰”이 왜 중요하고 연구에 있어서 어떤 역할을 하는지 등 연구의 뼈대가 되는 과정들에 대한 이해가 부족하며 이 때문에 연구를 시작조차 못하는 경우가 많습니다. 본 강의에서는 현업 연구자가 연구 과정의 A-Z까지 압축적으로 가르쳐드립니다.

2222_c

자연어 처리 분야에 대한 전문성 확장

본 강의는 자연어 처리 중 하나인 “감정분석” 분야에 강화학습을  적용하는 방법을 가르쳐 드립니다. 이를 위해, 강화학습의 핵심과  감정분석 방법에 대해 핵심을 정리하고, 문제를 해결하기 위한 실험 방법을 계획하고 직접 구현해봅니다. 마지막 파트에서는 구현 결과를 바탕으로 토론식 세미나를 진행하여, 실무에서의 실현 가능성과 개선 방향에 대해 구체적으로 논의합니다.

333_c

강화학습 분야 연구트렌드에 대한 인사이트 획득

본 강의를 수강하고나면, 연구 과정 전반에 대해 이해할 수 있게 됩니다. 이를 바탕으로 본인이 해결하고자 하는 문제에 강화학습 연구를 적용할 수 있는 역량을 기르게 되며, 업무에 필요한 논문을 찾거나, 관련 세미나의 참여할 수 있는 기본기를 기를 수 있게 됩니다.

커리큘럼.

1주차. 강화학습 기초 (1)

마르코프 결정 과정을 포함한 강화학습의 기본 개념을 이해합니다.

– 강화학습 기본 개념 이해
– 마르코프 결정 과정
– 다이내믹 프로그래밍, 몬테카를로 학습
– 수강생 간단한 자기소개

참고문헌
– Sutton & Barto (2018, 2nd edition) Chapters 1~5
– Towards a Modern Theory of Adaptive Networks (Sutton & Barto, 1981)
– Algorithms for Reinforcement Learning (Szepesvári, 2009) Appendix 1~2.

2주차. 강화학습 기초 (2)

Q-learning, Deep Reinforcment Learning 등 강화학습의 주요 학습 방법론을 이해한다.

– Temporal-difference 학습
– Sarsa 학습 모형
– Q-learning 학습 모형
– Policy gradient 학습 모형
– Function Approximation 접근법
– Deep Reinforcement Learning (심층 강화학습)

실습
– 강화학습의 여러 환경 문제 풀기 실습 (e.g., Blackjack, Mountain-car, Racetrack 등)

참고문헌
– Sutton & Barto (2018, 2nd edition) Chapters 6~8
– Time-derivative models of Pavlovian reinforcement (Sutton & Barto, 1990)
– Q-learning (Watkins and Dayan, 1992)
– Simple statistical gradient-following algorithms for connectionist reinforcement learning (Williams, 1992)
– Policy gradient methods for reinforcement learning with function approximation (Sutton et al., 2000)
– Human-level control through deep reinforcement learning (Minih et al., 2015)

3주차. 심층 강화학습 활용

Deep Q-Network 모형을 강화학습 문제에 활용하는 방법을 연습해봅니다.

– DQN 소개
– Pytorch 소개

 

실습
– 심층 강화학습(DQN 등) 코드 리뷰 및 구현 실습

참고문헌
– Deep Reinforcement Learning Hands-On (Lapan, 2018)

4주차. 강화학습 관련 논의 및 토론

수강생들의 관심 및 연구분야에 대해 소개하고 3주차까지의 강의내용을 바탕으로 한 강화학습 관련 궁금증에 대해 토론해보는 시간을 갖습니다.

– 강화학습 응용 케이스 개괄적 소개
– 수강생들 자기 업무 혹은 관심분야 소개하기
– 강화학습 관련 의문점 위주 토론

참고문헌
– Sutton & Barto (2018, 2nd edition) Chapters 1~8
– Towards a Modern Theory of Adaptive Networks (Sutton & Barto, 1981)
– Algorithms for Reinforcement Learning (Szepesvári, 2009) Appendix 1~2.
– Time-derivative models of Pavlovian reinforcement (Sutton & Barto, 1990)
– Q-learning (Watkins and Dayan, 1992)
– Simple statistical gradient-following algorithms for connectionist reinforcement learning (Williams, 1992)
– Policy gradient methods for reinforcement learning with function approximation (Sutton et al., 2000)
– Human-level control through deep reinforcement learning (Minih et al., 2015)
– Deep Reinforcement Learning Hands-On (Lapan, 2018)

5주차. 감정분석과 모형기반 강화학습

감정분석과 모형기반 강화학습의 개념을 이해합니다.

– 감정분석이란?
– 모형기반 강화학습
– 사례분석: Deep Dyna-Q model

참고문헌
– Sutton & Barto (2018, 2nd edition) Chapter 9
– Kuvayev, L., & Sutton, R. S. (1996). Model-based reinforcement learning with an approximate, learned modelㅈ
– Sutton et al. (2012). Dyna-style planning with linear function approximation and prioritized sweeping
– Peng et al., (2018) Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning

6주차. 문제 정의, 학습 모형 설계, 문헌 조사

강화학습을 감정분석에 도입하는 문제를 어떻게 정의하는지 살펴보고, 이와 관련된 문헌 조사와 학습 모형 설계의 과정을 배워봅니다.

– 모형기반 강화학습을 통한 감정분석 문제 정의
– 관련 문헌 내용 요약
– 모형기반 강화학습 방법론에 따른 학습 모형 설계

7주차. 수강생들의 연구 관련 문제에 대한 소그룹 토론

수강생별로 강화학습을 자신의 목적에 맞게 어떻게 적용할지에 대해 논의해보는 시간을 갖습니다.

– 수강생들의 관심문제에 따라 소그룹으로 나눠 각자 관심문제를 정의한다.
– 각자의 관심주제에 알맞은 강화학습 모형을 논의한다.
– 연구 방법 및 구현 방법을 논의한다.

8주차. 실험 방법론 및 구현

강화학습 문제를 풀기 위한 구체적인 실험 방법을 세우고 구현하는 방법에 대해 연구해봅니다.

– 실험 방법 계획하기
– 구현 방법 선택하기(딥러닝 학습 프레임워크 및 클라우드 컴퓨팅 환경 선택)
– DQN 기반 강화학습 에이전트 코딩

9주차. 실험 결과, 분석 및 결론 도출

8주차에 수행한 실험 결과에 대해 분석해보고 결론을 도출하여 논문에 사용할 주요 논점들을 익혀봅니다.

– 실험결과 분석 및 시각화
– 실험결과 해석과 기존 연구와의 차별점 인식하기
– 논문작성에 활용할 주요 논점과 근거 정리 및 목차 구성하기

추천 대상.

본 강의 주제(강화학습을 활용한 감정분석)에 관심을 가지고 있는
– 실무자로서 연구경험을 필요로 하는 개발자
– 대학원 과정을 압축적으로 경험하고 싶은 실무자

연구자 소개.

kys

연구자 김영삼

저는 현재 서울대학교 언어학과에서 전산언어학 분야 강사로 재직중입니다. 서울대학교에서 강화학습을 이용한 자연어 처리를 주제로 한 연구로 박사과정을 마쳤으며, 앞으로도 강화학습을 이용한 다양한 자연어 처리 기술을 개발할 계획을 갖고 연구하고 있습니다.

[ 약력 ]

– 현 서울대학교 언어학과 강사 재직 중
– 서울대학교 자연어처리 전공으로 공학박사 취득
– 국제학회(IJC-NLP) 및 여러 국내/국제학술지 논문 게재 경험
– Naver Tech-talk “강화학습의 자연어 처리 활용문제”

수강료
안  내.

일반 등록가 : 80만 원

※ 할인가는 매주 목요일 자정에 변경됩니다.
※ 카드 12개월 무이자 할부 가능!

출시알림 신청하기

강의 장소.

일반 등록가 : 80만 원

※ 할인가는 매주 목요일 자정에 변경됩니다.
※ 카드 12개월 무이자 할부 가능!

출시알림 신청하기