진짜 데이터로 실감나게 익히는 머신러닝

파이썬을 활용한
Kaggle 프로젝트 CAMP

기 간 일 정 장 소 준비물
2018년 6월 21일 ~ 7월 12일
(주 1회, 총 4회)
목요일 저녁 7시 30분 ~ 10시 30분
(회 당 3시간, 총 12시간)
패스트캠퍼스 강남 본원 개인 노트북

Kaggle이란?

전세계 데이터 과학자들이 특정 문제의 해결법을 놓고 경쟁을 벌이는 온라인 플랫폼으로, 분석가들의 링이자 놀이터라고 불립니다.

Kaggle Competition

1

데이터셋을 보유한 기업에서
특정 문제를 해결하고자,
주제/상금/기간을 걸고
Competitions을 만듭니다.

2

데이터셋은 누구나
접근할 수 있으며,
분석 결과에 대한
랭킹이 보여집니다.

3

가장 완전하게
문제를 해결한
사람(랭킹 1위)에게는
상금이 주어집니다.

왜 Kaggle로 머신러닝을 공부할까?

전처리부터 알고리즘 적용, 최적화까지 데이터 분석의 전 과정을 온전히 이해하기 위해선, 실제 데이터로 직접 분석 과정을 경험해보는 것이 필수적입니다. 하지만, 이를 위한 데이터를 구하는 일은 쉽지 않습니다.

Kaggle은 누구나 여러 도메인의 실제 데이터를 접해볼 수 있기 때문에 다양한 실전 분석 경험을 쌓기 위한 최적의 플랫폼입니다.

Kaggle에서 제공되는 데이터셋 예시

실전을 방불케하는 최고의 머신러닝 강의

직접 해보지 않으면 제대로 알 수 없는 머신러닝. 본 강의에서 2개의 Kaggle 프로젝트와 최종 개인 프로젝트를 통해 실무에 필요한 진짜 분석 역량을 키우세요! 매 주차 진행되는 프로젝트마다 풍부한 경험을 가진 현업 전문가 강사님이 1:1 피드백을 제공합니다.

많은 실무자들이 머신러닝을 공부하고나서 실무에 적용할 때의 가장 큰 어려움은 “어떻게 시작해야될지 모르겠다”라는 막연함입니다. 주로 잘 정리된 실습용 예제 데이터로 머신러닝을 공부해봤지, 실무에서 맞닥뜨리게 되는 대다수의 정제되지 않은 데이터에 직접 머신러닝을 적용해본 경험은 없기 때문입니다. 이런 분들에게 가장 필요한 것은 정제되지 않은 데이터를 처음부터 끝까지 “실전처럼” 직접 분석해보는 경험입니다. 이런 경험이 있어야만, 데이터 전처리는 어떻게 할지, 어떤 피처를 추출할지, 머신러닝 알고리즘은 어떻게 적용할지, 분석결과로부터 성능 향상을 위한 모델 튜닝은 어떻게 할지 등에 대해 고민해볼 수 있습니다. 그리고 이런 고민을 통해 실무에서도 두려움없이 데이터 분석을 수행할 수 있는 능력이 길러지게 됩니다. 4주만 투자해보세요 ! 여러분도 실무에 머신러닝을 적용할 수 있는 전문가가 될 수 있습니다 !

– 담당 매니저 강호준

수강 대상

본 강의는 프로젝트 중심으로 진행되어, 아래 사전지식이 있으셔야 원활한 수강이 가능합니다.
1) 파이썬의 기본 문법 및 가상환경(conda, virtualenv)과 pip 사용법을 알고 있다.
2) pandas, numpy, matplolib의 기초적인 사용법을 알고 있다.

머신러닝 알고리즘
실무에 반드시 적용
하고 싶으신 분

데이터 분석 실무자로서, 업무에 머신러닝 알고리즘을 적용하고 싶으신 분이라면 머신러닝 알고리즘을 활용한 다양한 프로젝트를 진행한 경험이 있으신 실무 전문가 강사님의 노하우를 전수 받으세요.

머신러닝 학습/적용 과정에서
전문가의 조언필요하신 분

본 캠프는 이론보다 프로젝트 진행에 초점이 맞춰져 있습니다. 따라서, 본인의 프로젝트에 대해 실무 전문가와 수준 높은 질문/답변이 가능합니다. 구글도 해결해주지 못 했던 질문의 답찾아나가는 시간을 만들어드리겠습니다

강사 소개

강사사진_허신영

허신영 강사님

현재 라인웍스(Linewalks)라는 스타트업에서 의료 데이터를 분석하고 머신러닝을 적용하는 일을 하고 있습니다. Seoul AI Meetup에서 정기적인 세미나를 조직하고 있습니다. 이 강의에서는 다양한 kaggle 문제를 다루며 전처리부터 모델 적용과 평가까지 살펴보려 합니다.

[약력]

– 주식회사 라인웍스 선임연구원
– Seoul AI Meetup 공동 조직자
– 한국전자통신연구원 연구원
– 숙명여대 컴퓨터과학 학사/석사

[Kaggle 프로젝트 관련 경력]

– 의료 데이터 분석 전문가
– Spark 등을 활용한 데이터 엔지니어링부터 머신러닝을 적용한 분석까지 전문성을 두루 갖춘 “진짜” 데이터사이언티스트
– 상품 가격, 상품 판매량 예측과 같은 일반적인 분야부터 암 분류와 같은 전문영역에서의 Kaggle 대회 참여 경력(상위 20%)

프로젝트로 꽉찬 4주 커리큘럼

주차 내용
1주차 캐글과 머신러닝을 위한 준비
캐글에 필요한 기초 지식과 파이썬 라이브러리 사용법을 알아봅니다.
이론 - 캐글 대회 소개
- 머신러닝 개요와 적용 사례
실습 - 프로그래밍 환경을 위한 캐글 커널 사용하기
- Pandas와 Numpy의 주요 기능 사용해보기
- 탐색적 데이터 분석(단변량, 이변량, 다변량 탐색, 시각화)
개인 프로젝트 - 개인프로젝트 오리엔테이션(문제정의, 탐색적 데이터 분석, 모델링)
- 데이터셋 선정하기
(https://www.kaggle.com/zynicide/wine-reviews, https://www.kaggle.com/rounakbanik/the-movies-dataset)
- 문제정의 및 발표
과제 - 1주차 수업 내용을 바탕으로 선택한 데이터셋에 탐색적 데이터 분석 적용
2주차 캐글 1: Mercari 상품 가격 예측 문제
(https://www.kaggle.com/c/mercari-price-suggestion-challenge)
목표 : 회귀 모델을 이용하여 상품 설명과 같은 부가 정보를 이용하여 상품 가격을 예측하는 문제를 풀어봅니다.
이론 - 데이터 전처리, 정제 시 유의점
- 다중선형회귀 모델 (Lasso, Ridge 등)과 회귀 모델의 평가
- 오버피팅과 교차검증
실습 - 텍스트 데이터의 전처리와 피처 엔지니어링 실습
- 교차검증 실습
개인 프로젝트 - 1주차 수업 내용을 바탕으로 선택한 데이터셋에 탐색적 데이터 분석을 적용하기
- 데이터셋별로 그룹을 나눠서 탐색적 데이터 분석 결과 공유
과제 2주차 수업 내용을 바탕으로 선택한 데이터셋에 회귀 모델과 교차 검증 적용
3주차 캐글 2: 유전자와 변이로 암 분류 문제
(https://www.kaggle.com/c/msk-redefining-cancer-treatment)
목표 : 앙상블 모델을 활용하여 분류 모델을 만들어봅니다.
이론 - 불균형, 다중 클래스 데이터셋 학습 시 유의점
- 앙상블 모델 소개(부스팅, 배깅, 스태킹)
실습 - 피처 변환부터 학습까지 파이프라인 만들기
- 앙상블 모델 훈련하고 평가하기
- 불균형 데이터셋 훈련 방법 실습하기
개인 프로젝트 - 2주차 수업 내용을 바탕으로 텍스트 데이터 전처리와 회귀 모델 적용하기
- 데이터셋별로 그룹을 나눠서 텍스트 데이터 전처리와 회귀 모델링 결과 공유
과제 3주차 수업 내용을 바탕으로 선택한 데이터셋에 분류 모델과 교차 검증 적용
4주차 개인 프로젝트 발표
목표 : 1주~3주차 총정리 및 개인프로젝트 발표
개인 프로젝트 - 데이터셋별로 그룹을 나눠서 분류 모델과 교차 검증 결과 공유
- 3회차까지 진행한 개인 프로젝트에 대한 종합발표
- 개인별 프로젝트 결과에 대한 피드백

강의 실습 예시

강의에서 배워볼 불균형 데이터셋 문제

■ difference of the number of samples in the different classes
■ e.g. effect of training a linear SVM classifier with different level of class balancing
– decision function of the linear SVM is highly impacted
– with a greater imbalanced ratio, the decision function favor the majority class

자주 묻는 질문

Q. 파이썬에 익숙하지 않은데 수강해도 되나요?

 A. 아니요, 본 캠프는 머신러닝 알고리즘을 실무에 적용하기를 원하는 분을 위한 강의입니다. 따라서, Python의 기초 문법 등에 대해서는 본 캠프에서 다루지 않습니다.

Q. 머신러닝 기초 알고리즘을 알고 있어야 수강이 가능한가요?

 A. 네, 본 캠프는 머신러닝 알고리즘에 대해 기본 지식을 가지고 있으나, 실무 경험이 부족해 알고리즘 활용에 어려움을 겪는 분들을 위한 프로젝트형 강의입니다. 따라서, 머신러닝 알고리즘에 대해 선행학습을 하거나, [ 파이썬을 활용한 머신러닝 CAMP ]를 먼저 수강하신 후 본 캠프를 들으시는 것을 추천합니다.

수강료 안내

강의 등록가

70만 원

# 프로젝트형 과정 특성상, 수강인원은 20명 이내로 제한되며 상황에 따라, 사전 안내없이 모집 마감될 수 있습니다.