파이썬을 활용한 머신러닝 CAMP
기 간 2017. 9. 16 ~ 11. 25 (총 9주)
* 9 .30 / 10. 7은 추석 연휴로 휴강합니다.
일 정 토요일 10:00 – 13:00 (주 1회 3시간)
준비물 개인 노트북
장 소 패스트캠퍼스 신관 6층 C 강의실
(위치 지도 보기) 
문의사항 담당 매니저: 이샘 (02-518-4822)
help.camp.ds@fastcampus.co.kr

* 이번 기수는 조기마감 되었습니다. 출시알림을 신청해주시면, 다음 기수 모집 시 가장 먼저 알려드립니다. 감사합니다.

파이썬 코드를 직접 돌려보며
머신러닝을 배우고 싶으신가요?

중요한 건, 알고리즘을 온전히 이해하고, 적용하고, 결과를 해석하는 것!

9주만 투자하세요!

탄탄한 이론 학습풍부한 실습으로 구성된
[파이썬을 활용한 머신러닝 CAMP]와 함께라면
당신도 할 수 있습니다.

강의 강점

1
2
3

실습 예시

[ 남/여의 목소리 데이터를 활용한 의사결정 나무 모델링 ]

좀 더 구체적인 강의 내용이 궁금하신가요?

수강 후기

smallimgblog

안녕하세요, 저는 S사 생산기술연구소에서 근무하고 있는 오승열입니다. 주로 생산 설비 관련 S/W 개발을 담당하고 있습니다. 생산 설비에 사용되는 데이터를 S/W에서 스마트하게 활용할 수 있도록 연구하던 중에 본 강의를 수강하게 되었습니다. 머신러닝을 활용하여 문제를 해결하고 싶은데 시작하기가 겁이 나신다면 고민하지 마시고 수강하세요~ 강사님이 자신의 노하우를 녹여 구성하신 “머신러닝 완전정복 실습내용”을 따라가다 보면 저처럼 머신러닝을 시작할 수 있다는 자신감과 아이디어를 얻을 수 있을 것이라 생각합니다.

[ 파이썬을 활용한 머신러닝 CAMP 3기 수강생 한 줄 후기 ]

기초적인 프로그래밍 지식만 있어도 실무에 적용가능한 방법들을 배워갈 수 있는 강좌입니다.

A사 모바일 웹 개발자 K님

강의 만족도 96%

혼자 공부할 때보다 쉽게 기본 개념을 익힐 수 있고, 실제 사용법을 알 수 있었습니다.

H사 해외영엄팀 N님

강의 만족도 98%

강사님께서 머신러닝 관련 사전지식 및 연구 경험이 풍부하여 강의에 많은 도움이 됩니다.

대학원생 J님

강의 만족도 97%

수강 대상

파이썬은 다뤄봤는데 머신러닝에 대해 잘 모르시는 분들

머신러닝 공부해 봤는데 혼자서는 한계가 있다고 느끼시는 분들

파이썬이나 머신러닝은 잘 모르지만 머신러닝을 시작하고 싶으신 분들

머신러닝 구현을 위한 핵심 알고리즘에 맞춘 데이터 전처리, 결과의 해석, 적용의 과정을 모두 담은 8주 커리큘럼을 경험해보세요.

강의 진행 방식

curri

커리큘럼

주차 내용
1 머신러닝 개요 및 파이썬 실습
이론 - 머신러닝에 대한 소개와 이의 활용사례 및 이슈를 소개합니다.
- 이번 수업 실습을 위한 파이썬 환경 구성을 하고, 데이터 핸들링 및 머신러닝을 적용하기 위해 필요한 패키지들의 사용법을 익힙니다.
- 머신러닝의 개념과 우리가 이를 통해 실제 비즈니스 문제, 데이터마이닝 문제. 인공지능 문제를 어떻게 해결할 수 있는지에 대해 소개합니다.
※ 참고: 파이썬 환경은 Anaconda 4.4.0 (Python v3.6) 으로 구성할 예정입니다.
실습 - 데이터 핸들링을 위해 필수적으로 알아야하는 Python의 Numpy, Pandas, Matplotlib에 대한 실습­
- Python의 머신러닝 패키지인 scikit-learn에 대한 소개, Scikit-learn을 활용한 데이터 전처리 실습
2 선형회귀모델과 이의 확장 모델들
이론 - 회귀모델은 중고차 가격, 주가지수, 수요 등 수치형의 값을 예측하는 용도로 사용하는 모델입니다.
- 이 파트에서는 회귀모델 중 가장 기본이 되는 선형회귀모델 (linear regression) 에 대해 살펴보고, 이의 확장 모델들을 다룹니다.
실습 - 자전거 수요 예측을 위한 회귀모델
[Bike sharing demand]: https://www.kaggle.com/c/bike-sharing-demand

* 다중선형회귀모델 (Multiple linear regression) 에 대한 소개 및 학습 알고리즘
* 제약된 선형회귀모델로 널리 이용되는 Ridge, Lasso­
* 다항회귀모델 (Polynomial regression)
3 로지스틱회귀모델과 분류 모델의 평가
이론 - 분류모델은 회귀모델과는 다르게 범주를 분류하는 것을 목적으로 하며, 제품 품질상태 분류, 문서 카테고리 태깅, 물체 인식 등 다양한 도메인에서 활용되는 모델입니다
- 로지스틱회귀모델은 여러 분야에서 널리 사용하는 분류모델 중 하나로, 인공신경망, 딥러닝과도 밀접한 관련이 있는 모델입니다.
실습 - 타이타닉 탑승객의 분류
[Titanic: Machine learning from disaster]: https://www.kaggle.com/c/titanic

* 다중로지스틱회귀모델 (Multiple logistic regression) 에 대한 소개 및 학습 알고리즘
* 분류모델의 평가: 혼동행렬 (confusion matrix) 기반 분류모델 평가지표들, ROC curve 등.
4 k-최인접이웃 분류/회귀모델과 나이브 베이즈 분류기
이론 - 학습과정이 필요없는 k-최인접이웃(k-nearest neighbor) 분류/회귀모델과, 스팸 분류에서 좋은 성능을 보인 것으로 알려진 나이브 베이즈 분류모델(naive Bayes classifier)에 대하여 배웁니다.
- 예측 모델링과 머신러닝 모델 튜닝을 위한 학습 셋 / 검증(개발) 셋 / 테스트 셋 분리를 이해합니다.
실습 - 타이타닉 탑승객의 분류
[Titanic: Machine learning from disaster]: https://www.kaggle.com/c/titanic

* 다중로지스틱회귀모델 (Multiple logistic regression)에 대한 소개 및 학습 알고리즘
* 분류모델의 평가: 혼동행렬 (confusion matrix) 기반 분류모델 평가지표들, ROC curve 등
5 의사결정나무와 랜덤포레스트
이론 - 의사결정나무는 가장 직관적인 분류모델인 동시에 현재 머신러닝 분야에서 딥러닝과 더불어 널리 사용되고 있는 나무기반모델들(랜덤포레스트와 부스팅모델)의 기본이 되는 모델입니다.­
- 다수의 랜덤의사결정나무를 혼합하여 생성되는 랜덤포레스트(Random forest) 모델에 대해 이해합니다.
- 실제 머신러닝 모델을 활용할 때에는, 이 모델이 앞으로 새롭게 등장하는 데이터에 대해서도 좋은 성능을 유지하느냐가 매우 중요합니다. 이와 관련된, 머신러닝에서 매우 중요한 이론인 편향-분산 트레이드오프(Bias-variance tradeoff)에 대해 이해하고, 모델의 적합도에 대해 이해합니다.
실습 - 왜 유능한 인재가 일찍 퇴사하는가?
[Human Resources Analytics - Why are our best and most experienced employees leaving prematurely?]
https://www.kaggle.com/ludobenistant/hr-analytics/

* 의사결정나무에 대한 소개 및 학습 알고리즘
* 랜덤포레스트에 대한 소개 및 학습 알고리즘
* 편향-분산 트레이드오프
6 인공신경망 및 딥러닝 개요
이론 - 피드포워드 네트워크 (Feed-forward network) 는 가장 기본적인 인공신경망 모델 중 하나입니다. 피드포워드 네트워크 구조에 대해 이해하고 이의 학습하는 데에 필요한 경사하강법 (gradient descent) 과 역전파 (backpropagation) 방법에 대해 이해합니다.­
- 이를 기반으로 딥러닝 모델들을 간단하게 소개할 예정입니다.
실습 - 목소리 신호 데이터로 남/여 분류
[Gender Recognition by Voice]: https://www.kaggle.com/primaryobjects/voicegender

* 피드포워드 네트워크 (Feed-forward network) 에 대한 소개
* 인공신경망 학습을 위한 경사하강법과 역전파 방법
* 딥러닝 모델들에 대한 간단한 소개
7 SVM(Support Vector Machine), 교차 검증과 모델 튜닝
이론 - 서포트 벡터 머신 (Support vector machine: SVM) 은 딥 러닝 이전에 가장 많이 연구된 모델 중 하나로, 많은 데이터에서 좋은 성능이 나온 것으로 알려져 있습니다.
- 교차 검증 (cross-validation) 은 머신러닝 모델을 학습하는 전략 중 가장 많이 이용되는 방법입니다. 교차 검증은 모델의 (하이퍼)파라미터 튜닝에 유용하며, 모델의 편향성과 분산성을 확인할 수 있는 방법입니다.
실습 - 과거 사용 Kaggle 데이터로 다양한 모델링 실습 진행
* 선형 SVM과 커널 SVM에 대한 소개 및 학습
* 교차 검증과 모델 (하이퍼)파라미터 튜닝 전략
8 변수 엔지니어링과 군집모델
이론 - 서포트 벡터 머신 (Support vector machine: SVM) 은 딥 러닝 이전에 가장 많이 연구된 모델 중 하나로, 많은 데이터에서 좋은 성능이 나온 것으로 알려져 있습니다.
- 교차 검증 (cross-validation) 은 머신러닝 모델을 학습하는 전략 중 가장 많이 이용되는 방법입니다. 교차 검증은 모델의 (하이퍼)파라미터 튜닝에 유용하며, 모델의 편향성과 분산성을 확인할 수 있는 방법입니다.
실습 - 음식 영양정보
[Open Food FactsExplore - nutrition facts from foods around the world]: https://www.kaggle.com/openfoodfacts/world-food-facts

* 변수 엔지니어링 방법들 소개: 변수 변환, 변수 부분집합 선택, 변수 추출
* 주성분분석 (Principal component analysis: PCA) 와 특이값분해 (Singular value decomposition: SVD), t-SNE
* k-means clustering, hierarchical clustering
9 앙상블과 Boosting Tree Model
이론 - 나의 문제를 굳이 하나의 모델로 풀 필요가 있을까요? 앙상블 (ensemble) 은 여러 모델을 이용하여 좀 더 좋은 결과를 이끌어내는 방법입니다. 현재 앙상블은 여러 머신러닝 competition 대회에서 널리 이용되고 있습니다.
- 이를 기반으로 현재 Kaggle에서 가장 널리 사용되는 모델인 부스팅모델을 소개합니다.
실습 - 유방암 진단
[Breast Cancer Wisconsin (Diagnostic) Data SetPredict whether the cancer is benign or malignant]: https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

* 앙상블 전략: Voting, Bagging, Boosting, Stacking

교수 소개

kth

고태훈님

고태훈님은 서울대학교 산업공학과 데이터마이닝센터에서 박사학위를 취득하였으며, 현재 서울대병원 연구조교수로 재직 중입니다. 삼성전자, LG전자, 현대자동차, 현대중공업, 두산인프라코어 등 제조업 분야 기업체와의 연구 과제에 참여하였으며, 이외에 현대카드, ssg.com, 서울대병원 등 다양한 기관/기업체와의 연구 과제를 수행하였습니다. 현재 머신러닝과 딥러닝, 그리고 자연어처리 및 텍스트마이닝에 대한 연구를 진행하고 있습니다. 또한 실제 비즈니스에서 적용 가능한 데이터마이닝 프로세스, 그리고 이에 적용 가능한 기법을 찾아서 연결하는 에플리케이션에 대한 연구에도 많은 관심을 갖고 있습니다

조교 소개

boy

조교 신훈식

신훈식 조교님은 현재 서울대학교 산업공학과에서 박사과정 중에 있습니다. 원활한 강의 진행을 위해 강사님을 도와 수강생분들의 학습을 도와주실 예정입니다.

자주 묻는 질문

Q. 수업 전, 머신러닝에 도움이 될 만한 자료가 있나요?

A.  네, 본 강의가 머신러닝을 시작하고 싶은 분들 또는 머신러닝을 혼자 공부하면서 어려움을 겪는 분들을 위한 강의이기 때문에 [밑바닥부터 시작하는 데이터과학 – 데이터 분석을 위한 파이썬 프로그래밍과 수학통계 기초]도서를 미리 참고하시면 수업 이해에 도움이 많이 되실겁니다. 데이터 과학에 필요한 파이썬 프로그래밍과 데이터 과학분야에서 꼭 알아야 할 개념에 대한 내용이 담겨있습니다.

book

Q. 파이썬에 대해서 1도 모르는데 수강이 가능할까요?

A. 아니요, Python의 기초 문법 등에 대해서는 본 캠프에서 다루지 않습니다. Codeacademy의 Python 과정을 확인하시고, 해당 강좌에서 다루는 내용을 충분히 이해하고 계실 경우에만 본 캠프를 수강해주세요.

수강료

일반 등록가

160만 원

* 이번 기수는 조기마감되었습니다. 다음 기수 모집 시 가장 먼저 알려드립니다. 감사합니다.