자연어처리를 위한 머신러닝 CAMP

이번 기수는 모집이 마감되었습니다.
출시알림을 신청해주시면,
특별한 혜택과 함께 가장 먼저
다음 기수 모집 소식을 알려드리겠습니다. 감사합니다.

강의목표.

1. 텍스트 분석을 할 때 겪는 가장 현실적인 문제인 ‘노이즈 핸들링’의 해결 방법을 알 수 있습니다.
2. 자연어 처리에 적용하기 위한 머신러닝 알고리즘에 담긴 원리를 이해 할 수 있습니다.
3. 자연어 처리 모델을 스스로 만들어 낼 수 있는 역량을 강화합니다.

자연어 처리를 위한 머신러닝을 배워야 하는 이유.

1. 지저분하고 정제되지 않은 비정형 데이터 처리 해결

: 한글의 경우, 띄어쓰기가 잘 되어 있으면 문장에서 단어를 구분하는 토크나이징이 쉬워집니다.

예를들어,

– 단어를잘인식할수있다면토크나이징도쉽게할수있습니다. (띄어쓰기 X)
– 단어를 잘 인식할 수 있다면 토크나이징도 쉽게 할 수 있습니다. (띄어쓰기 O)

2. 텍스트 데이터 분석 준비 시간이 짧아집니다.

: 신조어, 전문용어를 사용자 사전에 추가하는 ‘노가다’를 줄이고, 사용자 생성 과정을 데이터 기반으로 추출하여 최대한 자동화 할 수 있습니다.

텍스트 데이터 분석 준비가 아닌,
텍스트 데이터 분석 자체에 더 집중할 수 있습니다.

강의 특징

한글 텍스트 분석에 딥러닝을 적용하기 위한 핵심 이론의 정리

수작업 없이 사전을 만들 수 있는 단어 추출과 토크나이저, 데이터를 깔끔하게 정리하기 위한 띄어쓰기 및 오탈자 교정, WORD EMBEDDING을 응용한 텍스트 분석 등 한글 텍스트 분석에 딥러닝을 적용하기 위한 핵심 이론을 정리해 드립니다.

실무 분석과 강의 경험이 풍부한 강사님의 데이터 전처리/분석 노하우

PYCON KOREA 2017에서 ‘노가다 없는 텍스트 분석을 위한 한국어 NLP’라는 주제로 발표를 진행하시고, 서울대학교 데이터마이닝 연구실에서 한국어 자연어 처리에 관한 연구를 진행하고 계신 김현중 강사님의 풍부한 텍스트 분석 노하우를 배울 수 있습니다.

머신러닝 알고리즘의 응용을 통해 데이터 특성에 맞는 알고리즘 개발

본 강의에서는 이미 개발된 라이브러리를 활용한 텍스트 분석 뿐만 아니라, 머신러닝 알고리즘의 응용을 통해 데이터 특성에 맞는 단어 추출, 명사 추출, 띄어쓰기, 키워드 추출 등의 알고리즘을 개발하는 것을 목표로 합니다.

이미 개발된 라이브러리를 활용한 텍스트 분석 뿐만 아니라,
머신러닝 알고리즘의 응용을 통해
데이터 특성에 맞는 단어 추출, 명사 추출, 띄어쓰기, 키워드 추출 등의
알고리즘을 개발하는 것을 목표로 합니다.

커리큘럼

1주차

강의 내용 소개 및 텍스트 마이닝 프레임워크: 텍스트 마이닝 기본 요소들의 정의와 document classification의 핵심 요소를 살펴봅니다. - KoNLPy를 이용하여 문서 집합을 토크나이징합니다.
- 텍스트 분석 시 발생하는 '미등록단어' 문제를 알아봅니다.
- Bag-of-Words Model과 n-gram을 알아봅니다.
- Document Classification에 대표적으로 이용되는 Logistic Regression에 대하여 알아봅니다.
- KoNLPy와 Logistic Regression을 이용하여 영화평 분류기를 만들어 봅니다.

2-3주차

한국어 자연어 처리 모듈 개발: 지도학습과 비지도학습으로 품사 판별기와 형태소 분석기를 만듭니다. - 사전 구축 및 비지도학습 기반 품사 판별기/ 형태소 분석기
> 미등록단어 문제를 해결하기 위한 비지도학습 기반 단어 추출 방법과 토크나이저를 알아봅니다.
> 통계 기반으로 단어의 품사(특히 명사)를 추정하는 방법을 살펴보고, 이를 이용하여 학습 데이터에 존재하지 않는 단어/품사 사전을 구축합니다.
> 구축된 사전을 이용하여 사전 기반 자연어 처리 모듈을 만듭니다.

- 학습 말뭉치 기법 지도학습 품사 판별기/ 형태소 분석기
> 자연어 처리를 위하여 이용되던 HMM(Hidden Markov Model)을 알아봅니다.

- HMM을 이용한 지도학습 기반 자연어 처리 모듈을 만듭니다.

키워드 및 연관어 분석: 데이터를 기반으로 수행되는 키워드와 연관어를 추출합니다. - 연관성을 수치화 하는 PMI(Pointwise Mutual Information)를 알아보고, 이를 이용하여 연관어/ 키워드를 추출합니다.
- Logistic Regression에 L1 Regularization을 추가하여 연관어/ 키워드를 추출합니다.

4주차

Document Classification: 분류 모델(classifiers)을 알아보고, 텍스트 데이터에 적합한 분류기와 그 이유를 알아봅니다. - Feed-forward Neural Network, SVM(Support Vector Machine), Decision Tree, Naive Bayes의 작동 원리를 알아봅니다.

Sequential Labeling을 위한 CRF(Conditional Random Field) - CRF의 작동 원리와 함께, CRF와 Logistic Regression의 관계를 살펴봅니다.
- CRF를 이용하여 띄어쓰기 교정기를 만듭니다.
- CRF를 이용하여 HMM보다 성능이 좋은 한국어 자연어 처리 모듈을 만듭니다.
- CRF를 이용하여 NER(Named Entity Recognition)을 수행합니다.

5주차

Word/ Document Embedding: 단어와 문서를 표현하는 방식인 임베딩에 대하여 알아봅니다. - 대표적인 Word Embedding 방법인 Word2Vec, Glove, FastText의 원리 및 공통점/ 차이점을 알아봅니다.
- 대표적인 Document Embedding 방법인 Doc2Vec의 원리를 알아봅니다.

Embedding for Visualization: 고차원 벡터를 시각화하기 위한 임베딩 방법에 대하여 알아봅니다. - 시각화를 위하여 이용되는 다음의 알고리즘의 원리 및 공통점/ 차이점과 함께, Word/ Document Embedding 시각화에 적합한 알고리즘도 알아봅니다.
> MDS(Multi-Dimensional Scaling)
> PCA(Principal Component Analysis)/ kPCA(kernel-PCA)
> LLE(Locally Linear Embedding)
> ISOMAP
> t-SNE(t-Stochastic Neighbor Embedding)

6주차

Topic Modeling: 문서 집합으로부터 숨겨진 토픽을 학습하는 토픽 모델링에 대하여 알아봅니다. - LSI(Latent Semantic Indexing), pLSI(Probabilistic LSI), LDA(Latent Dirichlet Allocation)으로의 토픽 모델링 발전 과정을 알아봅니다.
- pyLDAvis를 이용한 토픽 모델링 시각화 방법과 토픽 레이블링 방법을 알아봅니다.
- 토픽 모델링에 이용될 수 있는 다른 방법론인 Sparse Coding, NMF(Non-negative Matric Factorization)에 대해서도 알아봅니다.

7주차

Document Clustering: 비슷한 문서를 하나의 집합으로 묶는 문서 군집화 방법들을 알아봅니다. - (Spherical) k-means, Hierarchical Clustering과 그 외 문서 군집화 방법들의 특징을 알아봅니다.
- k-means가 왜 다른 알고리즘보다 문서 군집화에 적합한지 살펴봅니다.
- k-means를 효율적으로 학습하는 방법과 데이터 기반으로 군집 레이블링 하는 방법을 살펴봅니다.

Vector Indexing: 벡터로 표현된 대량의 데이터로부터 유사한 벡터를 빠르게 찾는 방법을 알아봅니다. - Random Projection을 이용하는 LSH(Locality Sensitive Hashing)의 원리를 알아봅니다.
- Sparse Representation으로 표현되는 문서 검색을 위한 Inverted Index(역 색인)를 알아봅니다.

8주차

String Distance: 글자열의 형태적 유사성 척도인 String Distance에 대하여 알아봅니다. - Levenshtein (Edit) Distance의 원리를 알아보고, 한국어 오탈자 교정에 적합하도록 이를 변형합니다.
-기타 String Distance Metrics에 대해서도 알아봅니다.
- Inverted Index를 이용하여 빠르게 Levenshtein Distance를 계산하는 오탈자 교정기를 만듭니다.

Graph Ranking/ Similatiry: 텍스트 데이터를 그래프로 표현하는 방법에 대하여 알아봅니다. - 키워드/ 핵심 문장 주출을 위한 Graph Ranking 알고리즘인 PageRank, HITS를 알아봅니다.
- Graph Ranking 알고리즘을 이용하여 단어를 추출하는 TextRank, KR-WordRank를 살펴봅니다.
- 의미적으로 비슷한 단어/ 문서를 검색할 수 있는 Graph Similarity 방법론인 SimRank, Random Walk with Restart를 알아봅니다.

9주차

PyTorch - Deep Learning Modeling을 위한 PyTorch의 기본 요소들을 알아보고, Classifier 및 Regressor를 만들어 봅니다.

CNN(Convolutional Neural Network) - CNN 모델의 원리에 대하여 살펴봅니다.
- NLP를 위한 대표적인 CNN 모델인 Word-level CNN과 Character-level CNN을 알아봅니다.

10주차

RNN(Recurrent Neural Network) - RNN 모델의 원리에 대하여 살펴봅니다.
- NLP를 위한 RNN의 발전 모델인 LSTM, GRU, Attention을 살펴봅니다.
- 최근의 자연어 처리 연구 동향을 살펴봅니다.

강의에 대한 전반적인 소개를 한 눈에 보고 싶다면? 교육 과정 소개서를 확인해주세요!

* 본 소개서는 회사 제출용으로도 사용 가능합니다.

교육과정 소개서 다운받기

강의 자료 예시

강사 소개

김현중 강사님

머신러닝이 어렵다고 생각하셨던 분들도 머신러닝의 원리를 깨닫고, 그에 따른 ‘로직’이 바로 선다면 그렇게 어렵지 않을 거예요. 본 강의를 통해 ‘문제’라고 생각했던 것을 더 효율적으로 고쳐나갈 자신감을 얻어 가실 수 있도록 최선을 다하겠습니다.

약력

현재 서울대학교 산업공학과 데이터마이닝 연구실에서 박사과정을 밟고 있습니다. 한국어 자연어 처리에 관심이 많으며, 딥러닝 모델들을 어떻게 한국어 자연어 처리 작업에 이용할 수 있을지 고민하고 있습니다. PYCON KOREA 2017에서 ‘노가다 없는 텍스트 분석을 위한 한국어 NLP’라는 주제로 발표하기도 했습니다. 분석가가 가능한 많은 시간을 분석에 이용할 수 있기 위해, 노이즈가 많은 현실 텍스트 데이터로부터 최소한의 노력으로 최대한의 의미를 추출하는 방법들을 고민합니다.

강사님 인터뷰 보기

수강 후기

항상 많은 내용을 담아 정성이 느껴지는 강의입니다.

강사님이 많은 경험을 녹이고, 직접 코드를 제공해 주셔서 강의 자료의 질이 높습니다.

자연어 처리에 대한 종합적이고 체계적인 커리큘럼입니다.

강의장 안내

유의사항 및 환불 규정

유의사항 - 모든 패스트캠퍼스 오프라인 파트타임 교육은 개강 전일 18시에 모집이 마감됩니다.
- 상황에 따라 사전 공지 없이 모집이 조기 마감되거나 할인이 연장될 수 있습니다.
- 수강 인원 확인을 위하여, 즉시 결제가 어려운 경우에도 반드시 수강신청을 먼저 진행해주시기 바랍니다.
- 수강생의 결석이나 지각 등으로 발생한 손해에 대해서는 별도의 보상을 제공하지 않습니다.

환불규정 * 다음과 같은 사유 등으로 인해 강의가 폐강될 수 있으며, 폐강 시 학원법에 따라 반환 사유 발생일로부터 5 영업일 이내에 수강료를 환불해드립니다.
- 모집된 수강인원이 10명 이하일 경우
- 강사의 갑작스러운 사고 및 건강 상의 이유
- 천재지변 : 위의 사유로 강의가 폐강될 경우, 학원법 제 18조에 따라 오프라인 강의 취소/환불 정책을 준용하여 환불 처리되며, 모객 부진으로 폐강 시에는 최소 개강일로부터 7일 전에는 폐강 여부를 안내해드립니다.

* 총 수강기간 1개월 이내 기준 취소 및 환불 규정 안내
- 환불금액은 정가가 아닌 실제 결제금액을 기준으로 계산됩니다.
- 수업 시작 전 환불 신청 시 전액 환불됩니다.
- 수강 시작 후 환불 신청 시 하기 수업 시수를 기준으로 학원법 환불규정에 따라 환불 가능합니다.
: 환불요청일시 기준 수업시수 1/3 경과 전 : 수강료 2/3 환불
: 환불요청일시 기준 수업시수 1/2 경과 전 : 수강료 1/2 환불
: 환불요청일시 기준 수업시수 1/2 경과 후 : 환불금액 없음

* 기타 환불 관련 안내
- 환불 의사를 밝힌 다음날부터 계산하여 환불합니다.
- 환불금액은 수업시간을 기준(반올림)으로 산정합니다.
- 환불금액의 10원 미만은 절삭합니다.
- 반환 사유 발생 시 5 영업일 이내 환불됩니다.
: PG사와 카드사의 상황에 따라 환불이 지연될 수 있습니다
- 1개월 산정 기준은 민법 제 160조(역에 의한 계산)을 적용합니다.
: 실제 일수와 상관없이 수업시작일이 3월 7일인 경우, 1개월은 4월 6일까지 입니다.
: 단, 수업 시작일이 1월 31일인 경우, 1개월은 월의 말일인 2월 28일까지 입니다.

Fast Campus