텍스트 분석을 위한

머신러닝 CAMP

텍스트 분석에 적용되는 머신러닝의 작동 원리를 이해하고,
실습을 통해 효율적인 텍스트 분석 모델링을 목표로 하는 10주 코스

#Soynlp#머신러닝
#작동원리이해#텍스트분석
#모델링

기간 & 일정

2019. 12. 7 – 2020. 2. 22 
(12/28, 1/25 휴강)

매주 토요일 14:00 – 17:00
주 1회, 총 30시간

장소 & 준비물

패스트캠퍼스 강남 본원
개인 노트북

문의

02-568-9886
help-ds@fastcampus.co.kr

강의 목표.

벡터 표현법을 기준으로 머신러닝 기법들의 작동 원리에 대해 이해하고,
실제 분석에 이용하는 실습을 통해, 효과적으로 텍스트 분석 모델링을 하자.

원하는대로 효율적인 텍스트 분석하기,
생각보다 쉽지 않습니다.

왜일까요?

ml

“학습 데이터가 부족한 머신러닝으로는
제대로 된 분석을 하기 어렵다”

머신러닝은 충분한 학습을 기반으로 정교화됩니다. 전문 용어, 약어, 신조어 등 명확한 의미를 가진 텍스트도 학습 데이터가 부족하면 제대로 된 의미를 찾아내기 어렵습니다. 당연히 분석도 어떻게 해야 할지 난감해지죠.

“내가 가진 텍스트 데이터로 제대로 된
텍스트 분석을 돌려본 적이 없다”

복잡한 분석 모델에서 더 정확한 분석 결과가 도출되지만, 시간이 오래 걸려서 효율적이지 못합니다. 텍스트 데이터를 분석하기 위해서는 그만큼 효율적인 모델을 적용해 봐야 하는데, 경험해보지 않으면 알기도 어렵습니다.

텍스트 분석,
정확하고 효율적인 방법론으로 시작해야 합니다.

텍스트 분석, 제대로 배우면
이렇게 달라집니다.

강의 특징.

1

머신러닝,
원리부터 이해하고
직관적으로
배우자!

본 강의는 머신러닝 알고리즘의 핵심 개념을 이해하고, 이를 활용하여 ‘효율적인’ 텍스트 분석을 하는 것을 목표로 직관적인 접근 방식을 지향합니다. 어려운 방법론, 겉핥기식 실습이 아닌 효율적이고 직관적인 텍스트 분석 기법을 배워 보세요.

2

soynlp
라이브러리를
개발한 강사님의
오프라인 직강!

한국어 텍스트 분석을 위한 soynlp 라이브러리 개발, Pycon 발표, 텍스트 분석 관련 강의 등 많은 지식과 경험을 보유한 김현중 강사님이 직접 머신러닝과 텍스트 분석의 접목에 대해 친절하고 자세하게 전달합니다.

3

수업시간 외
다양한 방법으로
자료 제공 및
커뮤니케이션

수업시간으로 끝나지 않습니다. 언제라도 텍스트 분석에 대해 궁금한 점을 해결하실 수 있게 수강생 분들만을 위한 온라인 Q&A가 운영되고, 블로그, 논문, 참고 서적 등 많은 양의 레퍼런스를 제공해 드립니다.

추천 대상.

커리큘럼.

수업시간에 배우는 텍스트 분석으로
아래의 것들을 직접 구현할 수 있게 됩니다.

영화 데이터 분석

– 영화 데이터(네이버 영화, IMDb)를
기반으로 한 유사 영화 탐색 및 추천
– 시기 별 영화 장르 분포 변화

뉴스 데이터 분석

– 뉴스에서 인명 사전 구축하기(NER)
– 일자 별 핵심 뉴스 연관어, 키워드 추출
– 핵심 뉴스 별 핵심 댓글 시각화

청와대 국민 청원

– 데이터 수집
– 시기 별 주요 청원 이슈 시각화
– 글/댓글 내용에 대한 분석

1회차 토크나이징과 벡터라이징

문서를 벡터로 표현하는 방법 중 하나인 Bag-of-Words Model에 대하여 알아봅니다. 특히 문서를 단어열로 분해하는 방법 중 하나인 품사 판별과 형태소 분석에 대하여 알아봅니다.

이 과정에서 발생하는 미등록단어 문제의 원인을 알아보고 이를 해결하기 위한 여러 방법들에 대하여 알아봅니다.

자세히 보기

– 문서를 벡터로 표현하는 과정: 토크나이징, 품사 판별, 형태소 분석, 그리고 KoNLPy
– 미등록단어 문제를 해결하기 위한 비지도기반 토크나이저들
– Bag of Words Model을 이용한 문서 표현

2회차 문서 군집화 (clustering)

비슷한 문서를 하나로 묶는 방법으로써 문서 군집화 기법이 이용될 수 있습니다. 이는 주제 수준에서의 문서의 벡터 표현과도 같습니다. 다양한 군집화 기법들이 존재하지만, 텍스트 분석에서는 여러 이유로 k-means가 문서 군집화 과업에 효율적이고 효과적입니다.

다른 군집화 기법들은 왜 문서 군집화에 적합하지 않은지, k-means는 왜 문서 군집화에 적합한지, 그리고 잠재적인 위험성은 어떤 것들이 있는지 알아봅니다. 마지막으로 간단한 연관어 / 키워드 추출 기법을 이용하여 군집 별로 레이블링을 하는 방법도 알아봅니다.

자세히 보기

– Co-occurrence를 이용한 연관어 / 키워드 추출, PMI
– n-gram 추출
– k-means와 그 외의 군집화 기법들을 이용한 문서 군집화
– 키워드 추출 방법을 이용한 군집화 결과 해석

3회차 문서 분류 (classifier)

분류기를 이용하여 문서나 문장의 긍/부정, 혹은 그 종류를 분류하는 것은 대표적인 텍스트 분석 과업 중 하나입니다. 이를 이용하여 다양한 분류기들이 이용될 수 있습니다.

특히 Logistic Regression과 Naive Bayes 판별기는 문서 분류를 위한 baseline으로 자주 이용됩니다. 어떠한 특징 때문에 이들이 문서 분류의 기본이 되는지 알아보고, 그 외의 분류 기법들은 문서 분류에 적절한지 알아봅니다.

자세히 보기

– Logistic Regression과 L1/L2 Regularization
– Feed Forward Network, Support Vector Machine, Naive Bayes, Decision Tree
– Random Forest, XGBoost
– Evaluation Metrics

4회차 임베딩을 이용한 단어/문서의 벡터 표현과 시각화

객체의 특징을 벡터로 더 잘 표현할수록 각 과업의 성능은 향상됩니다. 단어/문서 임베딩은 단어의 문맥이나 형태 혹은 문서의 주제를 보존하는 벡터로 이들을 표현합니다.

이를 위한 다양한 단어/문서 임베딩 방법을 알아봅니다. 또한 임베딩은 고차원의 벡터를 2차원으로 표현하여 시각적으로 고차원 공간을 살펴보는데도 이용될 수 있습니다. 이를 위한 다양한 벡터 공간의 시각화 방법에 대하여 알아봅니다.

자세히 보기

– Word2Vec, Doc2Vec, FastText, PMI + SVD
– t-SNE, PCA, MDS, ISOMAP, LLE, UMAP

5회차 토픽 모델링을 통한 유사 문서 탐색

Word2Vec과 같은 단어 임베딩 방법은 단어에 대한 문맥 정보를 보존하는 벡터 표현 방법입니다. 토픽 모델링은 이와 비슷한 방법으로 단어와 문서의 주제 정보를 보존하는 벡터 표현 방법입니다.

때로는 이 벡터를 확률 형식으로 만들수도 있습니다. 토픽 모델링에 이용되는 다양한 방법들에 대하여 알아봅니다.

자세히 보기

– LSI, pLSI, LDA, NMF를 이용한 문서의 토픽 표현
– LDAvis를 이용한 토픽 모델의 시각화
– Sparse Matrix의 종류 및 이를 효율적으로 다루는 방법

6회차 그래프를 이용한 단어 분석 & 스크래핑을 이용한 데이터 수집

단어나 문서 간 유사도를 학습하는 방법으로 SimRank와 같은 그래프 기반 알고리즘을 이용할 수도 있습니다. 또한 추출 기반 키워드, 핵심 문장 선택을 위해서도 그래프 랭킹 알고리즘들이 이용되었습니다. 이러한 방법들의 원리에 대해 알아봅니다.

여기에 더해 그래프 기반 모델링 방법들과 임베딩 기법들의 관계에 대해서도 알아봅니다.

자세히 보기

– PageRank, TextRank, KR-WordRank를 이용한 그래프 랭킹 기반 키워드 탐색
– SimRank, Random Walk with Restart를 이용한 토픽 유사어 탐색
– 임베딩을 이용한 그래프의 시각화
– Beautiful Soup을 이용한 데이터 수집 실습

7회차 객체명 인식과 순차적 레이블링

순차적 레이블링 방법은 문장 내 단어들의 종류를 판별하기 위해 이용됩니다. 객체명 인식은 순차적 레이블링 기법을 이용하는 대표적인 과업입니다.

Sparse Representation을 이용하는 대표적인 순차적 레이블링 기법인 CRF(Conditional Random Field)에 대하여 알아보고, Embedding Vector를 이용하는 순차적 레이블링 기법인 RNN(Recurrent Neural Network)과 그 후속 모델들에 대하여도 알아봅니다.

자세히 보기

– CRF(Conditional Random Field)를 이용한 객체명 인식기
– RNN to LSTM-CRF

8회차 어텐션 방법을 이용한 개선된 문서 분류기

어텐션 기법은 입력 데이터에서 과업에 필요한 정보들을 선택적으로 강조함으로써 모델의 성능을 향상하는 방법입니다. 어텐션 기법의 발전 과정과 이를 이용하는 문서 분류 방법에 대하여 알아봅니다.

자세히 보기

– Sequence to Sequence and Attention Mechanism
– Attention Based Sentence Classifier & HAN
– PyTorch

9회차 CNN(Convolutional Neural Network)을 이용한 문서 분류기

CNN(Convolutional Neural Network)은 Locality 정보를 활용하는 모델입니다. CNN의 원리를 알아보고, 텍스트 분석에서 이를 이용하는 문서 분류 방법에 대하여 알아봅니다.

자세히 보기

– CNN(Convolutional Neural Network)
– Word/Char Level CNN for Sentence Classifier

10회차 최인접이웃 검색과 오탈자 교정

k-NN 기반 분류/회귀 모델은 가장 직관적인 머신러닝 기법이지만, 경우에 따라서는 이것만으로도 충분히 좋은 성능을 보여줍니다. 데이터의 개수에 비례한 검색 비용 문제를 해결하고 효율적으로 최인접이웃 기반 모델이 작동하게 만드는 방법에 대하여 살펴봅니다.

마지막으로 수업의 전체적인 내용들을 data representation 관점에서 review 합니다.

자세히 보기

– 효율적인 k-NN 검색기, LSH, Tree Based Indexer, NN-descent
– Edit Distance 를 이용한 오탈자 교정
– review

수강 후기.

수강생의 생생한 후기로
강의를 미리 경험해보세요!
블로그썸넬

수강생 윤재영님

주니어 데이터 분석가로 회사에서 해결해야 되는 문제에 집중하는 것이 아니라 최신 알고리즘에 집착하는 경우가 있는데, 강사님께서는 간단한 알고리즘이라도 문제 해결에 초점을 맞추는 것을 강조하셨습니다. 이 이야기를 듣고, 저의 잘못된 데이터 접근 방식을 다시 생각해 볼 수 있어서 좋았습니다.

본 강의를 완벽하게 마스터한
당신의 다음 목적지는?

[자연어 처리를 위한 머신러닝 CAMP]
바로가기

강사 소개.

오랜 기간 패스트캠퍼스와 환상의 호흡을
맞춰온 김현중 강사님! 믿고 따라오세요!
dtm-200x200

김현중 강사님

[약력]
-서울대학교 산업공학과 데이터마이닝 연구실 박사과정
-한국어 텍스트 분석을 위한 soynlp 라이브러리 개발
-PYCON KOREA 2017 ‘노가다 없는 텍스트 분석을 위한 한국어 NLP’ 발표

내 수준에 맞는 텍스트 분석 강의! 잘 모르겠다면?

아래의 관련 강의 정보 및 수강생 선수 지식을 확인해보세요!

학습 경험이 있는 머신러닝 알고리즘을 기반으로 단어/명사 추출, 품사 판별, 키워드 추출, 연관어 분석 등 텍스트 분석으로 확장하는 강의

강의 자세히 보기

RNN과 CNN을 활용하여 Sentiment Analysis, Language Detection, Topic Classification 등의 문서 분류를 구현하는 강의

강의 자세히 보기

주어진 텍스트 데이터로부터 문장을 생성하는 NLG(Natural Language Generation)를 기반으로 상품화가 가능한 수준의 자연어 처리 역량을 기르는 강의

강의 자세히 보기

머신러닝 알고리즘의 응용을 통해 데이터 특성에 맞는 알고리즘 개발. 즉, 자연어 처리를 위한 toolkit을 직접 개발할 수 있는 역량을 기르는 강의

강의 자세히 보기
image_1@2x
image_2@2x
image_3@2x
image_4@2x
image_5@2x

수강료 안내

정가 150만원

# 매주 목요일 가격이 소폭 상승합니다. 수강신청을 서둘러주세요.
# 할인가 적용 및 수강 확정은 결제일을 기준으로 합니다.
# 개강 전날 18시에 모집이 마감됩니다.
# 수강 인원이 10명 미만인 경우, 또는 내부 사정으로 인해 부득이하게 폐강될 수 있습니다.

강의장 안내

[ 유의사항 및 환불규정 ]

* 모든 패스트캠퍼스 오프라인 파트타임 교육은 개강 전일 18시에 모집이 마감됩니다.
* 상황에 따라 사전 공지 없이 모집이 조기 마감되거나 할인이 연장될 수 있습니다.
* 수강 인원 확인을 위하여, 즉시 결제가 어려운 경우에도 반드시 수강신청을 먼저 진행해주시기 바랍니다.
* 수강생의 결석이나 지각 등으로 발생한 손해에 대해서는 별도의 보상을 제공하지 않습니다.

* 다음과 같은 사유 등으로 인해 강의가 폐강될 수 있으며, 폐강 시 학원법에 따라 반환 사유 발생일로부터 5 영업일 이내에 수강료를 환불해드립니다.
– 모집된 수강인원이 10명 이하일 경우
– 강사의 갑작스러운 사고 및 건강 상의 이유
– 천재지변
: 위의 사유로 강의가 폐강될 경우, 학원법 제 18조에 따라 오프라인 강의 취소/환불 정책을 준용하여 환불 처리되며, 모객 부진으로 폐강 시에는 최소 개강일로부터 7일 전에는 폐강 여부를 안내해드립니다.

* 총 수강기간 1개월 이내 기준 취소 및 환불 규정 안내
– 환불금액은 정가가 아닌 실제 결제금액을 기준으로 계산됩니다.
– 수업 시작 전 환불 신청 시 전액 환불됩니다.
– 수강 시작 후 환불 신청 시 하기 수업 시수를 기준으로 학원법 환불규정에 따라 환불 가능합니다.
: 환불요청일시 기준 수업시수 1/3 경과 전 : 수강료 2/3 환불
: 환불요청일시 기준 수업시수 1/2 경과 전 : 수강료 1/2 환불
: 환불요청일시 기준 수업시수 1/2 경과 후 : 환불금액 없음

* 기타 환불 관련 안내
– 환불 의사를 밝힌 다음날부터 계산하여 환불합니다.
– 환불금액은 수업시간을 기준(반올림)으로 산정합니다.
– 환불금액의 10원 미만은 절삭합니다.
– 반환 사유 발생 시 5 영업일 이내 환불됩니다.
: PG사와 카드사의 상황에 따라 환불이 지연될 수 있습니다
– 1개월 산정 기준은 민법 제 160조(역에 의한 계산)을 적용합니다.
: 실제 일수와 상관없이 수업시작일이 3월 7일인 경우, 1개월은 4월 6일까지 입니다.
: 단, 수업 시작일이 1월 31일인 경우, 1개월은 월의 말일인 2월 28일까지 입니다.