머신러닝으로 구현하는 자연어 처리의 모든 것

자연어 처리를 위한
머신러닝 CAMP

  • 기간

    2019년 1월 5일 ~ 3월 16일
    총 10주 (2월 2일 설 연휴 휴강)

  • 일정

    매주 토요일
    14:00 - 17:00
    회 당 3시간, 총 30시간

  • 장소

    패스트캠퍼스 강남 본원

  • 문의

    02-568-9886
    help-ds
    @fastcampus.co.kr

강의목표 .

1   텍스트 분석을 할 때 겪는 가장 현실적인 문제인 ‘노이즈 핸들링’의 해결 방법을 알 수 있습니다.

2   자연어 처리에 적용하기 위한 머신러닝 알고리즘에 담긴 원리를 이해 할 수 있습니다.

3   자연어 처리 모델을 스스로 만들어 낼 수 있는 역량을 강화합니다.

자연어 처리를 위한 머신러닝을
배워야 하는 이유

1. 지저분하고 정제되지 않은 비정형 데이터 처리 해결

: 한글의 경우, 띄어쓰기가 잘 되어 있으면 문장에서 단어를 구분하는 토크나이징이 쉬워집니다.

예를들어,

– 단어를잘인식할수있다면토크나이징도쉽게할수있습니다.
단어를 잘 인식할 수 있다면 토크나이징도 쉽게 할 수 있습니다.

2. 텍스트 데이터 분석 준비 시간이 짧아집니다.

:2. 신조어, 전문용어를 사용자 사전에 추가하는 ‘노가다’를 줄이고,
사용자 생성 과정을 데이터 기반으로 추출하여
최대한 자동화
할 수 있습니다.

Extension_icon00

텍스트 데이터 분석 준비가 아닌,
텍스트 데이터 분석 자체에 더 집중할 수 있습니다.

강의 특징 . 

1

한글 텍스트 분석에
딥러닝을 적용하기 위한
핵심 이론의 정리

수작업 없이 사전을 만들 수 있는 단어 추출과 토크나이저, 데이터를 깔끔하게 정리하기 위한 띄어쓰기 및 오탈자 교정, Word embedding을 응용한 텍스트 분석 등 한글 텍스트 분석에 딥러닝을 적용하기 위한 핵심 이론을 정리해 드립니다.

2

실무 분석과 강의 경험이
풍부한 강사에게 전해
듣는 데이터 전처리와
분석 노하우

PYCON KOREA 2017에서 ‘노가다 없는 텍스트 분석을 위한 한국어 NLP’라는 주제로 발표를 진행하시고, 서울대학교 데이터마이닝 연구실에서 한국어 자연어 처리에 관한 연구를 진행하고 계신 김현중 강사님의 풍부한 텍스트 분석 노하우를 배울 수 있습니다.

3

머신러닝 알고리즘의
응용을 통해 데이터
특성에 맞는 알고리즘
개발

본 강의에서는 이미 개발된 라이브러리를 활용한 텍스트 분석 뿐만 아니라, 머신러닝 알고리즘의 응용을 통해 데이터 특성에 맞는 단어 추출, 명사 추출, 띄어쓰기, 키워드 추출 등의 알고리즘을 개발하는 것을 목표로 합니다.

이미 개발된 라이브러리를 활용한 텍스트 분석 뿐만 아니라, 머신러닝 알고리즘의 응용을 통해 데이터 특성에 맞는 단어 추출, 명사 추출, 띄어쓰기, 키워드 추출 등의알고리즘을 개발하는 것을 목표로 합니다.

추천 대상 . 

icon_man4_3_oh

텍스트 데이터를 깨끗하게 정리하기 위한 수작업에 소모되는 시간과 노력을 줄이고 보다 효율적인 한국어 텍스트 분석 기법을 학습하고자 하는 개발자/ 연구원

icon_woman1_2_happy-150x150

챗봇 서비스 구현을 위한 데이터 전처리 및 자연어 처리 기법과 데이터에 맞는 알고리즘 개발법을 학습하고 싶은 분.

icon_man4_3_oh

텍스트 분석을 위한 머신러닝 라이브러리의 작동 원리를 이해하고, 이를 내 업무에 적용해보길 원하시는 분.

비정형 텍스트 데이터, 더이상 막막해 하지마세요.
머신러닝으로 구현하는 자연어 처리의 모든 것!

10주간 이론+실습을 통해
온전히 나의 것으로 만드실 수 있습니다.

커리큘럼 . 

회차 학습 내용
1회차 강의 내용 소개 및 텍스트 마이닝 프레임워크: 텍스트 마이닝 기본 요소들의 정의와 document classification의 핵심 요소를 살펴봅니다.
- KoNLPy를 이용하여 문서 집합을 토크나이징합니다.
- 텍스트 분석 시 발생하는 '미등록단어' 문제를 알아봅니다.
- Bag-of-Words Model과 n-gram을 알아봅니다.
- Document Classification에 대표적으로 이용되는 Logistic Regression에 대하여 알아봅니다.
- KoNLPy와 Logistic Regression을 이용하여 영화평 분류기를 만들어 봅니다.
2~3회차 한국어 자연어 처리 모듈 개발: 지도학습과 비지도학습으로 품사 판별기와 형태소 분석기를 만듭니다. 키워드 및 연관어 분석: 데이터를 기반으로 수행되는 키워드와 연관어를 추출합니다.
- 사전 구축 및 비지도학습 기반 품사 판별기/ 형태소 분석기
> 미등록단어 문제를 해결하기 위한 비지도학습 기반 단어 추출 방법과 토크나이저를 알아봅니다.
> 통계 기반으로 단어의 품사(특히 명사)를 추정하는 방법을 살펴보고, 이를 이용하여 학습 데이터에 존재하지 않는 단어/품사 사전을 구축합니다.
> 구축된 사전을 이용하여 사전 기반 자연어 처리 모듈을 만듭니다.

- 학습 말뭉치 기법 지도학습 품사 판별기/ 형태소 분석기
> 자연어 처리를 위하여 이용되던 HMM(Hidden Markov Model)을 알아봅니다.

- HMM을 이용한 지도학습 기반 자연어 처리 모듈을 만듭니다.
- 연관성을 수치화 하는 PMI(Pointwise Mutual Information)를 알아보고, 이를 이용하여 연관어/ 키워드를 추출합니다.
- Logistic Regression에 L1 Regularization을 추가하여 연관어/ 키워드를 추출합니다.
4회차 Document Classification: 분류 모델(classifiers)을 알아보고, 텍스트 데이터에 적합한 분류기와 그 이유를 알아봅니다. Sequential Labeling을 위한 CRF(Conditional Random Field)
- Feed-forward Neural Network, SVM(Support Vector Machine), Decision Tree, Naive Bayes의 작동 원리를 알아봅니다. - CRF의 작동 원리와 함께, CRF와 Logistic Regression의 관계를 살펴봅니다.
- CRF를 이용하여 띄어쓰기 교정기를 만듭니다.
- CRF를 이용하여 HMM보다 성능이 좋은 한국어 자연어 처리 모듈을 만듭니다.
- CRF를 이용하여 NER(Named Entity Recognition)을 수행합니다.
5회차 Word/ Document Embedding: 단어와 문서를 표현하는 방식인 임베딩에 대하여 알아봅니다. Embedding for Visualization: 고차원 벡터를 시각화하기 위한 임베딩 방법에 대하여 알아봅니다.
- 대표적인 Word Embedding 방법인 Word2Vec, Glove, FastText의 원리 및 공통점/ 차이점을 알아봅니다.
- 대표적인 Document Embedding 방법인 Doc2Vec의 원리를 알아봅니다.
- 시각화를 위하여 이용되는 다음의 알고리즘의 원리 및 공통점/ 차이점과 함께, Word/ Document Embedding 시각화에 적합한 알고리즘도 알아봅니다.
> MDS(Multi-Dimensional Scaling)
> PCA(Principal Component Analysis)/ kPCA(kernel-PCA)
> LLE(Locally Linear Embedding)
> ISOMAP
> t-SNE(t-Stochastic Neighbor Embedding)
6회차 Topic Modeling: 문서 집합으로부터 숨겨진 토픽을 학습하는 토픽 모델링에 대하여 알아봅니다.
- LSI(Latent Semantic Indexing), pLSI(Probabilistic LSI), LDA(Latent Dirichlet Allocation)으로의 토픽 모델링 발전 과정을 알아봅니다.
- pyLDAvis를 이용한 토픽 모델링 시각화 방법과 토픽 레이블링 방법을 알아봅니다.
- 토픽 모델링에 이용될 수 있는 다른 방법론인 Sparse Coding, NMF(Non-negative Matric Factorization)에 대해서도 알아봅니다.
7회차 Document Clustering: 비슷한 문서를 하나의 집합으로 묶는 문서 군집화 방법들을 알아봅니다. Vector Indexing: 벡터로 표현된 대량의 데이터로부터 유사한 벡터를 빠르게 찾는 방법을 알아봅니다.
- (Spherical) k-means, Hierarchical Clustering과 그 외 문서 군집화 방법들의 특징을 알아봅니다.
- k-means가 왜 다른 알고리즘보다 문서 군집화에 적합한지 살펴봅니다.
- k-means를 효율적으로 학습하는 방법과 데이터 기반으로 군집 레이블링 하는 방법을 살펴봅니다.
- Random Projection을 이용하는 LSH(Locality Sensitive Hashing)의 원리를 알아봅니다.
- Sparse Representation으로 표현되는 문서 검색을 위한 Inverted Index(역 색인)를 알아봅니다.
8회차 String Distance: 글자열의 형태적 유사성 척도인 String Distance에 대하여 알아봅니다. Graph Ranking/ Similatiry: 텍스트 데이터를 그래프로 표현하는 방법에 대하여 알아봅니다.
- Levenshtein (Edit) Distance의 원리를 알아보고, 한국어 오탈자 교정에 적합하도록 이를 변형합니다.
-기타 String Distance Metrics에 대해서도 알아봅니다.
- Inverted Index를 이용하여 빠르게 Levenshtein Distance를 계산하는 오탈자 교정기를 만듭니다.
- 키워드/ 핵심 문장 주출을 위한 Graph Ranking 알고리즘인 PageRank, HITS를 알아봅니다.
- Graph Ranking 알고리즘을 이용하여 단어를 추출하는 TextRank, KR-WordRank를 살펴봅니다.
- 의미적으로 비슷한 단어/ 문서를 검색할 수 있는 Graph Similarity 방법론인 SimRank, Random Walk with Restart를 알아봅니다.
9회차 PyTorch CNN(Convolutional Neural Network)
- Deep Learning Modeling을 위한 PyTorch의 기본 요소들을 알아보고, Classifier 및 Regressor를 만들어 봅니다. - CNN 모델의 원리에 대하여 살펴봅니다.
- NLP를 위한 대표적인 CNN 모델인 Word-level CNN과 Character-level CNN을 알아봅니다.
10회차 RNN(Recurrent Neural Network)
- RNN 모델의 원리에 대하여 살펴봅니다.
- NLP를 위한 RNN의 발전 모델인 LSTM, GRU, Attention을 살펴봅니다.
- 최근의 자연어 처리 연구 동향을 살펴봅니다.

강의 자료 예시

10주 후, NEXT STEP .

기본적인 Classification을 넘어 번역, 요약, 문장 생성에 필요한 자연어 처리에 대해 배우길 원하신다면 본 과정의 심화 과정인 [PyTorch를 활용한 자연어 처리 심화 CAMP]를 추천합니다.

” 자연어처리(NLP)의 딥러닝 적용 핵심과 응용을 온전히 이해하고,
남들보다 먼저 NLU로 나아갈 준비를 하세요! “

수강생 한 줄 평 . 

항상 많은 내용을 담아 정성이 느껴지는 강의입니다.

머신러닝에 대하여 다시 한번 생각하게 되는 강의였습니다.

강사님이 많은 경험을 녹이고,
직접 코드를 제공해 주셔서 강의 자료의 질이 높습니다.

자연어 처리에 대한 종합적이고 체계적인 커리큘럼입니다.

강사 소개 . 

dtm

김현중 강사님

머신러닝이 그렇게 생각보다 높은 벽이 있는 건 아니에요. 마찬가지로 텍스트 데이터를 만지는 것도 아주 복잡한 것들이 필요한 게 절대 아닙니다. 생각보다 ‘로직’이 제일 중요해요. 이전에 머신러닝이 어렵다고 생각하셨던 분들도 머신러닝의 원리를 깨닫고, 그에 따른 ‘로직’이 바로 선다면 그렇게 어렵지 않을 거예요. 본 강의를 통해 ‘문제’라고 생각했던 것을 더 효율적으로 고쳐나갈 자신감을 얻어 가실 수 있도록 최선을 다하겠습니다.

현재 서울대학교 산업공학과 데이터마이닝 연구실에서 박사과정을 밟고 있습니다. 한국어 자연어 처리에 관심이 많으며, 딥러닝 모델들을 어떻게 한국어 자연어 처리 작업에 이용할 수 있을지 고민하고 있습니다. PYCON KOREA 2017에서 ‘노가다 없는 텍스트 분석을 위한 한국어 NLP’라는 주제로 발표하기도 했습니다. 분석가가 가능한 많은 시간을 분석에 이용할 수 있기 위해, 노이즈가 많은 현실 텍스트 데이터로부터 최소한의 노력으로 최대한의 의미를 추출하는 방법들을 고민합니다.

데이터 분석 시 가장 중요한 것은 ‘문제 정의‘입니다. 그리고 문제의 해법과 가장 어울리는 방법을 선택해야 합니다.
실제로는 필요한 데이터를 구할 수 없거나, 노이즈가 많기도 합니다. 내가 풀어야 할 문제에 적합한 알고리즘이 없을 수도 있습니다.

기대하는 결과가 나오지 않는다면 이유부터 점검하세요. 이를 위해 ‘알고리즘이 학습하는 지식의 형태’를 알 필요가 있습니다.

FAQ .

 

이 강의를 들으려면 어느 정도의 선수 지식이 필요한가요?

1. 벡터 내적(inner product)와 조건부 확률의 정의를 알고 있다.
2. Scikit-learn 라이브러리에서 classifiers 또는 clusterings 알고리즘을 이용한 경험이 있다.
3. 파이썬을 활용하여 텍스트 데이터에서 단어의 빈도 수를 계산하거나, 문서-단어 빈도 행렬을 만들 수 있다.
4. 임베딩 알고리즘 Word2Vec, LDA, t-SNE 중 하나 이상을 알고 있다.

 

본 강의는 수강생 분들께서 위 선수 지식을 알고 계시다는 전제 하에 진행됩니다.

 

아래 포스트를 확인하시고, 내용을 알고 계시거나 이해하실 수 있으면 수강 가능합니다. 

내가 원하는 챗봇 제작이 가능한가요?

챗봇 서비스를 본 강의에서 구현하지는 않습니다. 다만 한글을 사용한 챗봇 서비스 구현을 위한 데이터 전처리 및 자연어 처리 기법과 데이터에 맞는 알고리즘 개발법의 학습을 통해 챗봇 서비스 구현을 위한 이론적인 내용을 정리할 수 있습니다.

내 수준에 맞는 텍스트 분석 강의! 잘 모르겠다면?

아래의 관련 강의 정보 및 수강생 선수 지식을 확인해보세요!

학습 경험이 있는 머신러닝 알고리즘을 기반으로 단어/명사 추출, 품사 판별, 키워드 추출, 연관어 분석 등 텍스트 분석으로 확장하는 강의

강의 자세히 보기

RNN과 CNN을 활용하여 Sentiment Analysis, Language Detection,Topic Classification 등의 문서 분류를 구현하는 강의

강의 자세히 보기

주어진 텍스트 데이터로부터 문장을 생성하는 NLG(Natural Language Generation)를 기반으로 상품화가 가능한 수준의 자연어 처리 역량을 기르는 강의

강의 자세히 보기

머신러닝 알고리즘의 응용을 통해 데이터 특성에 맞는 알고리즘 개발. 즉, 자연어 처리를 위한 toolkit을 직접 개발할 수 있는 역량을 기르는 강의

강의 자세히 보기

수강료

머신러닝으로 구현하는 자연어 처리의 모든 것

자연어 처리를 위한 머신러닝 CAMP

일    정 2019.1.5.~ 2019.3.16 (총 10주)
매주 토요일 14:00 ~ 17:00 | 회당 3시간, 총 30시간
준비물 개인 노트북 사용 추천
(본인 PC에 맞는 개발 환경 설정 및 원활한 개별 실습을 위하여)
장    소 패스트캠퍼스 강남 본원
문    의 help-ds@fastcampus.co.kr

일반 등록가 170만 원

[출시알림]을 신청하시면,
다음 기수 일정 확정 시 안내 드립니다.
※ 할인가는 매주 목요일 자정에 변경됩니다.
※ 카드 12개월 무이자 할부 가능!

출시알림 신청하기

강의장 안내