파이썬을 활용한

텍스트마이닝 CAMP

한국어의 언어적 특성부터 분석 알고리즘,
파이썬 코드까지 체계적으로 학습하는 과정

#텍스트분석#파이썬몰라도_OK#한국어
#언어적특성#최고의전문가

기간 & 일정

2019.09.19 ~ 11.28
(10/3 휴강)
매주 목요일 19:30 ~ 22:30
주 1회, 총 30시간

장소 & 준비물

패스트캠퍼스 강남강의장
개인 노트북

문의

02-568-9886
help-ds@fastcampus.co.kr

한국어 텍스트 마이닝,
체계적으로 배우고픈 여러분에게
국내 최고의 강의를 소개합니다.

한국어 텍스트 분석,
유독 왜 어려울까요?

인간의 언어 ≠ 프로그래밍 언어

텍스트가 수치 데이터에 비해 분석이 어려운 이유는, 인간의 언어가 프로그램 코드처럼 분명하고 정교한 문법으로 표현되지 않기 때문입니다. 단순히 언어만으로 파악되는 것이 아니라, 그 속에 숨어있는 맥락과 의미를 반드시 고려해야 하기 때문이죠.

특히 더 복잡한 한국어의 구조

한국어는 여러 언어들 중에서도 그 구조의 복잡도가 높아서 특히 분석하기 더 까다롭습니다. 따라서, 언어학적인 특성 이해와 다양한 분석 알고리즘에 대한 충분한 지식을 갖추고 있어야 원활한 텍스트 분석이 가능합니다. 그만큼 복잡하고 어려운 것이 한국어 텍스트 분석입니다.

단순한 분석 기법만 배워서는
한국어 텍스트를 제대로 분석할 수 없습니다.

복잡한 한국어 텍스트 분석,
언어학+알고리즘+코딩까지
완벽하게 잡는다.

한국어의 언어적 특성

텍스트 분석 알고리즘

분석 구현을 위한 파이썬 코딩

한국어 텍스트 분석을 위한 ‘유일무이’ 3단계 완벽 커리큘럼

텍스트 분석의 활용 범위는 무궁무진합니다. 하지만, 유의미한 결과를 도출하고 인사이트를 찾기 위해서는 텍스트마이닝에 대한 깊이 있는 이해가 필요합니다. 텍스트 분석에 앞서 알아야 할 한국어의 언어적 특성에 대해 차근차근 학습하고, 이를 기반으로 분류, 군집, 감성 분석 등 다양한 알고리즘을 다뤄, 텍스트가 목적에 따라 어떻게 분석될 수 있는지를 인지합니다. 분석에 필요한 기본적인 파이썬 코딩도 다루기 때문에 ‘구현’ 역량까지 기를 수 있습니다.

어디에서도 볼 수 없었던 최강의 커리큘럼,
텍스트 분석의 정수를 만나보세요

국내 최고의 텍스트 분석 전문가인 강사님의 직강으로
한국어의 특성부터 분석 알고리즘, 파이썬 코드까지 체계적으로 배워보세요.

코스 특징.

01

단순 결과 도출을 넘어선
언어적 특성 기반의 분석 알고리즘 이해

단순히 예제 코드를 따라 치고 결과만 확인하는 겉 핥기식 강의가 아닙니다. 총 10주간 한국어의 언어적 특성부터 다양한 분석 알고리즘, 그리고 이를 구현하기위한 파이썬 코드까지 체계적이면서도 통합적으로 가르쳐드립니다.

02

파이썬 코드를 100% 이해하기 위한
상세한 주석 및 실습 조교 지원

파이썬 코딩에 익숙하지 않은 분들을 위해 상세한 주석을 제공하며, 강의 내용을 빠짐없이 소화할 수 있도록 조교님이 강의에 참여합니다. 파이썬 코딩 파트에 도움이 필요하면, 모르는 부분을 해결할 때 까지 조교님이 친절히 가르쳐드립니다.

03

텍스트 분석의 전문가 직강
현업에서의 텍스트 마이닝 이해

본 CAMP는 언어학자이자, 국내 최고의 텍스트 분석 권위자이자 전문가인 강사님의 직강으로 진행됩니다. 실무 뿐만 아니라 이론까지 완벽하게 고찰하는 강의로 현업에서의 텍스트 마이닝이 어떤 것인지, 어떤 식으로 진행되는 지에 대해 체득하실 수 있습니다.

수강 대상.

icon_man4_3_oh

한국어의 언어적 특성을 이해하고
텍스트 데이터를 분석하고자 하는
연구자/ 분석가 등

icon_woman3_1_normal

텍스트 데이터가 많은 기업에서
텍스트 속 숨은 인사이트를
도출하고자 하는 분석가

수강 선수 지식

본 코스는 파이썬을 알려 드리는 코스가 아니라 ‘텍스트 데이터 분석을 위한 도구’로서의 파이썬을 알려 드리는 코스이기 때문에, 파이썬 경험이 전혀 없다면 코스 수강에 어려움을 겪으실 수 있습니다. 개강 전 참고 자료(점프 투 파이썬)를 학습하실 것을 권장합니다.

파이썬을 설치하고 실행해 본 경험이 있다

파이썬의 조건문(if)과 반복문(for, while)의 개념을 알고 있다

파이썬의 사용자 정의함수 정의(def) 방법을 알고 있다

파이썬의 list와 dictionary 사용법을 알고 있다

커리큘럼.

※ 본 코스 내의 ‘웹 크롤링’ 교육은 기본적인 원리와 절차를 소개하는 수준입니다.
※ 머신러닝 관련 라이브러리 활용법을 배우지만, 근본적인 머신러닝 이론·수학적 원리를 다루지 않습니다.
※ 커리큘럼의 순서는 일부 변경될 수 있습니다.

Part 1. 텍스트 마이닝을 위한 환경 구축과 데이터 전처리

1회차 : 텍스트 마이닝의 개관과 작업 환경 구축

– 텍스트 마이닝의 개괄적인 이해
– 작업 환경 구축
– Jupyter Notebook을 이용한 텍스트 처리

2회차 : 텍스트 데이터의 전처리 (1) 수집과 저장

– 웹 크롤링에 의한 텍스트 데이터 수집의 전반적인 과정
– 일반적인 웹 사이트 문서의 수집, 파싱, 저장 기법
– 웹 API의 이용
– 전용 클라이언트 라이브러리를 이용한 트위터 API 활용

3회차 : 텍스트 데이터의 전처리 (2) 데이터 구조화와 언어 처리

– 텍스트 마이닝을 위한 효율적인 데이터 구조화
– KoNLPy 라이브러리를 이용한 형태소 분석

Part 2. 파이썬을 이용한 텍스트 데이터의 구조화

4회차 : 정보 추출과 탐색 (1) 키워드 분석

– 텍스트 분석을 위한 문서 구조 단순화
– 열 지향 자료 형식의 활용
– wordcloud 라이브러리를 이용한 워드 클라우드 시각화
– squarify 라이브러리를 이용한 트리맵 시각화
– TFIDF의 의미와 계산 방법

5회차 : 정보 추출과 탐색 (2) 연관어 분석

– n-gram
– 점 별 상호정보량
– Gensim 라이브러리를 이용한 바이그램 추출
– 어휘 공기 빈도의 계수화
– NetworkX 라이브러리의 기본적인 사용

6회차 : 문서 유사도의 측정과 문서-단어 행렬

– 문서 유사도의 측정 및 단어 벡터
– 자카드 유사도, 유클리드 거리, 코사인 유사도의 계산
– scipy 라이브러리를 이용한 벡터 거리
– 다차원배열(ndarray)의 생성
– scikit-learn 모듈을 이용한 문서-단어 행렬의 생성

7회차 : 문서의 군집화

– 군집화의 기본 개념
– scipy 라이브러리를 이용한 계층적 문서 군집화
– scikit-learn 라이브러리를 이용한 비계층적 문서 군집화
– 군집화 결과의 시각화

8회차 : 텍스트 분류

– scikit-learn 라이브러리를 이용한 문서 분류
– 교차 검증
– 정확률과 재현률
– 그리드 검색을 이용한 분류기 최적화

9회차 : 단어 임베딩과 토픽 모델링

– 단어 임베딩과 토픽 모델링의 개념
– gensim 라이브러리를 이용한 단어/ 문서 임베딩
– gensim 라이브러리를 이용한 토픽 모델링

10회차 : 감성 분석

– 감성 분석의 개념과 방법
– 문서 분류 기법을 이용한 긍/부정 분석
– 감성어 사전 기반 세부 감성 분석

프로젝트 진행은 커리큘럼에 포함되어 있지 않습니다.

텍스트마이닝을 활용한 프로젝트는 강의를 통해 필수적으로 진행하지는 않습니다. 다만, 수강 시 개별적으로 분석 프로젝트를 하시는 경우 마지막 강의에서 해당 프로젝트에 대한 경험을 공유하는 시간을 갖고 있습니다.

수강생 인터뷰.

수강생 배소현님.

11기 수강생/ 데이터 사이언스 분야 취업 준비중

언어학과 알고리즘을 함께 다룬다는 점을 주목했습니다. KoNLPy같은 유명한 자연어 처리 API가 있지만 언어학적 배경지식이 있으면 더 목적에 맞게 활용할 수 있을 것 같았고, 개인 프로젝트에서 사용했던 토픽 모델링 등이 그러한 니즈에 부합했습니다. 이 부분을 수업시간에 제대로 배워갈 수 있다면 좋겠다고 생각했어요. 수업 후에는 복잡한 코드를 다수의 간결한 함수로 분절해 가독성있는 코드를 구현할 수 있게 되었고 텍스트 데이터를 원하는 단위로 배열에 저장해 가공하는 작업에 자신감이 생겼습니다.

강사 소개.

이기황 박사님.

현) 다음소프트 이사
텍스트 처리 전문가

텍스트 마이닝 분야의 전문가이신 이기황 박사님은 다음소프트에서 소셜 빅데이터 분석 관련 연구와 개발을 수행하고 있습니다. 영국 에든버러 대학교 전산언어학 및 언어공학 박사이시며, 연세대학교 언어정보연구원 HK 연구 교수로 지내셨습니다. 여러 대학교에서 전산언어학, 텍스트 마이닝, 그리고 디지털 인문학관련 과목 강의를 진행하셨습니다. 대규모 텍스트 및 언어 자료에 기반한 다수의 연구에 참여한 경험이 있습니다.

조교 김주영님.

현) 다음소프트 텍스트 데이터 엔지니어

현재 다음소프트에서 텍스트 데이터를 분석하고 전달하는 일을 하고 있습니다. 매 수업시간마다 진행되는 실습 과정에서 수업을 따라가실 수 있도록 1:1로 옆에서 친절하게 도와드립니다. 수업 진도를 따라가는데 어려움을 겪는 수강생들을 중간중간 모아서 강의를 서포트해드립니다.

수강생 후기.

수강생들의 생생한 후기를 들어보세요!

“좋은 데이터 분석가라면
대시보드를 만드는 능력은 필수”

대시보드를 만드는 능력은 분석가에게 꼭 필요하다고 생각합니다. 내 비즈니스 현황을 빠르게 파악하고, KPI를 효율적으로 트래킹 할 수 있다는 것을 의미하기 때문이죠. Elastic Stack을 활용하면 클릭만으로 간단하게 분석할 수 있으니, 분석가든 마케터든 수치와 가까이 있다면 반드시 수강하셔야 합니다.

“엑셀 시트만으로 부족했던 대시보드,
Kibana로 말끔히 해결했습니다”

프론트엔드 개발언어를 사용해 직접 코딩 해야했던 데이터 시각화를 kibana로 빠르게 처리해 대쉬보드를 만들 수 있다는 점이 큰 장점입니다. kibana로 만든 dashboard를 iframe을 사용하여 다른 페이지에 연동할 수 있으니 추가작업은 전혀 필요없다는 것과 편집이 편해서 유지보수가 쉽다는 것도 장점입니다.

“Kibana로 이제는 어떠한 데이터든
깔끔하게 시각화할 수 있습니다”

‘직접 해보는 수업’으로, 내가 강의 내용을 잘 이해하고 있는지 노트북으로 바로 확인해볼 수 있었습니다. 또 잘 안되는 부분을 바로 질문할 수 있는 환경이 좋았습니다. 진도를 나가는데 조금 뒤처지는 분들은 실습 조교님이 강의실에서 바로 도와주셨습니다. 초보자라도 수업에 잘 적응하실 수 있을 겁니다.

“데이터를 깔끔하게 보여주는 것도
남을 설득할 때 매우 중요합니다”

이 강의의 핵심은 kibana로 데이터를 시각화하는 부분입니다. 같은 데이터를 갖고도 어떻게 시각화를 하느냐에 따라 고객, 이해관계자 등 듣는사람에게 설득의 효과가 달라집니다. 그렇기 때문에 이 부분에서 니즈가 있으신 분들은 꼭 들어보시기 바랍니다. 프로그래밍 경험이 없어도 충분히 들으실 수 있어요.

자주 묻는 질문.

수업 전 궁금하신 점이 있으신가요?

Q . 분석을 위해 어떤 프로그래밍 언어를 사용하나요?

A . 본 CAMP는 파이썬을 활용해서 진행됩니다. 파이썬은 프로그래밍 언어 중에서도 상대적으로 익히기 쉬우면서도 강력한 프로그래밍 언어로, 자료 처리 분석을 위한 언어로 각광받고 있습니다. 파이썬에서의 텍스트 마이닝 분석 알고리즘을 익힘으로써 향후 데이터 사이언스의 다양한 분야들을 더욱 편리하게 습득하실 수 있습니다.

Q . 파이썬을 한 번도 써 본적이 없는데 수업을 따라갈 수 있나요?

A.  본 CAMP는 파이썬을 알려드리는 강의가 아닌, ‘텍스트 데이터 분석을 위한 도구’로서의 파이썬을 알려드리고 있습니다. 따라서 파이썬 코딩 경험이 전혀 없으시다면 강의 내용을 이해하시기 어려우실 수 있습니다. 따라서 아래 링크되어 있는 파이썬 코딩을 위한 기초 참고 자료의 사전 숙지를 권장하며, 수강 전 담당 매니저와 꼭 상담하시기 바랍니다.

{ FASTCAMPUS COMMUNITY MEMBERSHIP }

패스트캠퍼스 오프라인 강의를 수강하셨다면!
별도의 가입절차없이 패스트캠퍼스 커뮤니티 멤버쉽 회원이 됩니다.
커뮤니티 멤버쉽은 수강 후 1년 동안 유지되며,
오직 멤버들만을 위한 비공개 스터디클럽, 네트워킹행사, 세미나 등 비정기적 행사에 모실 예정입니다.

매주 목요일마다 할인 마감!

수강료 안내

강의 정보, 한 번 더 확인!

기 간 : 2019. 9. 19 ~ 2019. 11. 18 (10/3 휴강)
일 정 : 매주 목요일 19:30 ~ 22:30 (주 1회 수업)
준비물 : 필기구, 개인 노트북
장 소 : 패스트캠퍼스 강의장


다음 모집은 언제죠?

출시알림을 신청해주세요

최저가로 강의를 수강할 수 있게, 강의 홍보 시작 시 가장 먼저 메일을 보내드립니다.

강의장 안내

한국어 특성+분석 알고리즘+코딩까지 텍스트마이닝의 정수!

 

모집 준비중