R을 활용한
텍스트마이닝
CAMP.

현업 전문가의 노하우가 담긴,
진짜 와 닿는 텍스트 분석을 배우세요.

기 간 일 정 장 소 준비물 문 의
2019년 3월 23일 ~ 5월 18일
(휴강 : 5월 11일)
토요일 오전 10시 ~ 1시
(회 당 3시간, 총 24시간)
패스트캠퍼스 강남 강의장 개인 노트북 권장 이샘 매니저 tel. 02-518-4822
help-ds@fastcampus.co.kr

텍스트 데이터를 분석하면
어떤 인사이트를 얻을 수 있을까?

1080
1080_@
1080_3
rtm_4

텍스트 속 인사이트를
발견하는 역량
을 기르고 싶으신가요?”

R 핵심 문법부터 텍스트 마이닝 이론, 실습, 비즈니스 활용법까지 담은 본 강의를 주목하세요!

추천 대상.

r텍마_타겟1

텍스트 데이터를 분석해
마켓 인사이트를 도출하여,
상품 판매 및 마케팅 전략에
활용하고 싶은 기획자 및 마케터.

r텍마_타겟2

연구 보고서/논문 작성에
텍스트 마이닝을 활용해
연구 결과를 분석하거나
새로운 연구를 기획하고 싶은
실무자 및 연구원.

r텍마_타겟3

R이 뭔지는 잘 모르지만,
텍스트 마이닝을 공부해서
성장하고 싶은 분 누구나.

# R을 사용해 본 경험이 없는데, 캠프를 수강해도 괜찮을지 걱정되시나요?

물론 R을 활용해 본 경험이 있으신 분들이라면 가장 적합하겠으나, ‘텍스트 분석’ 자체에 관심이 있으신 분들을 위해 강의 초반 R 기초 및 기본적인 데이터 핸들링 강의를 진행할 예정입니다. 따라서, 충분히 예/복습을 진행하신다면 R경험이 없으시더라도 수강이 가능합니다.

# 강의 중 실습은 어떻게 진행되나요?

실무에서 자주 활용되는 웹 데이터 자료를 활용하여 전처리, 키워드 추출, 분석 등의
실습을 진행합니다. 실습에 필요한 자료들은 모두 제공됩니다.

강의 특징.

1

텍스트 분석 + 시각화 + 보고서 All-in-one.

자신의 목적에 맞는 인사이트 도출에 최적화한 커리큘럼

본 캠프에서는 키워드 연관 분석부터, 군집화, 분류, 감성 분석 등 다양한 텍스트 분석을 실제 데이터를 활용해 실습합니다. 뿐만 아니라 간단한 워드 클라우드가 아닌 Shiny를 활용한 인터렉티브한 결과물 시각화 등 보다 심화된 시각화 방법을 배웁니다. 이를 기반으로 수강생의 목적에 맞는 전략 보고서를 작성하는 것까지 가르쳐드리는 Ali-in-ONE 강의입니다.

2

R 초보자를 위한, 독학용 스크립트 제공

수업 후에도 혼자 공부하실 수 있도록.

텍스트 분석은 수치 데이터 분석보다 까다롭기 때문에 수업 이외에도 꾸준한 예습/복습이 중요합니다. 특히, R에 익숙하지 않다면 더욱 중요합니다. 본 캠프에서는 수강생분들이 코드를 한 줄 한 줄 꼼꼼히 이해하고, 복습에 용이하도록 매 실습에 맞춘 R 스크립트를 별도로 제공합니다. 

3

현업 전문가의 1:1 피드백

다양한 프로젝트 경험을 통한 노하우 공유

텍스트마이닝은 단순히 분석하는 것이 아니라,  그 결과를 어떻게 해석하고, 전략을 도출하느냐가 관건입니다. 본캠프에서는 2010년부터 금융업, 제조업, 서비스업 등의 분석 프로젝트는 물론 비즈니스와 연계한 VOC데이터나 소셜데이터의 활용까지 풍부한 실무 경험을 가진 강사님의 실전 노하우를 전합니다.

곧, 당신이 직접 만들어 낼
텍스트마이닝 예시.

“가전제품에 대한 카페 댓글 데이터를 바탕으로 하여 아래와 같이 4가지 형태의 결과물을 도출하였습니다.”

“가전제품에 대한 카페 댓글 데이터를 바탕으로 하여 아래와 같이 4가지 형태의 결과물을 도출하였습니다.”

Keyword Network

카페 댓글에서 주요한 키워드을 추출하여, 단어 간의 연관성을 살펴보고 이를 시각화 한 자료입니다. 더 중요한 키워드 일수록 빨간색, 연관성이 클수록 선의 굵기가 굵게 표시됩니다.

Wordcloud

카페 댓글에서 단어 출현 빈도에 따라 단어의 size 및 color를 결정하고 scale 값을 조정하여 시각화한 자료입니다. 시각화의 모양은 자신이 원하는 대로 조정이 가능한데, 위 자료는 ‘TEXT’ 틀에 맞춰 워드클라우드를 한 상태입니다.

토픽 클러스터링 (LDA 활용)

댓글에서 나온 여러가지 키워드(단어)들 중 유사한 의미가 있는 것끼리 서로 군집화 하는 토픽 클러스터링 결과물 영상 자료입니다.

키워드 네트워크맵 (Shiny 활용)

특정 단어의 연관 키워드를 보는 기법인 키워드 네트워크맵 분석 결과 영상입니다. 코드를 처음부터 다시 돌려볼 필요 없이 Shiny application을 통해 버튼 하나로 상관도를 조절하며 특정 값 이상만 찾아낼 수 있습니다.

“무턱대고 텍스트 분석 이론을 나열하는 강의가 아니라, 해결하고 싶은 문제를 두고,
어떻게 텍스트 분석을 적용할 지 먼저 고민한 후, 적절한 알고리즘을 찾는 것.

그게 진짜 와닿는 그리고 진짜 써먹을 수 있는 분석 스킬을 가르쳐 드리는 길이라고 생각합니다.”

 

– [R을 활용한 텍스트마이닝 CAMP] 김남윤 강사님

수강 후기.

텍스트 속 트렌드 인사이트를 파악해 이를 신규 UX 기획에 반영하고 싶어 강의를 들었는데, 이 강의를 통해 R 프로그램의 기본 사용법 및 이를 활용한 텍스트 분석 및 인사이트 도출 능력을 얻을 수 있었습니다.

6기 수강생 조민경 님 후기 보러가기

강의에서 강사님께서 데이터를 제공해주신 것을 가지고 텍스트마이닝을 해보았는데, 정말 도움이 많이 되었습니다. 이렇게 말해도 될지 모르겠지만, 주신 데이터들이 아주 지저분한 데이터였어요. 그래서 정말 좋았습니다. 실무에선 분석하기 좋게 깨끗하게 정리된 데이터가 존재하지 않습니다. 그래서 분석하기 전에 먼저 데이터를 전처리하는 과정이 정말 중요한데, 이런 전처리 과정을 강사님께서 많이 보여주셨습니다. 만약, 전처리 하는 부분 없이 텍스트마이닝 기법에 대해서만 가르쳐주셨다면 입문자로서는 정말 막막했을 것 같습니다.

3기 수강생 이성민 님 후기 보러가기

기본적으로 R을 이용한 데이터 핸들링 하는 방법 및 텍스트 데이터 전처리 기법, 분석의 전반적인 흐름(flow), Corpus/DTM의 개념, 다양한 텍스트 마이닝 기법들, 모델 평가 방법론까지 그러고 보니 8주 동안 참 많은 것들을 배울 수 있었는데요, 방법론에 대한 개념도 이해하기 쉽게 설명해 주시고, 무엇보다도 기업에서 실제로 텍스트 마이닝을 활용한 분석 프로젝트를 많이 수행하셨던 강사님의 다양한 사례와 노하우를 함께 들을 수 있어서 굉장히 유익했다고 생각합니다. 기초적인 텍스트 마이닝 개념과 프로세스는 물론 심도 있는 기법 및 모델 평가까지 정말 체계적으로 깊이 있게 배워 실제 활용까지 하고 싶은 분들에게 R을 활용한 텍스트마이닝 CAMP 강의를 적극 추천드리고 싶습니다.

1기 수강생 최란 님 후기 보러가기

키워드 간의 관계를 분석하는 파트가 가장 흥미로웠습니다. 강사님이 현업에 계시다보니 다양한 비즈니스와 마케팅에서 활용되는 텍스트 분석들을 생생하게 배울 수 있었다고 생각합니다.

2기 수강생 정재욱 님 후기 보러가기

커리큘럼.

R을 잘 몰라도, 8주 후 텍스트를 직접 분석하게 만들어 줄

체계적인 3단계 커리큘럼.

PART 1. 텍스트 분석을 위한 데이터 전처리
1회차 Step1. 자연어처리와 형태소 분석 이해
자연어 처리의 기본 개념을 이해하고, 한국어 처리방법에 대하여 알아봅니다. 텍스트 분석을 위한 R과 형태소 분석기 설치 및 사용법을 알려드립니다.
이론 - 자연어처리에 대한 기본 개념 이해
- 텍스트 분석 사례
- 검색엔진 작동원리를 통한 형태소 분석에 대한 이해
- 오픈소스 형태소 분석기에 설명
실습 - R /Rstudio 설치 및 사용법 설명
- 형태소분석기 설치
2회차 Step2. 데이터 핸들링을 위한 기초 R 문법 학습
R이라는 분석툴과 친숙해져봅시다. R에서 데이터전처리 및 분석을 진행하기 위한 기본적인 함수 및 시각화 방법을 배웁니다.
이론 - R data handling (apply, dplyr 등)
- R 문자 data handling
- 데이터 시각화 방법 (ggplot)
실습 - R에서의 패키지 설치 및 불러오기
- 데이터 불러오기 및 저장하기
- 여러 개의 데이터를 결합하기
- 데이터 재구조화 하기
- 제어문 / 반복문 및 간단한 함수 만들기
3회차 Step3. R에서의 텍스트데이터 전처리
R에서 텍스트 데이터를 처리하기 위한 기본적인 함수를 익히고, R 텍스트 마이닝 패키지 tm과 형태소분석 패키지 NLP4kec 사용법에 대해 알아봅니다.
이론 - NLP4kec package를 통한 형태소 분석
- 텍스트데이터 전처리
- DTM 생성 및 TF-IDF 이해
- tm, konlp package 기본 사용법
실습 - 텍스트마이닝을 위한 패키지 설치 및 활용
- 문자열 전처리(특수문자 제거, 특정 단어 삭제, 동의어 처리, 숫자 삭제 등)
- 텍스트 분석의 기본인 단어 빈도수 시각화 하기
- 워드클라우드 및 트리맵 그리기
PART 2. 본격! R을 활용한 텍스트마이닝
4회차 Step1. 문서내 핵심 키워드 추출 및 연관 키워드 분석
뉴스나 블로그 글을 일일이 읽지 않아도 텍스트데이터 내에서 중요한 키워드를 선별할 수 있고, 키워드간의 관계를 네트워크 맵으로 시각화하는 방법을 배웁니다.
이론 - 단어빈도와 문서빈도 관계에 대한 이해
- 연관 키워드 네트워크 분석
- R shiny와 ggplot을 이용한 시각화
- word2vec를 이용한 단어간 유사도 측정
실습 DATA : 가전제품에 대한 카페 댓글
- 연관 키워드 추출하기 (냉장고와 가장 연관도가 높은 단어는 무엇일까?)
- 단어간 상관관계 구하기 (냉장고와 에어컨은 얼마나 상관성이 있을까?)
- 전체 단어간의 관계 시각화하기
- 연관 키워드 네트워크 맵 그리기
- 특정 키워드만 선택하여 네트워크 맵 그리기
5회차 Step2. Word Embedding 및 문서 분류기법
Word embedding에 대해 알아보고, word embedding을 활용하여 단어간 유사도를 구하고, 문서를 분류하는 방법에 대해 배웁니다.
이론 - word embedding에 대한 이해
- 벡터 간 거리 및 유사도 측정 방법 이해 (consine, 유클리드)
실습 - word2vec을 이용한 단어간 cosine 유사도 측정
- cosine 유사도를 활용한 키워드 네트워크 분석
- word2vec을 이용한 문서 분류
6회차 Step3. 비슷한 주제의 문서를 자동으로 군집화 해주는 토픽 clustering의 이해
비슷한 주제의 문서를 자동으로 군집화 해주는 토픽 클러스터링 기법에 대해 배웁니다. 토픽 클러스터링 기법은 사람이 직접 다 읽어볼 수 없는 대량의 문서에서 주제를 나타내는 핵심 키워드를 찾아 쉽고 빠르게 문의 내용 분류가 가능합니다.
이론 - LDA기반의 토픽클러스터링 이해
- topicmodel 패키지를 활용한 토픽클러스터링 분석 및 시각화
실습 DATA :콜센터 데이터
- 문서를 읽지 않고도, 문서 내에서 주요한 토픽을 추출하여 보기
- 각 토픽을 대표하는 단어를 추출하기
- 클러스터링 결과 및 단어의 분포를 동적으로 시각화하기
- 토픽 클러스터링 시각화 결과 해석
7회차 Step4. 머신러닝 기법을 통한 문서 Classification (감성분류)
문서를 특정 카테고리로 분류하기 위한 지도학습 머신러닝 알고리즘을 학습하고, 직접 감성분류 모델을 개발합니다.
이론 - 분류모델을 이해하기 위한 조건부 확률 학습
- 나이브베이즈 기법을 통한 문서 분류
- SVM 을 통한 문서분류
실습 DATA :쇼핑몰 댓글 데이터
- 나이브베이지안 모델링을 통한 스팸 문서 예측하기
- SVM 모델링을 통한 스팸 문서 예측하기
- 새로운 댓글이 들어왔을 때 분류 예측 결과 확인하기
8회차 Step4. 분류 모델 평가 및 성능 높이기
R에서 만든 분류 모델의 성능을 평가해보고, 성능을 높일 수 있는 방법에 대하여 알아봅니다.
이론 - 분류 모델에 대한 성능 평가 방안
- 분류 모델 성능 향상을 위한 caret 패키지 사용법
실습 DATA :상품 구매 만족도 데이터
- 다수의 약한 학습기를 결합하여 하나의 강한 학습기를 만드는 앙상블 기법 학습하기
- 모델링을 쉽게 할 수 있게 해주는 caret 패키지를 사용하여 샘플링, 모델평가 과정을 자동화기
PART 3. 실제 텍스트마이닝을 활용한 마케팅 전략 수립 사례 소개
8회차 step1. 텍스트 마이닝 비즈니스 적용 사례 소개
앞에서 배운 텍스트 분석 기법을 활용하여 VOC, 소셜, 뉴스 등의 텍스트 데이터를 분석하여 실제 비즈니스에 적용한 사례에 대해 소개합니다.
이론 - 여러 업무분야에서 텍스트 분석을 적용한 비즈니스 사례 소개
- 텍스트 분석을 활용한 마케팅 전략 수립 사례 소개

강사 소개.

rtmins

김남윤 강사님

현재 사내에서 데이터 분석 업무를 담당하고 있습니다. 2010년 부터 다년간 SAS, LG CNS, 아모레퍼시픽, 금융권에서 다양한 분석 실무 경험을 쌓았습니다. 특히 소셜 분석 서비스를 개발하면서 현업의 비즈니스와 연계하여 인사이트를 도출 할 수 있는 텍스트마이닝 활용 기술을 연구/개발 하였습니다.

[약력]

– 현 카카오 데이터 분석 업무 담당
– 전 아모레퍼시픽 데이터 분석 및 마케팅 퍼포먼스 담당
– 전 LG CNS 빅데이터 센터 근무 (텍스트마이닝 연구 및 분석컨설팅)
– 전 LIG System 근무 (분석솔루션 개발)
– 전 SAS Korea 근무

현업 전문가의 노하우가 담긴 ‘진짜 와닿는’ 텍스트 분석을 배우고 싶다면!

R을 활용한 텍스트마이닝 CAMP

일    정 2019.3.23.~ 2019.5.18. 휴강 5월 11일
매주 토요일 10:00 ~ 13:00 | 총 8주
준비물 개인 노트북 사용 추천
(본인 PC에 맞는 개발 환경 설정 및 원활한 개별 실습을 위하여)
장    소 패스트캠퍼스 강남 본원
문    의 이샘 매니저 : 02-518-4822 | help-ds@fastcampus.co.kr
메일로 문의 주실 경우 자세한 상담을 원하신다면 휴대폰 번호, 상담가능 시간을 남겨주세요!

135만 원 (정가 : 150만원)

10% OFF [~3/21 얼리버드 할인!]

※할인가는 매주 목요일 자정에 변경됩니다.
※ 카드 12개월 무이자 할부 가능!

수강 신청하기

강의장 안내