R을 활용한 텍스트마이닝 CAMP

실무에서 활용범위가 높은 진짜 분석이 필요할 때,
현직 실무자가 말하는 진짜 써먹을 수 있는 분석 스킬!

  • #텍스트마이닝
  • #트렌드파악
  • #고객니즈파악
기간
2020. 9. 15 - 2020. 11. 10 총 8주 (개인 노트북 지참)
일정
매주 화요일 19:30 ~ 22:30 주 1회, 총 24시간 (9월 29일 휴강)
장소
패스트캠퍼스 강남강의장 강남역 4번출구, 미왕빌딩
문의
02-568-9886 help-ds@fastcampus.co.kr

텍스트 데이터를 분석하면
어떤 인사이트를 얻을 수 있을까?

제품에 대한 고객의 관심도 추이, 상품에 대한 최신 트렌드를 알 수 있어요.

브랜드 이미지를 고객이 어떻게 느끼는지, 연관된 키워드가 무엇인지 알 수도 있어요.

제품, 서비스를 구매하는 고객들의 성향 및 취향, 특정한 관심사가 무엇인지 파악해 마케팅 전략에 활용할 수 있어요!

인터넷 커뮤니티에서 어떤 단어를 주로 사용하는지, 연관된 단어가 무엇인지 파악해 학술연구 및 논문 결과 분석에 활용할 수 있어요.

텍스트마이닝으로 인사이트를 찾고
분석하는 능력은 선택이 아닌 필수입니다.


누구나 쉽게 쓰는 텍스트 마이닝 언어?
파이썬보다는 R이 안성맞춤입니다.


강의특징.
1.
텍스트 분석 + 시각화 + 보고서
ALL-IN-ONE.


자신의 목적에 맞는 인사이트 도출에 최적화한 커리큘럼
-
본 캠프에서는 키워드 연관 분석부터, 군집화, 분류, 감성 분석 등 다양한 텍스트 분석을 실제 데이터를 활용해 실습합니다. 뿐만 아니라 간단한 워드 클라우드가 아닌 Shiny를 활용한 인터렉티브한 결과물 시각화 등 보다 심화된 시각화 방법을 배웁니다. 이를 기반으로 수강생의 목적에 맞는 전략 보고서를 작성하는 것까지 가르쳐드리는 Ali-in-ONE 강의입니다.

2.
독학용 스크립트 및 코드,
형태소 분석기 제공


수업 후에도 혼자 공부하실 수 있도록.
-
텍스트 분석은 수업 이외에도 꾸준한 예습/복습이 중요합니다. 초보자들이 코드를 한 줄 한 줄 꼼꼼히 이해하고, 복습에 용이하도록 매 실습에 맞춘 R 스크립트를 별도로 제공합니다. 또한, 공개된 형태소 분석기를 사용하는 것이 아니라, 강사님께서 직접 개발하신 고성능 형태소 분석기까지 제공하여 드립니다. 이를 통해 수업시간에 배운 내용을 바로 실무에서 활용하실 수 있습니다.

3.
현업 전문가의 1:1 피드백 및
조교를 통한 케어


다양한 프로젝트 경험을 통한 노하우 공유
-
텍스트마이닝은 단순 분석보다 그 결과를 어떻게 해석하고, 전략을 도출하느냐가 핵심입니다. 2010년부터 금융업, 제조업, 서비스업 등의 분석 프로젝트는 물론 비즈니스와 연계한 VOC데이터나 소셜데이터의 활용까지 풍부한 실무 경험을 가진 강사님의 실전 노하우를 전합니다. 또한, 강의를 못 따라갈까봐 두려우신 초보자 분들을 위하여 이론과 실습을 보조하여 주실 조교님께서 강의에 상주해 도움을 드립니다.

8주 후, 여러분은

기초적인 텍스트 분석인 워드클라우드 및 클러스터링, 문서 분류 등의 고급 텍스트 분석도 가능해집니다.

문서를 일일이 보지 않아도, 비슷한 주제를 자동으로 군집화 하여 이를 시각적으로 나타낼 수 있습니다.

수준 높은 보고서 작성 등 텍스트마이닝을 사용하여 실무에서 다양한 활용이 가능해집니다.

실제 수강생이 만들어낸 데이터 분석 결과물!
8주 뒤, 여러분도 인사이트를 뽑을 수 있습니다!

1기 수강생 최란님은 온라인 쇼핑몰 구매자들의 상품평/리뷰 텍스트로
#WORDCLOUD #TREEMAP #키워드 네트워크맵 #토픽 클러스터 결과물을 완성했습니다

“향후 현업에서 실제 마주하게 될 상황들 (ex.데이터 크롤링/ 데이터 format/ Dictionary 관리/ 오픈 소스 형태소 분석기 활용/ 영어·중국어 텍스트 마이닝을 하고 싶을 때 형태소 분석 / Supervised Data 생성 / 모델 성능 평가 등)에 대한 Tip이 많은 도움이 되었습니다.

또, 텍스트 분석 결과를 시각화하는 부분까지 직접 하나하나 실습해 보면서 R의 강점을 몸소 느낄 수 있었고, web 상에서 대시보드로 표현하는 부분(shiny, tomcat)까지 배우고 나니 분석 결과를 공유할 때 더 효과적으로 전달하는 방법을 배울 수 있었습니다.”

-1기 수강생 최란님-

추천대상

텍스트 데이터를 분석해 마켓 인사이트를 도출하여, 상품 판매 및 마케팅 전략에 활용하고 싶은 기획자 및 마케터.

연구 보고서/논문 작성에 텍스트 마이닝을 활용해 연구 결과를 분석하거나 새로운 연구를 기획하고 싶은 실무자 및 연구원.

R이 뭔지는 잘 모르지만, 텍스트 마이닝을 공부해서 성장하고 싶은 분 누구나.

# R을 사용해 본 경험이 없는데, 캠프를 수강해도 괜찮을지 걱정되시나요?

물론 R을 활용해 본 경험이 있으신 분들이라면 가장 적합하겠으나, ‘텍스트 분석’ 자체에 관심이 있으신 분들을 위해 강의 초반 R 기초 및 기본적인 데이터 핸들링 강의를 진행할 예정입니다. 따라서, 충분히 예/복습을 진행하신다면 R경험이 없으시더라도 수강이 가능합니다.

# 강의 중 실습은 어떻게 진행되나요?

실무에서 자주 활용되는 웹 데이터 자료를 활용하여 전처리, 키워드 추출, 분석 등의 실습을 진행합니다. 실습에 필요한 자료들은 모두 제공됩니다.

곧, 당신이 직접 만들어 낼
텍스트마이닝 예시.

가전제품에 대한 카페 댓글 데이터를 바탕으로 하여 아래와 같이 4가지 형태의 결과물을 도출하였습니다.

KEYWORD NETWORK

카페 댓글에서 주요한 키워드을 추출하여, 단어 간의 연관성을 살펴보고 이를 시각화 한 자료입니다. 더 중요한 키워드 일수록 빨간색, 연관성이 클수록 선의 굵기가 굵게 표시됩니다.

WORDCLOUD

카페 댓글에서 단어 출현 빈도에 따라 단어의 size 및 color를 결정하고 scale 값을 조정하여 시각화한 자료입니다. 시각화의 모양은 자신이 원하는 대로 조정이 가능한데, 위 자료는 ‘TEXT’ 틀에 맞춰 워드클라우드를 한 상태입니다.

토픽 클러스터링 (LDA 활용)

댓글에서 나온 여러가지 키워드(단어)들 중 유사한 의미가 있는 것끼리 서로 군집화 하는 토픽 클러스터링 결과물 영상 자료입니다.

키워드 네트워크맵 (SHINY 활용)

특정 단어의 연관 키워드를 보는 기법인 키워드 네트워크맵 분석 결과 영상입니다. 코드를 처음부터 다시 돌려볼 필요 없이 Shiny application을 통해 버튼 하나로 상관도를 조절하며 특정 값 이상만 찾아낼 수 있습니다.

무턱대고 텍스트 분석 이론을 나열하는 강의가 아니라, 해결하고 싶은 문제를 두고,
어떻게 텍스트 분석을 적용할 지 먼저 고민한 후, 적절한 알고리즘을 찾는 것.
그게 진짜 와닿는 그리고 진짜 써먹을 수 있는 분석 스킬을 가르쳐 드리는 길이라고 생각합니다.


[R을 활용한 텍스트마이닝 CAMP]
김남윤 강사님

수강후기.
6기 수강생 조민경님

텍스트 속 트렌드 인사이트를 파악해 이를 신규 UX 기획에 반영하고 싶어 강의를 들었는데, 이 강의를 통해 R 프로그램의 기본 사용법 및 이를 활용한 텍스트 분석 및 인사이트 도출 능력을 얻을 수 있었습니다.

2기 수강생 정재욱 님

키워드 간의 관계를 분석하는 파트가 가장 흥미로웠습니다. 강사님이 현업에 계시다보니 다양한 비즈니스와 마케팅에서 활용되는 텍스트 분석들을 생생하게 배울 수 있었다고 생각합니다.

3기 수강생 이성민님

강의에서 강사님께서 데이터를 제공해주신 것을 가지고 텍스트마이닝을 해보았는데, 정말 도움이 많이 되었습니다. 이렇게 말해도 될지 모르겠지만, 주신 데이터들이 아주 지저분한 데이터였어요. 그래서 정말 좋았습니다. 실무에선 분석하기 좋게 깨끗하게 정리된 데이터가 존재하지 않습니다. 그래서 분석하기 전에 먼저 데이터를 전처리하는 과정이 정말 중요한데, 이런 전처리 과정을 강사님께서 많이 보여주셨습니다. 만약, 전처리 하는 부분 없이 텍스트마이닝 기법에 대해서만 가르쳐주셨다면 입문자로서는 정말 막막했을 것 같습니다.

1기 수강생 최란 님

기본적으로 R을 이용한 데이터 핸들링 하는 방법 및 텍스트 데이터 전처리 기법, 분석의 전반적인 흐름(flow), Corpus/DTM의 개념, 다양한 텍스트 마이닝 기법들, 모델 평가 방법론까지 그러고 보니 8주 동안 참 많은 것들을 배울 수 있었는데요, 방법론에 대한 개념도 이해하기 쉽게 설명해 주시고, 무엇보다도 기업에서 실제로 텍스트 마이닝을 활용한 분석 프로젝트를 많이 수행하셨던 강사님의 다양한 사례와 노하우를 함께 들을 수 있어서 굉장히 유익했다고 생각합니다. 기초적인 텍스트 마이닝 개념과 프로세스는 물론 심도 있는 기법 및 모델 평가까지 정말 체계적으로 깊이 있게 배워 실제 활용까지 하고 싶은 분들에게 R을 활용한 텍스트마이닝 CAMP 강의를 적극 추천드리고 싶습니다.


R을 잘 몰라도, 8주 후 텍스트를 직접 분석하게 만들어 줄
체계적인 3단계 커리큘럼.

Part 1. 텍스트 분석을 위한 데이터 전처리

1회차.
자연어처리와 형태소 분석 이해
자연어 처리의 기본 개념을 이해하고, 한국어 처리방법에 대하여 알아봅니다. 텍스트 분석을 위한 R과 형태소 분석기 설치 및 사용법을 알려드립니다.

📕이론
- 자연어처리에 대한 기본 개념 이해
- 텍스트 분석 사례
- 검색엔진 작동원리를 통한 형태소 분석에 대한 이해
- 오픈소스 형태소 분석기에 설명

✏️실습
- R /Rstudio 설치 및 사용법 설명
- 형태소분석기 설치
2회차.
데이터 핸들링을 위한 기초 R 문법 학습
R이라는 분석툴과 친숙해져봅시다. R에서 데이터전처리 및 분석을 진행하기 위한 기본적인 함수 및 시각화 방법을 배웁니다.

📕이론
- R data handling (apply, dplyr 등)
- R 문자 data handling
- 데이터 시각화 방법 (ggplot)

✏️실습
- R에서의 패키지 설치 및 불러오기
- 데이터 불러오기 및 저장하기
- 여러 개의 데이터를 결합하기
- 데이터 재구조화 하기
- 제어문 / 반복문 및 간단한 함수 만들기
3회차.
R에서의 텍스트데이터 전처리
R에서 텍스트 데이터를 처리하기 위한 기본적인 함수를 익히고, R 텍스트 마이닝 패키지 tm과 형태소분석 패키지 NLP4kec 사용법에 대해 알아봅니다.

📕이론
- NLP4kec package를 통한 형태소 분석
- 텍스트데이터 전처리
- DTM 생성 및 TF-IDF 이해
- tm, konlp package 기본 사용법

✏️실습
- 텍스트마이닝을 위한 패키지 설치 및 활용
- 문자열 전처리(특수문자 제거, 특정 단어 삭제, 동의어 처리, 숫자 삭제 등)
- 텍스트 분석의 기본인 단어 빈도수 시각화 하기
- 워드클라우드 및 트리맵 그리기

Part 2. 본격! R을 활용한 텍스트마이닝

4회차.
문서내 핵심 키워드 추출 및 연관 키워드 분석
뉴스나 블로그 글을 일일이 읽지 않아도 텍스트데이터 내에서 중요한 키워드를 선별할 수 있고, 키워드간의 관계를 네트워크 맵으로 시각화하는 방법을 배웁니다.

📕이론

- 단어빈도와 문서빈도 관계에 대한 이해
- 연관 키워드 네트워크 분석
- R shiny와 ggplot을 이용한 시각화
- word2vec를 이용한 단어간 유사도 측정

✏️실습
DATA : 가전제품에 대한 카페 댓글
- 연관 키워드 추출하기 (냉장고와 가장 연관도가 높은 단어는 무엇일까?)
- 단어간 상관관계 구하기 (냉장고와 에어컨은 얼마나 상관성이 있을까?)
- 전체 단어간의 관계 시각화하기
- 연관 키워드 네트워크 맵 그리기
- 특정 키워드만 선택하여 네트워크 맵 그리기
5회차.
WORD EMBEDDING 및 문서 분류기법
Word embedding에 대해 알아보고, word embedding을 활용하여 단어간 유사도를 구하고, 문서를 분류하는 방법에 대해 배웁니다.

📕이론
- word embedding에 대한 이해
- 벡터 간 거리 및 유사도 측정 방법 이해 (consine, 유클리드)

✏️실습
- word2vec을 이용한 단어간 cosine 유사도 측정
- cosine 유사도를 활용한 키워드 네트워크 분석
- word2vec을 이용한 문서 분류
6회차.
비슷한 주제의 문서를 자동으로 군집화 해주는 토픽 clustering의 이해
비슷한 주제의 문서를 자동으로 군집화 해주는 토픽 클러스터링 기법에 대해 배웁니다. 토픽 클러스터링 기법은 사람이 직접 다 읽어볼 수 없는 대량의 문서에서 주제를 나타내는 핵심 키워드를 찾아 쉽고 빠르게 문의 내용 분류가 가능합니다.

📕이론
- LDA기반의 토픽클러스터링 이해
- topicmodel 패키지를 활용한 토픽클러스터링 분석 및 시각화

✏️실습
DATA :콜센터 데이터

- 문서를 읽지 않고도, 문서 내에서 주요한 토픽을 추출하여 보기
- 각 토픽을 대표하는 단어를 추출하기
- 클러스터링 결과 및 단어의 분포를 동적으로 시각화하기
- 토픽 클러스터링 시각화 결과 해석
7회차.
머신러닝 기법을 통한 문서 Classification (감성분류)
문서를 특정 카테고리로 분류하기 위한 지도학습 머신러닝 알고리즘을 학습하고, 직접 감성분류 모델을 개발합니다.

📕이론
- 분류모델을 이해하기 위한 조건부 확률 학습
- 나이브베이즈 기법을 통한 문서 분류
- SVM 을 통한 문서분류

✏️실습
DATA :쇼핑몰 댓글 데이터
- 나이브베이지안 모델링을 통한 스팸 문서 예측하기
- SVM 모델링을 통한 스팸 문서 예측하기
- 새로운 댓글이 들어왔을 때 분류 예측 결과 확인하기
8회차 (1)
분류 모델 평가 및 성능 높이기
R에서 만든 분류 모델의 성능을 평가해보고, 성능을 높일 수 있는 방법에 대하여 알아봅니다.

📕이론
- 분류 모델에 대한 성능 평가 방안
- 분류 모델 성능 향상을 위한 caret 패키지 사용법

✏️실습
DATA :상품 구매 만족도 데이터
- 다수의 약한 학습기를 결합하여 하나의 강한 학습기를 만드는 앙상블 기법 학습하기
- 모델링을 쉽게 할 수 있게 해주는 caret 패키지를 사용하여 샘플링, 모델평가 과정을 자동화기

Part 3. 실제 텍스트마이닝을 활용한 마케팅 전략 수립 사례 소개

8회차 (2)
텍스트 마이닝 비즈니스 적용 사례 소개
앞에서 배운 텍스트 분석 기법을 활용하여 VOC, 소셜, 뉴스 등의 텍스트 데이터를 분석하여 실제 비즈니스에 적용한 사례에 대해 소개합니다.

📕이론
- 여러 업무분야에서 텍스트 분석을 적용한 비즈니스 사례 소개
- 텍스트 분석을 활용한 마케팅 전략 수립 사례 소개
강사소개.
[약력]
– 현 K사 데이터 분석 업무 담당
– 전 아모레퍼시픽 데이터 분석 및 마케팅 퍼포먼스 담당
– 전 LG CNS 빅데이터 센터 근무 (텍스트마이닝 연구 및 분석컨설팅)
– 전 LIG System 근무 (분석솔루션 개발)
– 전 SAS Korea 근무
현재 사내에서 데이터 분석 업무를 담당하고 있습니다. 2010년 부터 다년간 SAS, LG CNS, 아모레퍼시픽, 금융권에서 다양한 분석 실무 경험을 쌓았습니다. 특히 소셜 분석 서비스를 개발하면서 현업의 비즈니스와 연계하여 인사이트를 도출 할 수 있는 텍스트마이닝 활용 기술을 연구/개발 하였습니다.
강의장 안내.
유의사항 및 환불규정.

수강료.

  • R을 활용한 텍스트마이닝 14기 특별할인

    현재 정가 대비 20% 할인 중!
    8월 7일 금요일 정오 까지

    정가 1,500,000원
    현재 판매가 1,200,000원

    12개월 무이자 할부 시 월 100,000원

국내 9개 카드사 12개월 무이자 할부 지원!

  • 삼성카드
  • 신한카드
  • 롯데카드
  • 현대카드
  • 하나카드
  • BC카드
  • KB국민은행
  • 씨티카드
  • NH농협카드