R로 원하는 데이터를 마음껏 수집하고 싶다면!

을 활용한
실전 웹크롤링 CAMP

  • 100% R로 진행하는
    웹크롤링 수업

  • 웹구조 이해부터
    웹크롤링 자동화까지

  • 강사님의 온/오프라인
    1:1 피드백

  • 기간

    2019년 1월 22일
    ~ 3월 19일
    (주 1회, 총 8주)

  • 일정

    매주 화요일
    저녁 7:30 -10:30
    (회당 3시간,총 24시간)

  • 장소

    강남 패스트캠퍼스 강의장

  • 문의

    이샘 매니저
    02-518-4822
    help-ds
    @fastcampus.co.kr

강의 목표 .

R로 내가 원하는 데이터/정보를 웹사이트에서 자유자재로 크롤링하고, 웹크롤러 자동화까지 완성하는 것.

R로 웹크롤링을 하는데 있어
당신이 가지는 심각한 오해

웹크롤링은
파이썬만 가능하다?

R로는 웹크롤링을
진행하는데 한계가 있다?

대답은 모두 NO

R로도 파이썬으로 할 수 있는 웹크롤링을 모두 할 수 있습니다!

하지만,
지금까지 R 유저들은 웹크롤링을 하기 위해서 파이썬을 다시 학습해야 하는 불편함을 겪어 왔습니다.
왜냐하면 R로 크롤링을 하는 정보를 온/오프라인에서 찾아볼 수 없었기 때문이죠.

R을 활용하면 마케터, 기획자 등 비개발자도 손쉽게 크롤링 할 수 있습니다.

crown

그래서 패스트캠퍼스가 준비했습니다.

R을 활용하여 원하는 데이터를 자유자재로 크롤링 할 수 있게 만들어 줄

{국내 유일의 R을 활용한 실전 웹크롤링 강의.}

강의 특징 . 

1

원하는
사이트를
자유자재로 크롤링!

R로 웹크롤링을 하다 막히면, 구글링으로도 해결이 어려울만큼 관련 정보가 부족합니다. 때문에 많은 분들이 크롤링에 도전하지만 쉽게 포기하곤 하죠. 본 수업에서는 크롤링을 하는 ‘방법’을 익혀, 자신이 원하는 사이트를 직접 크롤링할 수 있도록 가르쳐드립니다.

2

웹크롤링 경험이
풍부한 강사님의
실전 노하우 전수

크롤링은 사이트마다 방법이 달라 강사님의 실무 경험이 매우 중요합니다. 실무 경험이 풍부한 강사님으로부터 실전 노하우를 모두 배워가세요. 강사님께 온/오프라인으로 마음껏 질문할 수 있어, 궁금하거나 어려운 부분을 모두 해결할 수 있습니다.

3

누구나 쉽게
배울 수 있는
R을 활용한 강의

본 수업에서는 100% R을 활용하여 웹크롤링을 진행합니다. 온/오프라인에서 찾아볼 수 없었던 R을 활용한 웹크롤링의 노하우를 제공하며, 마케터나 기획자와 같은 비개발자 분들도 쉽게 배우실 수 있습니다.

곧 당신이 하게 될
실전 웹크롤링 예시 .

실전 웹크롤링 예시 1)
카카오 TV 동영상 제목 수집하기

실전 웹크롤링 예시 2)
카카오 TV 동영상 채널명 수집하기

icon_man3_2_happy-1024x1024

본 강의를 듣고 나면, 이 정도 웹크롤링은 누워서 떡 먹기!
곧 R로 당신이 원하는 데이터를 자유자재로 수집할 수 있게 됩니다.

실제 수강생 분들이 크롤링 했던 사이트들 입니다.
여러분도 본 강의를 통해 원하는 웹사이트를 크롤링해보세요!

R로 크롤링을 하려니 관련 자료도 없고, 파이썬을 다시 배우자니
‘내가 이러려고 R을 배웠나…’ 후회가 밀려오지는 않았나요?

이제, 크롤링 때문에 냉가슴 앓던 시절은 잊으세요.
본 강의를 듣고, R로 당당하게 크롤링합시다!

추천 대상 .

icon_man3_2_happy

웹사이트에서 데이터를
효율적으로 수집하고 싶은
R 사용자.

icon_woman1_2_happy

R로 크롤링을 시도해 본
경험이 있으나 관련 자료가 없어
어려움을 겪고 포기한 분.

수강생 체크 리스트

① R studio 에서 패키지를 설치하고 불러올 수 있다.
② 벡터(vector)와 데이터프레임(data.frame)의 차이를 알고 있다.
③ 엑셀파일을 R로 불러오고 저장할 수 있다.

 

* 본 강의는 R 사용자들을 위한 강의로 위 세 가지 중 2가지 이상 요건에 충족되어야 원활한 수강이 가능합니다.
나에게 알맞은 강의인지 잘 모르시겠다면, 담당 매니저와의 상담 후(문의: 02-518-4822) 수강 신청 하시기 바랍니다.

커리큘럼 .

웹크롤링 구조 이해부터 실전 웹크롤링, 자동화까지!
R을 활용한 웹 크롤링의 A-Z가 담긴 꽉찬 4주 커리큘럼

Part1. 웹 크롤링을 위한 기초 학습 (HTTP 요청과 응답, HTML 기초)
웹 사이트의 구조를 이해하고 크롬 개발자도구를 활용하여 원하는 정보를 쉽고 빠르게 찾을 수 있습니다.
1회차 이론 - R 프로그래밍 기초 리뷰
- 웹 크롤링 프로세스의 이해 및 크롤링을 할 때의 주의사항
- 웹사이트에서 어떻게 데이터를 추출하는 것일까?
- 웹 사이트는 어떻게 만들어져있을까? (HTML의 이해)
실습 - 네이버 홈페이지의 구조 뜯어보기
- HTTP 요청 방식 중 하나인 GET 방식 이해하기
- 원하는 데이터 정보를 손쉽게 찾아주는 크롤링을 도와주는 크롬 개발자도구 사용법 익히기
- 네이버와 다음의 실시간 검색어 수집하기
- HTTP 요청 및 응답 상태코드를 확인할 수 있는 함수활용법 익히기 (httr 패키지)
2회차 이론 - 크롤링에 필요한 국가, 시간 등 사용자가 원하는 인터페이스로 설정하기 (로케일)
- 수집한 한글 데이터가 깨지지 않도록 한글 인코딩 방식 이해하기
실습 - 모바일 쇼핑몰에서 상품 정보 수집하기 (GS SHOP, 홈&쇼핑)
- 위키백과 서울의 대학 목록 크롤링하기
- 네이버 증권 업종별 시세별 시세 크롤링하기
- 현재 로케일 / 한글 인코딩 방식을 확인하고 변경하기
Part2. 웹 크롤링에서 발생하는 에러 대처하기
웹 크롤링을 진행함에 있어 자주 겪게 되는 다양한 종류의 에러를 이해하고 이를 해결할 수 있는 방법을 알아봅니다.
3회차 이론 - HTTP 요청 방식 중 하나인 POST 방식 이해하기
- 웹 서버가 문자를 인식하는 방법인 ‘퍼센트 인코딩’에 대한 이해
실습 - 사업체 전화번호 크롤링하기 (isuperpage)
- 온라인 서점에서 특정 단어로 검색되는 책 목록 수집하기 (교보문고)
4회차 이론 - HTTP 요청 및 응답 과정에서 발생하는 다양한 에러 대처 방법
- 로그인한 상태로 웹 크롤링하기 위한 쿠키 사용법 이해
실습 - HTTP 요청 시 User-agent를 추가하여 에러 회피하기 (네이버 부동산)
- 반복문으로 여러 페이지에 있는 전체 데이터 수집하기 (네이버 부동산)
- HTTP 요청 시 referer를 추가하여 정상적으로 응답 받기 (네이버 카페)
- 반복문 안에 에러 회피 방법 설정하기 (네이버 카페)
- 로그인한 상태로 기업리뷰 수집하기 (잡플래닛)
Part3. 실전! 원하는 페이지를 크롤링해보자
JavaScript와 RSelenium을 활용한 웹 크롤링 방법에 대해서 배웁니다. API가 제공되었을 경우의 크롤링도 해봅니다.
5회차 이론 - JavaScript가 사용된 웹사이트의 크롤링을 위한 Ajax와 XHR의 이해
- 수집하려는 데이터가 여러 페이지에 나뉘어 있는 Page Navigation 활용법 알아보기
실습 - HTTP 요청 및 응답 과정에서 클라이언트와 웹 서버 간 상호작용의 결과로 생성되는 다양한 파일 중에서 필요한 파일을 크롬 개발자도구에서 찾는 방법
- 여러 페이지에 걸쳐 있는 전체 데이터 수집하기 (네이버 카페)
- JavaScript를 활용하여 데이터 수집하기 (네이버 스포츠 뉴스, 네이버 블로그)
- 2018 프로야구 타자 스탯 정보 수집하기 (KBReport)
6회차 이론 - Selenium 소개 및 RSelenium을 활용한 웹 크롤링 과정 이해
- Open API 소개 및 활용법에 대한 이해
- Open API의 주요 응답 데이터 형식인 XML과 JSON에 대한 이해
실습 - 원격으로 웹 브라우저를 구동시키기 위한 환경 설정 : Java 설치 및 경로 설정, Selenium Server Standalone 및 Chrome driver 설치
- RSelenium 패키지의 주요 함수 활용방법 익히기
- 네이버 로그인이 필요한 데이터 수집하기 (네이버 카페)
- 공공데이터 포털에서 수집할 데이터 항목을 찾고 활용신청하기
- Open API를 활용한 데이터 수집 (아파트 실거래가, 나라장터 낙찰리스트)
Part4. 텍스트 전처리하기 & 웹크롤링 자동화하기
크롤링한 데이터를 stringr 패키지 함수와 정규표현식을 활용하여 전처리합니다. 또, 웹 크롤링을 정기적으로 자동실행하고 결과를 메신저로 전송하는 방법을 배웁니다.
7회차 이론 - 텍스트 데이터 전처리의 필요성
-  텍스트 데이터 전처리를 빠르게 하기 위한 정규표현식의 이해
실습 - 텍스트 처리에 특화된 stringr 패키지의 주요 함수 활용법 익히기
- 정규표현식을 활용하여 특정 패턴을 찾고, 대체하고, 삭제하기 훈련
- 그동안 수집한 데이터의 전처리 (네이버 부동산, 네이버 카페, 네이버 블로그)
8회차 이론 - 웹 크롤링 자동 실행을 위한 정기 작업의 이해 (Taskscheduler 및 Crontab)
- 정기 작업 설정을 위한 R 패키지 소개 (taskschdeuleR 및 cronR)
실습 - 가상화폐 거래소에서 제공하는 API를 활용한 현재시세 수집하기
- 메신저 봇 설정하기 (Slack 및 Telegram)
- 웹 크롤러 실행 결과를 메신저 봇으로 전송하기 (가상화폐 시세 + Telegram)
- 웹 크롤러 실행을 정기 작업으로 설정하기 (분, 시간, 일, 주, 월 단위 등)

수강 후기 .

허인규님_정방

저는 데이터 분석 중에서도 특히 텍스트 마이닝에 관심이 많습니다. 텍스트 마이닝을 하기 위해서는 ‘웹 크롤링’이 필수입니다. 하지만, 제가 지금까지 수강했던 일반적인 데이터 분석 수업에서는 크롤링을 깊이 있게 다루는데 한계가 있었습니다. 그래서 저는 기본적인 HTML 지식과 특화된 크롤링 지식을 함께 쌓을 수 있는 강의를 원했고, 이를 충족시킬 수 있는 커리큘럼을 가진 [R을 활용한 실전 웹크롤링 CAMP]를 선택하게 되었습니다.

강사 소개 .

image_6156807521539001854644

나성호 강사님

“서울대학교 경영대 석사 마케팅 전공 후 여러 금융회사에서 데이터 분석가로 다양한 업무를 담당해왔으며, 현재 한양대학교 경영학과에 박사과정으로 진학하여 학업을 병행하고 있습니다. 세부 전공은 데이터 마이닝입니다. 최근 웹크롤링에 대해 관심을 갖는 분들이 많아졌지만 웹크롤러를 만드는 것을 어렵게 생각하시는 것 같습니다. 웹사이트마다 웹크롤러를 별도로 만들어야 하지만 분명 공통점이 있습니다. 그 점을 최대한 쉽게 전달해 드리겠습니다.”

[약력]
– 한양대학교 경영학과 박사과정 재학 중, 데이터 마이닝 전공
– 서울대학교 경영학과 석사 졸업, 마케팅 전공
– 고려대학교 식량자원학과 학사 졸업
– S화재, H캐피탈, H카드, H은행에서 데이터 분석가로 근무 중 (16년 경력)

[강의 경험]
– 2018 H은행 임직원 대상 R을 활용한 웹크롤링, 시각화 및 머신러닝 강의 (24주)
– 2017 H카드 임직원 대상 R을 활용한 머신러닝 강의 (12주)

R로 원하는 데이터를 마음껏 수집하고 싶다면!

R을 활용한 실전 웹크롤링 CAMP

일    정 2019.1.22.~ 2019.3.19. | 총 8주
매주 화 저녁 7:30 ~ 10:30
준비물 개인 노트북 사용 추천
(본인 PC에 맞는 개발 환경 설정 및 원활한 개별 실습을 위하여)
장    소 강남역 부근 패스트캠퍼스 강의장
문    의 이샘 매니저 : 02-518-4822 | help-ds@fastcampus.co.kr
메일로 문의 주실 경우 자세한 상담을 원하신다면 휴대폰 번호, 상담가능 시간을 남겨주세요:)

정가:70만원

※ 할인가는 매주 목요일 자정에 변경됩니다.
※ 카드 12개월 무이자 할부 가능!

수강신청하기

강의장 안내