R을 활용한
실전 웹크롤링 CAMP

개발 지식이 전혀 없는 초보자라도
R로 다양한 웹사이트의 데이터를 크롤링해보자.

#R만으로#크롤링#자동화
#실습 중심#최고 만족도

기간 & 일정

2020.1.11 – 3.7
(1/25 휴강)
매주 토요일 10:00 – 13:00
주 1회, 총 24시간

장소 & 준비물

패스트캠퍼스 역삼 강의장
개인 노트북

문의

02-568-9886
help-ds@fastcampus.co.kr

R을 잘 몰라도
절대 걱정하지 마세요!

R 초보자분들을 위해, 수업 첫 시간 사전 교육이 진행됩니다.
(일시: 1월 11일 토요일 10:00-11:00)

* 사전 교육 참석 시 첫 수업은 4시간(10:00 – 14:00)동안 진행됩니다.
* 사전 교육의 경우, 원활한 수강을 위해 참석을 권장 드립니다.
* 개강 전 별도의 메일을 통해 안내드립니다.

강의 목표.

웹 크롤링을 위한 사이트 구조의 이해, 크롤링 실습, 자동화까지.
R로 구현할 수 있는 크롤링의 모든 것을 체계적으로 학습하는 것.

R로 하는 크롤링에 대한 흔한 오해?

웹 크롤링은 파이썬으로만 가능하다?

“웹 크롤링은 파이썬으로만 하는 게 아닌가요?”
“어차피 R로 해도 파이썬 다시 배워야 하잖아요?”

R로 하는 크롤링에 대한 정보가 없다?

“R로 크롤링하는 방법을 인터넷에서 찾기 어려워요
“하다 막히면 어떻게 해결해야 할지 모르겠어요”

웹 크롤링을 파이썬으로만 한다는 편견은 NO!

마케터에게도, 기획자에게도 필요한 데이터 크롤링.
이제는 누구에게나 쉬운 R로 크롤링하는 법을 배우세요.

강의 특징.

01

주입식 반복학습으로
쉽게 배우는 크롤링

크롤링 배워 빠르고 똑똑하게 일하고 싶은 당신을 위해 준비했습니다. 이론→실습→퀴즈→1:1 피드백, 4단계의 체계적인 학습방식으로 당신의 업무에 딱 맞는 크롤링 능력을 길러드립니다.
* 퀴즈는 수강생에 한하여 무료로 제공됩니다.

02

다양한 사이트를 활용해
실습으로 익히는 웹 크롤링

매 시간 2~3개의 사이트를 직접 크롤링해보며 배운 이론을 완벽히 체화합니다. 이론과 실습이 끝났다면, 제공되는 퀴즈를 풀며 복습까지 탄탄하게! 수료 후에는 누구나, 어떤 웹사이트에서도 원하는 데이터를 자유롭게 크롤링할 수 있습니다.

03

사이트 종류에 상관없이
무적 크롤링 노하우

크롤링은 사이트마다 하는 방법이 달라, 이에 대한 강사님의 경험과 노하우가 매우 중요합니다. 강사님의 크롤링 노하우를 전수받는 8주. 수업시간에 막히는 부분은 강사님이 직접 온/오프라인을 통해 빠르게 해결하여 주십니다.

04

초보자를 위한
R 기초 강의 제공

R을 써보긴 했지만, 익숙하지 않아 두려운 초보자들을 위하여 R 기초강의를 진행합니다. R 프로그래밍이 두려워 크롤링을 시작하지 못하셨던 분들도 충분히 수강가능합니다.
* 기초 강의는 1월 11일(토)에 진행됩니다.

05

초보라고 봐주지 않아요
정책 등 유의사항 정복

아무 웹 사이트에서 크롤링 했다간 철컹철컹! 초보자들이 쉽게 범하는 실수를 짚어드립니다. 크롤링의 기술적인 방법뿐만 아니라, 웹 데이터 저작권 및 사이트 정책 등 크롤링을 하기 위한 유의사항까지 전달드립니다.

06

어제쓰던 R 그대로
R 유저를 위한 크롤링

R로 하는 크롤링에는 한계가 있다는 건 편견! R로도 파이썬으로 하던 웹 크롤링을 모두 할 수 있습니다. R로 크롤링하는 방법을 배울 곳이 없어, 파이썬을 기초부터 다시 배워야하는 상황에 있던 R 유저를 위한 강의입니다.

8주간의 수업이 끝나면..

개발을 몰라도 아래 예시에 나온 정도는
거뜬히 크롤링할 수 있게 됩니다.

카카오 TV 동영상 제목 수집하기

카카오 TV 동영상 채널명 수집하기

강의 수강 대상.

icon_man4_3_oh

R 코딩 경험은 있으나, 웹사이트에서 데이터를
효율적으로 수집하는 데에 어려움을 느끼고 있는 분

icon_woman3_1_normal

R로 크롤링을 시도해본 경험이 있지만,
관련 자료가 없어 어려움을 겪고 포기한 분

icon_man4_1_normal

Ctrl+C, Ctrl+V의 늪에서 나와
크롤링을 활용해 효율적으로 일하고 싶은 분

icon_woman4_1_normal

어떤 사이트에서도 크롤링 할 수 있는
크롤링 방법을 배우고 싶은 분

이 수업을 ‘수월히’ 들으려면.

※ 본 강의는 아래의 선수지식이 권장됩니다.
나에게 맞는 강의인지 궁금하면 담당 매니저와 상담하세요!

* 본 강의는 R 사용자들을 위한 강의로 위 세 가지 중 2가지 이상 요건에 충족되어야 원활한 수강이 가능합니다.

R studio에서 패키지를 설치하고 불러올 수 있다

벡터(vector)와 데이터 프레임(Data.frame)의 차이를 안다

R로 엑셀파일을 불러오고 저장할 수 있다

커리큘럼.

PART1. 웹 크롤링을 위한 기초 학습 (HTTP 요청과 응답, HTML 기초)

웹 사이트의 구조를 이해하고 크롬 개발자 도구를 활용하여 원하는 정보를 쉽고 빠르게 수집할 수 있습니다.

1회차

자세히 보기

이론 – 웹 크롤링 프로세스의 이해 및 웹 크롤링을 할 때의 주의사항
– 웹 사이트에서 보이는 데이터를 HTML로 받는 방법 (HTTP 요청 및 응답)
– 웹 사이트에서 보이는 데이터를 포함하는 HTML 요소 찾는 방법 (HTML 기초)
실습 – HTTP 요청 방식 중 하나인 GET 방식을 통한 HTTP 요청 및 응답 실습
– HTTP 요청 및 응답 결과를 확인할 수 있는 함수 활용법 익히기 (httr 패키지)
– HTML에서 원하는 데이터를 추출하는 함수 활용법 익히기 (rvest 패키지)
– 수집하려는 데이터가 포함된 HTML 요소를 크롬 개발자도구에서 찾는법 익히기 (Elements 탭)
– 네이버, 다음 실시간 검색어 수집하기

2회차

자세히 보기

이론 – 수집한 한글 데이터를 제대로 보이게 하기 위한 한글 인코딩 방식의 이해
– 한글 인코딩 방식에 영향을 미치는 로케일의 이해
– HTTP 요청 방식 중 하나인 POST 방식의 이해
– 웹 서버가 문자를 인식하는 방법인 ‘퍼센트 인코딩’에 대한 이해
– ‘더블 인코딩’에 대한 이해
실습 – 한글 인코딩 방식 및 로케일 설정하고 변경하는 방법 익히기
– 네이버 증권 업종별 시세별 시세 데이터 일괄 수집하기
– 검색어로 특정 지역 사업체 전화번호 1페이지만 수집하기 (한국전화번호부)
– 모바일 쇼핑몰에서 검색어로 상품 정보 수집하기 (GS SHOP, 홈&쇼핑)

Part2. 웹 크롤링에서 발생하는 에러 대처하기

웹 크롤링을 진행함에 있어 자주 겪게 되는 다양한 종류의 에러를 이해하고 이를 해결할 수 있는 방법을 알아봅니다.

3회차

자세히 보기

이론 – User-agent에 대한 이해
– 반복문 실행을 위한 for 함수 사용법 익히기
– HTTP 요청 시 추가해야 할 headers에 대한 이해 (referer)
– 반복문 실행 도중 에러를 건너 뛰고 계속 실행하도록 설정하기 위한 tryCatch() 함수 사용법 익히기
실습 – 네이버 카페 여러 페이지에 있는 데이터를 한번에 수집하기
– 반복문 안에 에러 회피 방법 설정하기 (네이버 카페)

4회차

자세히 보기

이론 – JavaScript가 사용된 웹사이트의 크롤링을 위한 Ajax와 XHR의 이해
– 수집하려는 데이터가 여러 페이지에 나뉘어 있는 Page Navigation의 이해
– 응답 데이터의 콘텐츠 형식인 XML과 JSON에 대한 이해
실습 – HTTP 요청 및 응답 과정에서 클라이언트와 웹 서버 간 상호작용의 결과로 생성되는 다양한 파일 중에서 필요한 파일을 크롬 개발자도구에서 찾는법 익히기 (Network 탭)
– 검색어로 특정 지역 사업체 전화번호 모두 수집하기
– 검색어 후 나오는 화면 페이지를 수집하기(네이버 블로그)
– KBReport에서 프로야구 타자 스탯 정보 수집하기

Part3. 실전! 원하는 페이지를 크롤링해보자

JavaScript와 RSelenium을 활용한 웹 크롤링 방법에 대해서 배웁니다. stringr 패키지 함수와 정규표현식을 활용하여 크롤링한 데이터를 전처리합니다.

5회차

자세히 보기

이론 – JavaScript가 사용된 웹 페이지 크롤링 심화
– 날짜 데이터 활용법
– 로그인한 상태로 웹 크롤링하기 위한 쿠키 사용법 이해
실습 – 네이버 스포츠 뉴스에서 일자별로 랭킹 상위 뉴스 수집하기
– 네이버 쇼핑에서 검색어 후 상품 정보 및 리뷰를 모두 수집하기
– 네이버 카페에서 검색어 후 카페글 본문을 모두 수집하기
– 네이버 블로그에서 검색어 후 블로그 본문을 모두 수집하기
– 잡플래닛 로그인한 상태로 기업리뷰 수집하기

6회차

자세히 보기

이론 – RSelenium을 활용한 웹 크롤링 과정 이해
– 텍스트 데이터 전처리 및 stringr 패키지의 주요 함수 소개
– 텍스트 데이터 전처리를 빠르게 하기 위한 정규표현식의 이해
실습 – RSelenium 패키지의 주요 함수 활용법 익히기
– 네이버 로그인이 필요한 데이터 수집하기 (네이버 카페)
– 텍스트 처리에 특화된 stringr 패키지의 주요 함수 활용법 익히기
– 그동안 수집한 데이터의 전처리 (네이버 부동산)
– 정규표현식을 활용하여 특정 패턴을 찾고, 대체하고, 삭제하기 훈련

Part4. 웹크롤러를 정기적으로 자동실행하자!

Open API 활용법을 익힙니다. 또, 웹 크롤링을 정기적으로 자동실행하고 결과를 메신저로 전송하는 방법을 배웁니다.

7회차

자세히 보기

이론 – Open API 소개 및 활용법에 대한 이해
– 공공데이터 포털에서 수집할 데이터 항목을 찾고 활용 신청하기
– 공공데이터 포털에서 제공하는 오퍼레이션별 활용가이드 읽는 법
실습 – 아파트 실거래가 수집하기
– 나라장터 낙찰리스트 수집하기

8회차

자세히 보기

이론 – 웹 크롤링 자동 실행을 위한 정기 작업의 이해 (Taskscheduler 및 Crontab)
– 정기 작업 설정을 위한 R 패키지 소개 (taskschdeuleR 및 cronR)
실습 – 가상화폐 거래소에서 제공하는 API를 활용한 특정 코인의 현재시세 수집하기
– 메신저 봇 설정하기 (Telegram)
– 웹 크롤러 실행 결과를 메신저 봇으로 전송하기 (가상화폐 시세를 수집하여 Telegram Bot을 통해 전송)
– 웹 크롤러 실행을 정기 작업으로 설정하기 (분, 시간, 일, 주, 월 단위 등)

수강생 인터뷰.

1기 수강생 허인규님

“지금까지 들었던 일반적인
데이터 분석 수업에서는 느끼지 못헸던
크롤링에 대한 정수가 담긴 강의”

2기 수강생 최OO님

“책으로 찾아보기 힘들었던
R 데이터 크롤링에 대해
필요한 부분만 제대로 찝어준 강의”

2기 수강생 조예진님

“직무를 막론하고 누구에게나 필요한
데이터에 대한 수집/분석 능력,
나만의 강점으로 만들어 준 강의”

강사 소개.

나성호 강사님

– 한양대학교 경영학과 박사과정 재학 중,
데이터 마이닝 전공
– S화재, H캐피탈, H카드, H은행에서
데이터 분석가로 근무 중 (16년 경력)

강사님 이력 더보기

[약력]

– 서울대학교 경영학과 석사 졸업, 마케팅 전공
– 고려대학교 식량자원학과 학사 졸업

[강의 경험]

– 2018 H은행 임직원 대상 R을 활용한 웹크롤링,
시각화 및 머신러닝 강의 (24주)
– 2017 H카드 임직원 대상 R을 활용한 머신러닝 강의 (12주)

웹 크롤링에 관심은 많지만 어렵다고 생각하시는 분들이 많을 겁니다. 하지만 웹 크롤링을 처음부터 체계적으로 배운다면 결코 어렵지 않습니다. 특히 웹크롤링은 경험이 제일 중요합니다. 제가 앞서 경험하고 쌓은 노하우를 수강생분들께 아낌없이 전달드리겠습니다. 여러분은 편안한 마음으로 커리큘럼을 성실하게 따라오시면 됩니다. 반복적으로 실습을 하다 보면 어느새 웹 크롤링을 잘하는 자신을 발견하게 될 것입니다.

{ FASTCAMPUS COMMUNITY MEMBERSHIP }

패스트캠퍼스 오프라인 강의를 수강하셨다면!
별도의 가입절차없이 패스트캠퍼스 커뮤니티 멤버쉽 회원이 됩니다.
커뮤니티 멤버쉽은 수강 후 1년 동안 유지되며,
오직 멤버들만을 위한 비공개 스터디클럽, 네트워킹행사, 세미나 등 비정기적 행사에 모실 예정입니다.

image_1@2x
image_2@2x
image_3@2x
image_4@2x
image_5@2x
매주 목요일마다 할인 마감!

수강료 안내

강의 정보, 한 번 더 확인!

기 간 : 2020. 1. 11. ~ 2020. 3. 7 (1/25 휴강)
일 정 : 매주 토요일 10:00 – 13:00 (주 1회, 3시간)
준비물 : 개인 노트북
장 소 : 패스트캠퍼스 강의장

할인가 56만원 정가 70만원

특별 20% 할인 (-12/19)

✓ 할인가는 매주 목요일 자정에 변경됩니다.
✓ 카드 12개월 무이자 할부 가능

다음 기수는 언제죠?

이번 기수 수강이 어렵다면
출시알림을 신청해주세요

최저가로 강의를 수강할 수 있게, 다음 기수 홍보 시작 시 가장 먼저 메일을 보내드립니다.

– 계산서 발행을 원하실 경우, 먼저 수강신청을 진행한 후 결제 프로세스를 문의해주시기 바랍니다.
– 수강 인원이 10명 미만인 경우 또는 내부 사정으로 인하여 부득이하게 폐강될 수 있습니다. (자세한 안내는 하단 유의사항 참고바랍니다.)

대학생/ 대학원생에게는
정가 기준 30% 할인혜택을 드립니다.

1. 재학증명서를 스캔/촬영하셔서 담당 매니저에게 이메일로 보내주세요.
(help-ds@fastcampus.co.kr)

2. 재학증명서 확인 후 담당 매니저가 별도의 결제 페이지를 보내드리면,
해당 페이지를 통해 수강신청하시면 됩니다.

강의장 안내

개발지식이 없어도, R을 활용해 웹크롤링할 수 있는 역량을 기르는 8주 강의!

20% 할인 12/12 까지

[ 유의사항 및 환불규정 ]

* 모든 패스트캠퍼스 오프라인 파트타임 교육은 개강 전일 18시에 모집이 마감됩니다.
* 상황에 따라 사전 공지 없이 모집이 조기 마감되거나 할인이 연장될 수 있습니다.
* 수강 인원 확인을 위하여, 즉시 결제가 어려운 경우에도 반드시 수강신청을 먼저 진행해주시기 바랍니다.
* 수강생의 결석이나 지각 등으로 발생한 손해에 대해서는 별도의 보상을 제공하지 않습니다.

* 다음과 같은 사유 등으로 인해 강의가 폐강될 수 있으며, 폐강 시 학원법에 따라 반환 사유 발생일로부터 5 영업일 이내에 수강료를 환불해드립니다.
– 모집된 수강인원이 10명 이하일 경우
– 강사의 갑작스러운 사고 및 건강 상의 이유
– 천재지변
: 위의 사유로 강의가 폐강될 경우, 학원법 제 18조에 따라 오프라인 강의 취소/환불 정책을 준용하여 환불 처리되며, 모객 부진으로 폐강 시에는 최소 개강일로부터 7일 전에는 폐강 여부를 안내해드립니다.

* 총 수강기간 1개월 이내 기준 취소 및 환불 규정 안내
– 환불금액은 정가가 아닌 실제 결제금액을 기준으로 계산됩니다.
– 수업 시작 전 환불 신청 시 전액 환불됩니다.
– 수강 시작 후 환불 신청 시 하기 수업 시수를 기준으로 학원법 환불규정에 따라 환불 가능합니다.
: 환불요청일시 기준 수업시수 1/3 경과 전 : 수강료 2/3 환불
: 환불요청일시 기준 수업시수 1/2 경과 전 : 수강료 1/2 환불
: 환불요청일시 기준 수업시수 1/2 경과 후 : 환불금액 없음

* 기타 환불 관련 안내
– 환불 의사를 밝힌 다음날부터 계산하여 환불합니다.
– 환불금액은 수업시간을 기준(반올림)으로 산정합니다.
– 환불금액의 10원 미만은 절삭합니다.
– 반환 사유 발생 시 5 영업일 이내 환불됩니다.
: PG사와 카드사의 상황에 따라 환불이 지연될 수 있습니다
– 1개월 산정 기준은 민법 제 160조(역에 의한 계산)을 적용합니다.
: 실제 일수와 상관없이 수업시작일이 3월 7일인 경우, 1개월은 4월 6일까지 입니다.
: 단, 수업 시작일이 1월 31일인 경우, 1개월은 월의 말일인 2월 28일까지 입니다.