R을 활용한
실전 웹크롤링 CAMP

개발 지식이 전혀 없는 초보자라도
R로 다양한 웹사이트의 데이터를 크롤링해보자.

#R만으로#크롤링#자동화
#실습 중심#최고 만족도

기간 & 일정

2019.08.20 – 10.15
(9/10 휴강)
매주 화요일 19:30 – 22:30
주 1회, 총 24시간

장소 & 준비물

패스트캠퍼스 강남강의장
강남역 4번 출구, 미왕빌딩
개인 노트북 권장

담당자 & 문의

이샘 매니저
02-518-4822
help-ds@fastcampus.co.kr

※ R 초보자분들을 위해,
8월 17일(토) 2시간동안 사전 교육이 진행될 예정입니다.

(개강 전 별도의 메일을 통해 안내)

강의 목표.

웹 크롤링을 위한 사이트 구조의 이해, 크롤링 실습, 자동화까지.
R로 구현할 수 있는 크롤링의 모든 것을 체계적으로 학습하는 것.

R로 하는 크롤링에 대한 흔한 오해?

웹 크롤링은 파이썬으로만 가능하다?

“웹 크롤링은 파이썬으로만 하는 게 아닌가요?”
“어차피 R로 해도 파이썬 다시 배워야 하잖아요?”

R로 하는 크롤링에 대한 정보가 없다?

“R로 크롤링하는 방법을 인터넷에서 찾기 어려워요
“하다 막히면 어떻게 해결해야 할지 모르겠어요”

웹 크롤링을 파이썬으로만 한다는 편견은 NO!

마케터에게도, 기획자에게도 필요한 데이터 크롤링.
이제는 누구에게나 쉬운 R로 크롤링하는 법을 배우세요.

강의 특징.

01

R을 활용하여 쉽게 배우는
크롤링의 기초

R로는 웹 크롤링을 제대로 하지 못한다는 오해는 더이상 NO! 본 수업에서는 100% R을 활용하여 웹 크롤링을 배워봅니다. 기존에 찾아보기 어려웠던 ‘R을 활용한 크롤링 노하우’를 제공하며, 마케터와 기획자와 같은 비개발자 분들도 손쉽게 R로 크롤링하고 데이터를 분석할 수 있습니다.

02

다양한 사이트를 활용한
웹 크롤링 실습

R로 웹 크롤링을 하다가 막히면 구글링으로도 해결이 되지 않을 만큼 정보가 다양하지 않습니다. 때문에 많은 분들이 쉽게 포기하는 경우가 많은데요. 본 수업에서는 다양한 사이트를 활용한 실습으로 ‘실무에 바로 써먹는’ 크롤링 스킬을 배워가실 수 있습니다.

03

실전 경험이 풍부한
전문가의 노하우 전수

웹 크롤링 분야는 강사님의 실무 경험이 매우 중요합니다. 본 강의에서는 현업에 종사하고 있는 풍부한 경험의 강사가 아낌없이 노하우를 전수합니다. 수업을 듣다가 이해되지 않는 부분이나 막히는 부분이 있으신가요? 언제라도 온/오프라인에서 질문을 통해 해결해보세요.

8주간의 수업이 끝나면..

개발을 몰라도 아래 예시에 나온 정도는
거뜬히 크롤링할 수 있게 됩니다.

카카오 TV 동영상 제목 수집하기

카카오 TV 동영상 채널명 수집하기

강의 수강 대상.

icon_man4_3_oh

웹사이트에서 R을 사용하여
효율적으로 데이터를 수집하고 싶은 분

icon_woman3_1_normal

R로 크롤링을 시도해본 경험이 있지만,
관련 자료가 없어 어려움을 겪고 포기한 분

이 수업을 ‘수월히’ 들으려면.

※ 본 강의는 아래의 선수지식이 권장됩니다.
나에게 맞는 강의인지 궁금하면 담당 매니저와 상담하세요!

02-518-4822

R studio에서 패키지를 설치하고 불러올 수 있다

벡터(vector)와 데이터 프레임(Data.frame)의 차이를 안다

R로 엑셀파일을 불러오고 저장할 수 있다

공부도 하고
학습 지원금도 받고!

결제액의 10%를 학습지원금으로 드립니다.

패스트캠퍼스의 수강의지를 강화하기 위한 지원금 제도를 운영합니다
패캠이 제안하는 학습 목표를 달성하고 커리어 이상의 성취감을 얻어가길 바랍니다.

*학습지원금은 제세공과금(22%)을 제하고 드립니다.

학습노트
100% 제출

커리큘럼.

PART1. 웹 크롤링을 위한 기초 학습 (HTTP 요청과 응답, HTML 기초)

웹 사이트의 구조를 이해하고 크롬 개발자 도구를 활용하여 원하는 정보를 쉽고 빠르게 찾을 수 있습니다.

1회차

자세히 보기

이론 – 웹 크롤링 프로세스의 이해 및 웹 크롤링을 할 때의 주의사항
– 웹 사이트에서 보이는 데이터를 HTML로 받는 방법 (HTTP 요청 및 응답)
– 웹 사이트에서 보이는 데이터를 포함하는 HTML 요소 찾는 방법 (HTML 기초)
실습 – HTTP 요청 방식 중 하나인 GET 방식을 통한 HTTP 요청 및 응답 실습
– HTTP 요청 및 응답 결과를 확인할 수 있는 함수 활용법 익히기 (httr 패키지)
– HTML에서 원하는 데이터를 추출하는 함수 활용법 익히기 (rvest 패키지)
– 수집하려는 데이터가 포함된 HTML 요소를 크롬 개발자도구에서 찾는 법 익히기 (Elements 탭)
– 실시간 검색어 수집하기 (네이버, 다음)
– 모바일 쇼핑몰에서 검색어로 상품 정보 수집하기 (GS SHOP, 홈&쇼핑)

2회차

자세히 보기

이론 – 수집한 한글 데이터를 제대로 보이게 하기 위한 한글 인코딩 방식의 이해
– 한글 인코딩 방식에 영향을 미치는 로케일의 이해
– HTTP 요청 방식 중 하나인 POST 방식의 이해
– 웹 서버가 문자를 인식하는 방법인 ‘퍼센트 인코딩’에 대한 이해
– ‘더블 인코딩’에 대한 이해
실습 – 한글 인코딩 방식 및 로케일 설정하고 변경하는 방법 익히기
– 태그에 포함된 데이터 일괄 수집하기 (네이버 증권 업종별 시세별 시세)
– POST 방식으로 HTTP 요청할 때 웹 서버에 제시해야 하는 바디 메시지를 크롬 개발자도구에서 확인하는 방법 익히기 (Network 탭)
– 문자열의 퍼센트 인코딩 및 디코딩 방식 익히기
– 더블 인코딩을 막는 방법 익히기
– 검색어로 특정 지역 사업체 전화번호 1페이지만 수집하기 (한국전화번호부)

Part2. 웹 크롤링에서 발생하는 에러 대처하기

웹 크롤링을 진행함에 있어 자주 겪게 되는 다양한 종류의 에러를 이해하고 이를 해결할 수 있는 방법을 알아봅니다.

3회차

자세히 보기

이론 – User-agent에 대한 이해
– 반복문 실행을 위한 for() 함수 사용법 익히기
– HTTP 요청 시 추가해야 할 headers에 대한 이해 (referer)
– 반복문 실행 도중 에러가 발생하는 경우 전체 실행을 중지하는 대신 에러를 건너 뛰고 계속 실행하도록 설정하기 위한 tryCatch() 함수 사용법 익히기
실습 – HTTP 요청 시 User-agent를 추가하여 에러 회피하기 (네이버 부동산)
– 반복문으로 여러 페이지에 있는 전체 데이터 수집하기 (네이버 부동산)
– HTTP 요청 시 referer를 추가하여 정상적으로 응답 받기 (네이버 카페)
– 반복문 안에 에러 회피 방법 설정하기 (네이버 카페)

4회차

자세히 보기

이론 – JavaScript가 사용된 웹사이트의 크롤링을 위한 Ajax와 XHR의 이해
– 수집하려는 데이터가 여러 페이지에 나뉘어 있는 Page Navigation의 이해
– 응답 데이터의 콘텐츠 형식인 XML과 JSON에 대한 이해
– 로그인한 상태로 웹 크롤링하기 위한 쿠키 사용법 이해
실습 – HTTP 요청 및 응답 과정에서 클라이언트와 웹 서버 간 상호작용의 결과로 생성되는 다양한 파일 중에서 필요한 파일을 크롬 개발자도구에서 찾는법 익히기 (Network 탭)
– 검색어로 특정 지역 사업체 전화번호 모두 수집하기 (한국전화번호부)
– 네이버 블로그에서 검색어로 블로그 본문을 1페이지만 수집하기
– 로그인한 상태로 기업리뷰 수집하기 (잡플래닛)

Part3. 실전! 원하는 페이지를 크롤링해보자

JavaScript와 RSelenium을 활용한 웹 크롤링 방법에 대해서 배웁니다. stringr 패키지 함수와 정규표현식을 활용하여 크롤링한 데이터를 전처리합니다.

5회차

자세히 보기

이론 – JavaScript가 사용된 웹 페이지 크롤링 심화
– 날짜 데이터 활용법
실습 – 특정 네이버 카페의 게시판 글을 모두 수집하기
– 네이버 블로그에서 검색어로 블로그 본문을 모두 수집하기
– 네이버 뉴스에서 검색어로 뉴스 및 댓글을 모두 수집하기
– 네이버 쇼핑에서 검색어로 상품 정보 및 리뷰를 모두 수집하기
– 2018 프로야구 타자 스탯 정보 수집하기 (KBReport)

6회차

자세히 보기

이론 – Selenium 소개 및 RSelenium을 활용한 웹 크롤링 과정 이해
– 텍스트 데이터 전처리의 필요성 및 stringr 패키지의 주요 함수 소개
– 텍스트 데이터 전처리를 빠르게 하기 위한 정규표현식의 이해
실습 – RSelenium 패키지의 주요 함수 활용법 익히기
– 네이버 로그인이 필요한 데이터 수집하기 (네이버 카페)
– 텍스트 처리에 특화된 stringr 패키지의 주요 함수 활용법 익히기
– 정규표현식을 활용하여 특정 패턴을 찾고, 대체하고, 삭제하기 훈련

Part4. 텍스트 전처리하기 & 웹크롤링 자동화하기

Open API 활용법을 익힙니다. 또, 웹 크롤링을 정기적으로 자동실행하고 결과를 메신저로 전송하는 방법을 배웁니다.

7회차

자세히 보기

이론 – Open API 소개 및 활용법에 대한 이해
– 공공데이터 포털에서 수집할 데이터 항목을 찾고 활용 신청하기
– 공공데이터 포털에서 제공하는 오퍼레이션별 활용가이드 읽는 법
실습 – 그동안 수집한 데이터의 전처리 (네이버 부동산, 네이버 블로그 등)
– 아파트 실거래가 수집하기
– 나라장터 낙찰리스트 수집하기

8회차

자세히 보기

이론 – 웹 크롤링 자동 실행을 위한 정기 작업의 이해 (Taskscheduler 및 Crontab)
– 정기 작업 설정을 위한 R 패키지 소개 (taskschdeuleR 및 cronR)
실습 – 가상화폐 거래소에서 제공하는 API를 활용한 특정 코인의 현재시세 수집하기
– 메신저 봇 설정하기 (Slack 및 Telegram)
– 웹 크롤러 실행 결과를 메신저 봇으로 전송하기 (가상화폐 시세를 수집하여 Telegram Bot을 통해 전송)
– 웹 크롤러 실행을 정기 작업으로 설정하기 (분, 시간, 일, 주, 월 단위 등)

수강생 인터뷰.

1기 수강생 허인규님

“지금까지 들었던 일반적인
데이터 분석 수업에서는 느끼지 못헸던
크롤링에 대한 정수가 담긴 강의”

2기 수강생 최OO님

“책으로 찾아보기 힘들었던
R 데이터 크롤링에 대해
필요한 부분만 제대로 찝어준 강의”

2기 수강생 조예진님

“직무를 막론하고 누구에게나 필요한
데이터에 대한 수집/분석 능력,
나만의 강점으로 만들어 준 강의”

강사 소개.

나성호 강사님

[약력]

– 한양대학교 경영학과 박사과정 재학 중,
데이터 마이닝 전공
– 서울대학교 경영학과 석사 졸업, 마케팅 전공
– 고려대학교 식량자원학과 학사 졸업
– S화재, H캐피탈, H카드, H은행에서
데이터 분석가로 근무 중 (16년 경력)

[강의 경험]
– 2018 H은행 임직원 대상 R을 활용한 웹크롤링,
시각화 및 머신러닝 강의 (24주)
– 2017 H카드 임직원 대상 R을 활용한 머신러닝 강의 (12주)

{ FASTCAMPUS COMMUNITY MEMBERSHIP }

패스트캠퍼스 오프라인 강의를 수강하셨다면!
별도의 가입절차없이 패스트캠퍼스 커뮤니티 멤버쉽 회원이 됩니다.
커뮤니티 멤버쉽은 수강 후 1년 동안 유지되며,
오직 멤버들만을 위한 비공개 스터디클럽, 네트워킹행사, 세미나 등 비정기적 행사에 모실 예정입니다.

매주 목요일마다 할인 마감!

수강료 안내

강의 정보, 한 번 더 확인!

기 간 : 2019. 8. 20. ~ 2019. 10. 15 (9/10 휴강)
일 정 : 매주 화요일 19:30 – 22:30 (주 1회 3시간)
준비물 : 개인 노트북 권장
장 소 : 패스트캠퍼스 강의장


66만원 70만원

마감할인 | 5% OFF

✓ 8/20 개강, 마감임박!
✓ 매주 목요일마다 가격이 소폭 상승합니다.

강의장 안내

학습지원 프로젝트

공부도 하고! 학습지원금도 받고!

*학습지원금(제세공과금 22% 차감 후 지급)은 강의마다 개인마다 상이할 수 있습니다.

학습 목표 1. 학습노트 제출

코스 진행 일정 3일 후(토요일) 24:00까지 학습노트를 작성해 제출해 주세요.

[수강 중 학습 콘텐츠 일정] 학습노트 제출 12회

1회차 제출기한 : 8월 24일(토) 24:00까지
2회차 제출기한 : 8월 31일(토) 24:00까지
3회차 제출기한 : 9월 7일(토) 24:00까지
4회차 제출기한 : 9월 21일(토) 24:00까지
5회차 제출기한 : 10월 5일(토) 24:00까지
6회차 제출기한 : 10월 19일(토) 24:00까지
7회차 제출기한 : 10월 26일(토) 24:00까지
8회차 제출기한 : 11월 2일(토) 24:00까지
9회차 제출기한 : 11월 9일(토) 24:00까지
10회차 제출기한 : 11월 16일(토) 24:00까지
11회차 제출기한 : 11월 23일(토) 24:00까지
12회차 제출기한 : 11월 30일(토) 24:00까지

학습지원금을 받으려면?

미션을 모두 완료하면 신청페이지를 통해 신청 가능합니다.
다만, 강의 종료 후 30일 이내에 신청페이지를 통해서 신청해주셔야 합니다.
아래의 환급신청 링크로 신분증 사본 / 환급받을 통장사본을 제출 (반드시 본인 명의로만 가능)해 주세요.
결제한 수강료의 10% (환급 금액의 22% 제세공과금으로 차감) 를 드리며, 학습지원금은 개인마다 상이할 수 있습니다.

신청페이지 바로가기

환불규정

* 학습지원금은 기수강생 할인만 중복 적용이 가능합니다. (기타 다른 이벤트와 중복 적용이 불가합니다.)
* 과제물이 허위로 작성되거나 표절일 경우 환급이 거절될 수 있습니다.
* 환불은 환불규정(https://www.fastcampus.co.kr/refund/)에 따라 진행됩니다. 규정에 의거하여 환불금액이 없을 수 있습니다.

개발지식이 없어도, R을 활용해 웹크롤링할 수 있는 역량을 기르는 8주 강의!