R을 활용한

실전 웹크롤링
CAMP

크롤링만을 위한 개발공부가 부담스럽다면,
R만으로 원하는 데이터를
마음껏 수집해 보세요.

#R만으로#크롤링_자동화
#밀착피드백

기간 & 일정

2019.04.09 – 05.28
매주 화요일 19:30 – 22:30
주 1회, 총 24시간

장소 & 준비물

패스트캠퍼스 강남강의장
강남역 4번 출구, 미왕빌딩
개인 노트북 권장

담당자 & 문의

이샘 매니저
02-518-4822
help-ds@fastcampus.co.kr

이젠
기다리지 마세요

✓ 크롤링할 때마다 치르던 ‘오류’와의 사투
✓ ‘사이트마다 제각각인 크롤링 방법’ 찾으러 헤매이던 날들

더 이상의 시간낭비는 그만!
여러분의 효율적인 데이터 수집을 도울
단 하나의 강의!

[R을 활용한 웹크롤링 CAMP]입니다.

R로 웹크롤링을 하는데 있어
당신이 가지는 심각한 오해

웹크롤링은
파이썬만 가능하다?

R로는 웹크롤링을
진행하는데 한계가 있다?

대답은 모두 NO

R로도 파이썬으로 할 수 있는 웹크롤링을 모두 할 수 있습니다!

하지만,
지금까지 R 유저들은 웹크롤링을 하기 위해서 파이썬을 다시 학습해야 하는 불편함을 겪어 왔습니다.
왜냐하면 R로 크롤링을 하는 정보를 온/오프라인에서 찾아볼 수 없었기 때문이죠.

R을 활용하면 마케터, 기획자 등 비개발자도 손쉽게 크롤링 할 수 있습니다.

crown

그래서 패스트캠퍼스가 준비했습니다.

R을 활용하여 원하는 데이터를 자유자재로 크롤링 할 수 있게 만들어 줄

{국내 유일의 R을 활용한 실전 웹크롤링 강의.}

강의 특징 . 

1

원하는
사이트를
자유자재로 크롤링!

R로 웹크롤링을 하다 막히면, 구글링으로도 해결이 어려울만큼 관련 정보가 부족합니다. 때문에 많은 분들이 크롤링에 도전하지만 쉽게 포기하곤 하죠. 본 수업에서는 크롤링을 하는 ‘방법’을 익혀, 자신이 원하는 사이트를 직접 크롤링할 수 있도록 가르쳐드립니다.

2

웹크롤링 경험이
풍부한 강사님의
실전 노하우 전수

크롤링은 사이트마다 방법이 달라 강사님의 실무 경험이 매우 중요합니다. 실무 경험이 풍부한 강사님으로부터 실전 노하우를 모두 배워가세요. 강사님께 온/오프라인으로 마음껏 질문할 수 있어, 궁금하거나 어려운 부분을 모두 해결할 수 있습니다.

3

누구나 쉽게
배울 수 있는
R을 활용한 강의

본 수업에서는 100% R을 활용하여 웹크롤링을 진행합니다. 온/오프라인에서 찾아볼 수 없었던 R을 활용한 웹크롤링의 노하우를 제공하며, 마케터나 기획자와 같은 비개발자 분들도 쉽게 배우실 수 있습니다.

곧 당신이 하게 될
실전 웹크롤링 예시 .

실전 웹크롤링 예시 1)
카카오 TV 동영상 제목 수집하기

실전 웹크롤링 예시 2)
카카오 TV 동영상 채널명 수집하기

icon_man3_2_happy-1024x1024

본 강의를 듣고 나면, 이 정도 웹크롤링은 누워서 떡 먹기!
곧 R로 당신이 원하는 데이터를 자유자재로 수집할 수 있게 됩니다.

실제 수강생 분들이 크롤링 했던 사이트들 입니다.
여러분도 본 강의를 통해 원하는 웹사이트를 크롤링해보세요!

R로 크롤링을 하려니 관련 자료도 없고, 파이썬을 다시 배우자니
‘내가 이러려고 R을 배웠나…’ 후회가 밀려오지는 않았나요?

이제, 크롤링 때문에 냉가슴 앓던 시절은 잊으세요.
본 강의를 듣고, R로 당당하게 크롤링합시다!

추천 대상 .

icon_man3_2_happy

웹사이트에서 데이터를
효율적으로 수집하고 싶은
R 사용자.

icon_woman1_2_happy

R로 크롤링을 시도해 본
경험이 있으나 관련 자료가 없어
어려움을 겪고 포기한 분.

수강생 체크 리스트

① R studio 에서 패키지를 설치하고 불러올 수 있다.
② 벡터(vector)와 데이터프레임(data.frame)의 차이를 알고 있다.
③ 엑셀파일을 R로 불러오고 저장할 수 있다.

 

* 본 강의는 R 사용자들을 위한 강의로 위 세 가지 중 2가지 이상 요건에 충족되어야 원활한 수강이 가능합니다.
나에게 알맞은 강의인지 잘 모르시겠다면, 담당 매니저와의 상담 후(문의: 02-518-4822) 수강 신청 하시기 바랍니다.

강의 목표 .

R로 내가 원하는 데이터/정보를 웹사이트에서
자유자재로 크롤링하고, 웹크롤러 자동화까지
완성하는 것.

커리큘럼 .

웹크롤링 구조 이해부터 실전 웹크롤링, 자동화까지!
R을 활용한 웹 크롤링의 A-Z가 담긴 꽉찬 8주 커리큘럼

Part1. 웹 크롤링을 위한 기초 학습 (HTTP 요청과 응답, HTML 기초)
웹 사이트의 구조를 이해하고 크롬 개발자도구를 활용하여 원하는 정보를 쉽고 빠르게 찾을 수 있습니다.
1회차 이론 - 웹 크롤링 프로세스의 이해 및 웹 크롤링을 할 때의 주의사항
- 웹 사이트에서 보이는 데이터를 HTML로 받는 방법 (HTTP 요청 및 응답)
- 웹 사이트에서 보이는 데이터를 포함하는 HTML 요소 찾는 방법 (HTML 기초)
실습 - HTTP 요청 방식 중 하나인 GET 방식을 통한 HTTP 요청 및 응답 실습
- HTTP 요청 및 응답 결과를 확인할 수 있는 함수 활용법 익히기 (httr 패키지)
- HTML에서 원하는 데이터를 추출하는 함수 활용법 익히기 (rvest 패키지)
- 수집하려는 데이터가 포함된 HTML 요소를 크롬 개발자도구에서 찾는 법 익히기 (Elements 탭)
- 실시간 검색어 수집하기 (네이버, 다음)
- 모바일 쇼핑몰에서 검색어로 상품 정보 수집하기 (GS SHOP, 홈&쇼핑)
2회차 이론 - 수집한 한글 데이터를 제대로 보이게 하기 위한 한글 인코딩 방식의 이해
- 한글 인코딩 방식에 영향을 미치는 로케일의 이해
- HTTP 요청 방식 중 하나인 POST 방식의 이해
- 웹 서버가 문자를 인식하는 방법인 ‘퍼센트 인코딩’에 대한 이해
- ‘더블 인코딩’에 대한 이해
실습 - 한글 인코딩 방식 및 로케일 설정하고 변경하는 방법 익히기
- 태그에 포함된 데이터 일괄 수집하기 (네이버 증권 업종별 시세별 시세)
- POST 방식으로 HTTP 요청할 때 웹 서버에 제시해야 하는 바디 메시지를 크롬 개발자도구에서 확인하는 방법 익히기 (Network 탭)
- 문자열의 퍼센트 인코딩 및 디코딩 방식 익히기
- 더블 인코딩을 막는 방법 익히기
- 검색어로 특정 지역 사업체 전화번호 1페이지만 수집하기 (한국전화번호부)
Part2. 웹 크롤링에서 발생하는 에러 대처하기
웹 크롤링을 진행함에 있어 자주 겪게 되는 다양한 종류의 에러를 이해하고 이를 해결할 수 있는 방법을 알아봅니다.
3회차 이론 - User-agent에 대한 이해
- 반복문 실행을 위한 for() 함수 사용법 익히기
- HTTP 요청 시 추가해야 할 headers에 대한 이해 (referer)
- 반복문 실행 도중 에러가 발생하는 경우 전체 실행을 중지하는 대신 에러를 건너 뛰고 계속 실행하도록 설정하기 위한 tryCatch() 함수 사용법 익히기
실습 - HTTP 요청 시 User-agent를 추가하여 에러 회피하기 (네이버 부동산)
- 반복문으로 여러 페이지에 있는 전체 데이터 수집하기 (네이버 부동산)
- HTTP 요청 시 referer를 추가하여 정상적으로 응답 받기 (네이버 카페)
- 반복문 안에 에러 회피 방법 설정하기 (네이버 카페)
4회차 이론 - JavaScript가 사용된 웹사이트의 크롤링을 위한 Ajax와 XHR의 이해
- 수집하려는 데이터가 여러 페이지에 나뉘어 있는 Page Navigation의 이해
- 응답 데이터의 콘텐츠 형식인 XML과 JSON에 대한 이해
- 로그인한 상태로 웹 크롤링하기 위한 쿠키 사용법 이해
실습 - HTTP 요청 및 응답 과정에서 클라이언트와 웹 서버 간 상호작용의 결과로 생성되는 다양한 파일 중에서 필요한 파일을 크롬 개발자도구에서 찾는법 익히기 (Network 탭)
- 검색어로 특정 지역 사업체 전화번호 모두 수집하기 (한국전화번호부)
- 네이버 블로그에서 검색어로 블로그 본문을 1페이지만 수집하기
- 로그인한 상태로 기업리뷰 수집하기 (잡플래닛)
Part3. 실전! 원하는 페이지를 크롤링해보자
JavaScript와 RSelenium을 활용한 웹 크롤링 방법에 대해서 배웁니다. stringr 패키지 함수와 정규표현식을 활용하여 크롤링한 데이터를 전처리합니다.
5회차 이론 - JavaScript가 사용된 웹 페이지 크롤링 심화
- 날짜 데이터 활용법
실습 - 특정 네이버 카페의 게시판 글을 모두 수집하기
- 네이버 블로그에서 검색어로 블로그 본문을 모두 수집하기
- 네이버 뉴스에서 검색어로 뉴스 및 댓글을 모두 수집하기
- 네이버 쇼핑에서 검색어로 상품 정보 및 리뷰를 모두 수집하기
- 2018 프로야구 타자 스탯 정보 수집하기 (KBReport)
6회차 이론 - Selenium 소개 및 RSelenium을 활용한 웹 크롤링 과정 이해
- 텍스트 데이터 전처리의 필요성 및 stringr 패키지의 주요 함수 소개
- 텍스트 데이터 전처리를 빠르게 하기 위한 정규표현식의 이해
실습 - RSelenium 패키지의 주요 함수 활용법 익히기
- 네이버 로그인이 필요한 데이터 수집하기 (네이버 카페)
- 텍스트 처리에 특화된 stringr 패키지의 주요 함수 활용법 익히기
- 정규표현식을 활용하여 특정 패턴을 찾고, 대체하고, 삭제하기 훈련
Part4. 텍스트 전처리하기 & 웹크롤링 자동화하기
Open API 활용법을 익힙니다. 또, 웹 크롤링을 정기적으로 자동실행하고 결과를 메신저로 전송하는 방법을 배웁니다.
7회차 이론 - Open API 소개 및 활용법에 대한 이해
- 공공데이터 포털에서 수집할 데이터 항목을 찾고 활용 신청하기
- 공공데이터 포털에서 제공하는 오퍼레이션별 활용가이드 읽는 법
실습 - 그동안 수집한 데이터의 전처리 (네이버 부동산, 네이버 블로그 등)
- 아파트 실거래가 수집하기
- 나라장터 낙찰리스트 수집하기
8회차 이론 - 웹 크롤링 자동 실행을 위한 정기 작업의 이해 (Taskscheduler 및 Crontab)
- 정기 작업 설정을 위한 R 패키지 소개 (taskschdeuleR 및 cronR)
실습 - 가상화폐 거래소에서 제공하는 API를 활용한 특정 코인의 현재시세 수집하기
- 메신저 봇 설정하기 (Slack 및 Telegram)
- 웹 크롤러 실행 결과를 메신저 봇으로 전송하기 (가상화폐 시세를 수집하여 Telegram Bot을 통해 전송)
- 웹 크롤러 실행을 정기 작업으로 설정하기 (분, 시간, 일, 주, 월 단위 등)

수강 후기 .

허인규 님

1기 수강생

    "저는 데이터 분석 중에서도 특히 텍스트 마이닝에 관심이 많습니다. 텍스트 마이닝을 하기 위해서는 ‘웹 크롤링’이 필수입니다. 하지만, 제가 지금까지 수강했던 일반적인 데이터 분석 수업에서는 크롤링을 깊이 있게 다루는데 한계가 있었습니다. 그래서 저는 기본적인 HTML 지식과 특화된 크롤링 지식을 함께 쌓을 수 있는 강의를 원했고, 이를 충족시킬 수 있는 커리큘럼을 가진 [R을 활용한 실전 웹크롤링 CAMP]를 선택하게 되었습니다."

최OO 님

2기 수강생

    "뉴스자료나 각종 기관들의 연구보고서 자료들을 수집-분석하는 일을 하고 있습니다. 이 과정의 시작은 웹 상에서의 자동화된 자료 수집에 있는데, R로 자동 수집을 다루는 책은 정말 찾기가 어렵더라고요. 그런 마당에 [R을 활용한 실전 웹크롤링 CAMP]에선 실제로 필요했던 부분들을 많이 다루니 큰 보탬이 됐죠. 강의는 이론과 실습이 빡빡하게 진행돼 지루할 시간이 없어요. 종강 후에도 코드 리뷰로 도움을 주십니다."

조예진 님

2기 수강생

    "단기간에 얻을 수 있는 포인트가 명확한 강의입니다. 자료 수집은 어떤 분야에서든 필요한 능력이니까요, 한 번 배워 놓으면 여러분 만의 강점으로 내세우기 충분하다고 생각해요. 특히 자기소개서를 쓰다보면, 내가 이 조직에 무엇을 기여할 수 있을지 어필하기 어려운 경우가 많은데요. 크롤링을 배워놓고 나니 자기소개서에서 쓸 내용도 풍성해지고, 향후 실선에서도 여러 프로젝트를 원활히 수행할 수 있겠다는 자신감이 생겼어요."

강사 소개 .

image_6156807521539001854644

나성호 강사님

“서울대학교 경영대 석사 마케팅 전공 후 여러 금융회사에서 데이터 분석가로 다양한 업무를 담당해왔으며, 현재 한양대학교 경영학과에 박사과정으로 진학하여 학업을 병행하고 있습니다. 세부 전공은 데이터 마이닝입니다. 최근 웹크롤링에 대해 관심을 갖는 분들이 많아졌지만 웹크롤러를 만드는 것을 어렵게 생각하시는 것 같습니다. 웹사이트마다 웹크롤러를 별도로 만들어야 하지만 분명 공통점이 있습니다. 그 점을 최대한 쉽게 전달해 드리겠습니다.”

[약력]
– 한양대학교 경영학과 박사과정 재학 중, 데이터 마이닝 전공
– 서울대학교 경영학과 석사 졸업, 마케팅 전공
– 고려대학교 식량자원학과 학사 졸업
– S화재, H캐피탈, H카드, H은행에서 데이터 분석가로 근무 중 (16년 경력)

[강의 경험]
– 2018 H은행 임직원 대상 R을 활용한 웹크롤링, 시각화 및 머신러닝 강의 (24주)
– 2017 H카드 임직원 대상 R을 활용한 머신러닝 강의 (12주)

내 수준에 맞는 R 강의! 잘 모르겠다면?

아래의 관련 강의 정보 및 수강생 선수 지식을 확인해보세요!

R도, 데이터 분석도, 통계도 전혀 모르는 입문자를 대상으로, R을 설치하는 방법부터 데이터 분석의 전반적인 내용까지를 폭넓게 학습할 수 있는 강의

강의 자세히 보기

R로 데이터를 불러오는 등의 간단한 작업이 가능한 초급자를 대상으로, 실무에서 바로 활용가능한 데이터 분석 방법을 3주만에 빠르게 익힐 수 있는 강의

강의 자세히 보기

변수 생성 및 추가, 반복문 코드 작성 등의 경험이 있는 초급자 혹은 개발자를 대상으로, 웹상의 데이터를 자유자재로 수집하는 방법을 익힐 수 있는 실전형 강의

강의 자세히 보기

R로 데이터 분석을 진행해 본 경험이 있는 초/중급자 분들을 대상으로, 개인의 데이터로 데이터 분석의 전 과정을 경험하며 분석 역량을 기를 수 있는 강의

강의 자세히 보기

R로 원하는 데이터를 마음껏 수집하고 싶다면!

R을 활용한 실전 웹크롤링 CAMP

일    정 2019.4.9.~ 2019.5.28. | 총 8주
매주 화 19:30 - 22:30
준비물 개인 노트북 사용 추천
(본인 PC에 맞는 개발 환경 설정 및 원활한 개별 실습을 위하여)
장    소 강남역 부근 패스트캠퍼스 강의장
문    의 이샘 매니저 : 02-518-4822 | help-ds@fastcampus.co.kr
메일로 문의 주실 경우 자세한 상담을 원하신다면 휴대폰 번호, 상담가능 시간을 남겨주세요:)

정가:70만원


※ 카드 12개월 무이자 할부 가능!

출시알림

강의장 안내