웹 구조를 뜯어보는 크롤링 학습으로 내가 원하는 정보를 더 쉽고, 더 빠르게!

파이썬을 활용한
실전 웹크롤링
CAMP

5기 모집중

- 기간 : 2018. 7. 21. ~ 9. 15.(주 1회, 총 8회)| 8월 25일 휴강
- 일정 : 매주 토요일 AM 10:00 ~ PM 1:00 (회당 3시간, 총 24시간)
- 장소 : 패스트캠퍼스 강의장 (강남역 부근)
- 준비물 : 개인 노트북
- 문의 : 이샘 매니저 / 02-518-4822 / help-ds@fastcampus.co.kr
(메일로 문의 주실 경우 자세한 상담을 원하신다면 휴대폰 번호, 상담가능 시간을 남겨주세요!)

웹 구조를 뜯어보는 크롤링 학습으로 내가 원하는 정보를 더 쉽고, 더 빠르게!

파이썬을 활용한
실전 웹크롤링
CAMP

5기 모집중

- 기간 : 2018. 7. 21. ~ 9. 15. (주 1회, 총 8회)| 8월 25일 휴강
- 일정 : 매주 토요일 AM 10:00 ~ PM 1:00 (회당 3시간, 총 24시간)
- 장소 : 패스트캠퍼스 강의장 (강남역 부근)
- 준비물 : 개인 노트북
- 문의 : 이샘 매니저 / 02-518-4822 / help-ds@fastcampus.co.kr
(메일로 문의 주실 경우 자세한 상담을 원하신다면 휴대폰 번호, 상담가능 시간을 남겨주세요!)

파이썬만 알면 내 마음대로 할 수 있을것 같던 크롤링

막상 해보니 이런 좌절에 빠지셨나요?

인터넷 상의 예제나 코드 조각들로 크롤러를 만들었는데, 자꾸만 오류가 납니다.

분명 크롤링되던 사이트인데, 어느날 갑자기 안됩니다. 왜 그런거죠?

사이트마다 다 제각각… A사이트에선 돌아가던 크롤러가 B사이트에선 또 안됩니다.

우여곡절 끝에 크롤링한 데이터가 너무 엉망진창이라 쓸 수가 없습니다. 어쩌죠?

많은 경우 이러한 이유때문에 크롤링을 포기하고
몇 시간을 들여가며 데이터를 손수 긁어오는 일을 반복합니다.

정형화된 코드만 사용해서는 오류나기 일쑤인 크롤링, 어떻게 하면 제대로 배울 수 있을까요?

실전 경험이 무엇보다 중요한 크롤링, 때문에 경험이 풍부한 전문가에게 배우는 것이 중요합니다.
누구보다 쉽고, 빠르게 내가 원하는 데이터를 크롤링하기 원하신다면 강사님의 노하우를 듬뿍 담은 3단계 커리큘럼을 경험하세요! 

1step : 웹크롤링을 위한 파이썬 리뷰

본격적인 크롤링에 앞서, 파이썬의 기본문법 및 라이브러리 사용법을 알아봅니다. 웹크롤링을 이해하고, 이를 위한 가상환경을 셋팅합니다.

2step : 웹의 이해와 HTML 문서 학습

웹 크롤링을 위한 HTML의 구조를 이해하고, 내가 원하는 정보만 추출해봅니다. 또한 HTML안에서 구동되는 JavaScript를 이해하며, 새창/팝업창이 뜨거나 스크롤이 필요한 경우의 크롤링을 시도해봅니다.

3step : 실전! 내가 원하는 페이지를 크롤링해보자

API가 제공되었을 경우의 크롤링, 정규표현식을 사용한 데이터 추출 및 전처리, HTML문서 밖에서 정보를 찾는 방법과 정기적인 크롤링, 크롤링한 결과를 Database에 적재하기 등 다양한 경우의 크롤링 방법을 알아봅니다.

크롤링에 자신감을 심어줄 실습 프로젝트 

마치 포트폴리오를 제작하듯 강사님의 밀착 지도를 통해 수강생 모두가 직접 구현한 크롤링 결과물을 얻어 갈 수 있도록 만들어드립니다.

실습 예시

네이버 웹툰 제목 가져오기

구글 검색시 연관검색어 키워드 추출하기

수강생 한 줄평

더 자세한 수강 후기를 확인하세요!

혼자 독학으로 코드를 짜서 간단한 사이트를 긁어오는 건 성공하기도 했습니다. 하지만 웹 구조에 대해 이해가 가지 않는 부분이 많았고, 구조가 조금이라도 바뀌면 막히기 일쑤였습니다. 문제를 해결하려고 혼자 끙끙 씨름하며 시간과 에너지를 낭비하기보단, 이미 이 과정을 경험한 전문가의 노하우를 배우는 게 좋겠다는 생각이 들었습니다.
(중략)
이 과정을 듣기 전에는 하지 못했던 사이트들을 포함해서 어떤 사이트든 상관없이 이미지, 텍스트, pdf, hwp, zip 등 페이지에 첨부되어있는 첨부파일까지 아무 막힘없이 전부 가져와서 제가 원하는 대로 저장할 수 있게 되었습니다.
(중략)
파이썬 기본기가 탄탄하고, 원하는 사이트에서 원하는 데이터를 자유자재로 크롤링하고자 하는 동기가 확실하시다면, 본 강의를 추천드립니다. 코드만 따라 하던 수준을 넘어 웹 구조부터 제대로 이해하고, 독학으로는 알 수 없는 전문가의 노하우까지 빠르게 얻어 가실 수 있을 것입니다.

‘내가 찾던 그 강의다!’라고 생각한다면?

수강대상

사이트의 구조를 뜯어보며 크롤링 방법을 확실하게 이해하고 싶은분

웹사이트에서 내가 원하는 정보를 더 적은 노력으로, 빠르게 수집하고 싶은 실무자

웹사이트에 대한 이해가 부족하여 크롤링에 어려움을 겪는 개발자

내가 원하는 사이트를 자유자재로 크롤링 하고 싶은분

자주묻는 질문

Q. 파이썬을 사용해 본 경험이 없는데, 캠프를 수강해도 괜찮을까요?

본 캠프는 파이썬의 기초 문법을 알고 계신 분들을 대상으로 합니다. 기본적으로 객체, 변수 등이 무엇인지 알고, for문을 코딩하실 수 있는 정도여야 무리없이 강의 내용을 소화하실 수 있습니다. 자세한 강의 난이도가 궁금하시 분은 언제든 담당 매니저에게 문의주시면 친절히 상담해드립니다.

커리큘럼

PART1. 웹크롤링을 위한 파이썬 리뷰

웹크롤링을 잘하기 위해서는 파이썬 내장함수를 잘 활용하고 반복문, 조건문을 잘 다뤄야 합니다. 파이썬 기본문법 및 라이브러리 사용법을 빠르게 리뷰해봅니다.

1회차. 파이썬의 기본문법 및 라이브러리 사용법을 알아봅니다. 웹크롤링을 이해하여 보고, 이를 위한 가상환경을 셋팅합니다.

[이론]

  • 크롤링, 스크래핑에 대한 이해
  • 가상환경에 대한 이해
  • 정규표현식에 대한 이해
  • Pandas Dataframe 개념 학습

[실습]

  • 파이썬의 기본: 변수, 자료형, 객체 이해하기
  • 웹크롤링을 위한 파이썬 반복문, 조건문
  • 웹크롤링 코드를 짜기 위한 내장함수 학습
  • 정규표현식 이해하기

PART2. 웹의 이해와 HTML 문서 학습

웹 크롤링을 위한 이론적인 바탕을 학습하고 HTML문서를 하나하나 살펴봅니다.

2회차. 웹 크롤링을 위하여 HTML 구조를 살펴봅니다.

[이론]

  • 웹크롤링을 하는 목적, 종류에 대한 이해
  • 서버와 클라이언트와 브라우저의 관계도 이해
  • 웹에 데이터를 요청할때의 두가지 방식 : GET과 POST

[실습]
실습 웹페이지 : 네이버  로그인/ 뉴스, 페이스북

  • 웹 문서안의 구조를 제대로 이해하기: CSS / tag / JS 란 무엇인가?
  • requests을 활용한 웹사이트 접근

3회차. html 객체를 이해하고, 웹사이트에서 내가 원하는 정보만 추출해봅니다.

[이론]

  • 웹 안에 있는  document의 구조 이해
  • URL의 변화없이 내용이 변화가능한  웹사이트의 구조 이해
  • html 객체를 가져오는 requests, selenium, urlib 패키지 살펴보기

[실습]
실습 웹페이지 : 직방, 페이스북, 무신사스토어

  • 웹페이지 상의 버튼, 링크, 입력박스 등을 구분하는 방법 (CSS Selecter / Xpath) 알아보고 실습하기
  • bs4의 Beautifulsoup 모듈을 사용하여 웹페이지 안의 정보들을 정확히 집어내기

4회차. 새창/팝업이 뜨거나 스크롤이 필요할 경우의 크롤링을 시도해봅니다.

[이론]

  • HTML 안에서 구동되는 JavaScript 이해해보기
  • headless browser에 대한 이해(보통의 Browser와의 무엇이 다른가?)

[실습]
실습 웹페이지 : 네이버 블로그/금융/뉴스, 구글 이미지 검색

  • HTML안의 객체들의 계층적 구조에 접근하는 법
  • Iframe 이해하기 : HTML안의 HTML에 접근하는 방법
  • Chrome 브라우저에서 새창이 열리거나, 팝업이 뜰 경우를 대처하는 방법
  • 스크롤로 새로운 내용을 불러야 하는 경우의 대처법
  • selenium으로 사이트 내의 버튼, 입력창 제어하기

PART3. 실전! 원하는 페이지를 크롤링해보자

실제 크롤링 실습을 통해 학습하고 원하는 사이트를 정해 실제 프로젝트로 진행합니다. 프로젝트 진행은 질의시간을 가져 여러가지 변수에 대처하는 테크닉을 학습합니다.

5회차. API가 제공되었을 경우의 크롤링을 해봅니다.

[이론]

  • 크롤링이 안되는 여러가지 이유와 해결법
  • 크롤링과 법적 문제 케이스 살펴보기

[실습]
실습 웹페이지 : 페이스북, 네이버카페, 사람인

  • API 크롤링 해보기 (공공데이터포털, 혹은 각종 개발자센터에서  JSON을 다루는 방법)
  • 크롤링을 못하게 막아둔 페이지를 접근하기(쿠키를 사용하여 로그인하기, 가짜 에이전트를 사용하여 웹페이지 접근하기)
  • 실제로 크롤링이 가능한 사이트인지 확인해보기

6회차. 정규표현식을 사용한 데이터 추출 및 전처리

[이론]

  • 문자형 데이터 형태소 분석 및 토픽 뽑아내기 개념 학습
  • 수치형 데이터 기초통계 개념 학습

[실습]
실습 웹페이지 : 유튜브 댓글 API / 상업지구별 상가 정보 API

  • 크롤링한 데이터를 실제 엑셀파일 혹은 텍스트데이터로 저장하기
  • 인코딩 / 시트 / 칼럼명 등을 다루는 함수 학습
  • 문자형데이터를 간단히 정리하고 분석하기
  • 수치형데이터로 기초통계 추출하기

7회차. html 문서 밖에서 정보를 찾는 방법과 정기적인 크롤링

[이론]

  • 윈도우 스케쥴러 / crontab을 활용하여 정기적인 크롤링하기
  • 프록시 서버를 활용하여 데이터 크롤링하기

[실습]

  • 웹사이트 네트워크 단계에서 가져오는 API주소 가져와서 크롤링하기
  • 정기적인 크롤링을 위해 crontap 혹은 윈도우의 스케쥴러를 사용하고, AWS의 프리티어 계정을 사용하여 서버에서 크롤링을 진행하기

8회차. 내가 원하는 사이트를 크롤링 하고, 텍스트데이터 정리하기

[이론]

  • 1-7주차 내용 리뷰
  • 웹크롤링한 텍스트데이터를 간단히 분석하기

[실습]

  • konlpy, gensim 패키지를 사용하여, 문자형 데이터 분석하기
  • 자신이 원하는 사이트 크롤링하기

강사 소개

zzzz

신준호 강사님

안녕하세요. Python과 R로 데이터분석을 공부하고 있는 신준호입니다. 데이터 분석에서 가장 중요한 데이터를 구하기 위해 크롤링을 공부하고 여러 사이트에서 원하는 정보를 추출하게 되었습니다. 저도 처음에는 한 가지 사이트에만 적용되는 크롤링 예제 코드를 가지고 씨름하며 많은 시행착오와 구글링을 했었던 기억이 납니다. 누군가 옆에서 알려줬다면 빠르게 갈 수 있던 길이었기에 웹 크롤링을 처음 시작하는 여러분들께 도움을 드리고자 강의를 시작합니다. 본 강의를 통해 크롤링에 대해 많은 것을 얻어가실수 있도록 최선을 다하겠습니다. 

주요 약력

– 웹크롤링 프리랜서
– 성균관대학교 데이터사이언스 전공

zzzzz

조준희 조교님

안녕하세요. 현재 아주대학교 산업공학과에서 석사과정을 밟고 있습니다. 중, 고등학교에서 코딩봉사를 진행한 경험이 있으며, 이를 발판삼아 수강생 분들께서 수업을 따라가심에 있어 기초적인 부분부터 도움을 드리도록 하겠습니다.

수강료

일반 등록가

90만 원