파이썬을 활용한 실전 웹크롤링 CAMP
기 간 2017년 11월 15일 ~ 2017년 12월 9일 (총 4주, 8회)
일 정 수요일 오후 7시 30분 ~ 10시 00분
토요일 오전 10시 ~ 12시 30분
준비물 개인 노트북 권장
장 소 패스트캠퍼스 강의장
문 의 이샘 매니저 tel. 02-518-4822
help.camp.ds@fastcampus.co.kr
(메일로 문의 주실 경우 자세한 상담을 원하신다면 휴대폰 번호, 상담가능 시간을 남겨주세요!)

파이썬만 알면 내 마음대로 할 수 있을것 같던 크롤링

막상 해보니 이런 좌절에 빠지셨나요?

인터넷 상의 예제나 코드 조각들로 크롤러를 만들었는데, 자꾸만 오류가 납니다.

분명 크롤링되던 사이트인데, 어느날 갑자기 안됩니다. 왜 그런거죠?

사이트마다 다 제각각… A사이트에선 돌아가던 크롤러가 B사이트에선 또 안됩니다.

우여곡절 끝에 크롤링한 데이터가 너무 엉망진창이라 쓸 수가 없습니다. 어쩌죠?

많은 경우 이러한 이유때문에 크롤링을 포기하고
몇 시간을 들여가며 데이터를 손수 긁어오는 일을 반복합니다.

정형화된 코드만 사용해서는 오류나기 일쑤인 크롤링, 어떻게 하면 제대로 배울 수 있을까요?

실전 경험이 무엇보다 중요한 크롤링, 때문에 경험이 풍부한 전문가에게 배우는 것이 중요합니다.
2017 파이콘에서 ‘크롤링’을 주제로 발표까지 하신 강사님의 체계적인 4단계 커리큘럼을 지금 경험하세요!

1step : 파이썬 핵심과 웹구조 이해

본격적인 크롤링에 앞서, 파이썬 문법과 웹 사이트의 내부 구조가 어떻게 이루어져있는지 파악하기 위해 HTML/CSS/JS에 대해 핵심적인 내용을 짚어드립니다.

2step : 다양한 크롤링 실습

언제든 자유자재로 크롤링할 수 있도록 검색 포털 사이트부터 온라인 커뮤니티 사이트, 온라인 거래 사이트, SNS 등 다양한 종류의 사이트들의 특성에 맞는 크롤러를 직접 만들어봅니다.

3step : 크롤링 자동화 실습

크롤러 제작에서 나아가 정해진 일정에 맞춰 크롤링할 수 있도록 자동화하는 방법을 배우고, 직접 실습합니다. 이를 통해 실무 활용 역량을 더욱 기를 수 있습니다.

4step : 필요한 데이터 정리하기

정규표현식을 활용해 크롤링해온 데이터 중 나에게 필요한 데이터만 골라 문서로 정리하는 법을 가르쳐 드립니다.

크롤링에 자신감을 심어줄 실습 프로젝트 

마치 포트폴리오를 제작하듯 강사님의 밀착 지도를 통해 수강생 모두가 직접 구현한 크롤링 결과물을 얻어 갈 수 있도록 만들어드립니다.

map

실습 예시

실습 예시 1) 구글 검색 결과 크롤링 해오기

실습 예시 2) Naver 실시간 순위 크롤링 해오기

수강대상

 웹사이트 구조에 대한 이해가 전혀 없어 크롤링에 어려움을 겪는 분

어떠한 사이트든지 자유자재로 내가 원하는 데이터를 크롤링 하고 싶은 분

자주묻는 질문

Q. 파이썬을 사용해 본 경험이 없는데, 캠프를 수강해도 괜찮을까요?

본 캠프는 파이썬의 기초 문법을 알고 계신 분들을 대상으로 합니다. 기본적으로 객체, 변수 등이 무엇인지 알고, for문을 코딩하실 수 있는 정도여야 무리없이 강의 내용을 소화하실 수 있습니다. 자세한 강의 난이도가 궁금하시 분은 언제든 담당 매니저에게 문의주시면 친절히 상담해드립니다.

'내가 찾던 바로 그 강의다!'라고 생각한다면?

수강 후기

wcr2.001

개인적으로 제게는 정말 도움이 많이 되는 수업이었습니다. 예전에는 게시판 하나 정도 긁어올 수 있었다면, 지금은 원하는 사이트 전체를 긁어올 수 있게 되었고, 매번 일일이 크롤링하는 게 아니라 자동화까지 가능해졌어요. 그리고, 수집해온 데이터를 필요에 맞게 잘 정리해 보관하는 법도 배울 수 있었습니다. 파이썬이라는 언어는 처음 접해봐서 어려울까 걱정했는데, 강사님께서 강의 초반에 딱 ‘크롤링’에 필요한 핵심 문법들과 활용법들에 대해 잘 설명해주셔서 실습을 진행하는 것에 큰 불편이 없었습니다.

강사 소개

wcr_inst

이준범 강사님

파이썬과 장고로 프로그래밍하는 이준범입니다. 웹에 흩어진 데이터들을 모아 의미있는 자료로 만드는 것, 그리고 프로그래밍 입문자도 비교적 쉽고 빠르게 배워 유용하게 쓸 수 있다는 점에 크롤링에 큰 관심을 갖고 있습니다. 현재 DjangoGirls Seoul에서 운영진으로 활동중이며 파이썬/장고와 관련된 여러 개발도 진행하고 있습니다. 또한 크롤링을 이용해 학교 공지 알림봇 등을 제작하고 운영중입니다. 인터넷에 올라와있는 수많은 예제와 코드조각들, 하지만 읽거나 코드를 복사-붙여넣기를 해 보아도 돌아가지 않아 좌절한 분들을 위해, 어떻게 하면 쉽고 간편하게 사람들이 이해할지에 대해 많은 고민을 담은 <나만의 웹 크롤러 만들기> 시리즈를 블로그(https://beomi.github.io/)에서 연재중입니다.

주요 약력

– 파이썬 격월 세미나 <굥대생의 HelloWorld!> 세션 발표
– PYCON KR 2017 <처음부터 알아보는 웹 크롤러> 세션 발표
– PYCON KR 2017 <나만의 웹 크롤러 만들기> 튜토리얼 진행
– GDG Summer Party <쓸데 많은 웹 크롤러 만들기 with Python> 세션 발표

– DjangoGirls Seoul Organizer
– 우아한 형제들(우아한 테크캠프) 인턴
– 패스트캠퍼스 웹서비스개발캠프(Django) 보조강사
– 넥슨 코리아 파이썬 사내강의 보조강사
– 키움증권 파이썬 데이터분석 입문 강의

– 어썸스쿨 (awesome-school.net) 랜딩페이지/관리자 개발
– 대학내 커뮤니티 서비스 및 학식/공지 알림 봇 개발

커리큘럼

회차 강의 내용
PART 1. 크롤링의 시작을 위한 파이썬 기초 리뷰
웹 크롤링에 필요한 파이썬의 기본문법과 라이브러리 사용법을 알아봅니다.
1 이론 우리가 8회 수업 후, 가능하게 될 결과를 보며 크롤링에 필요한 도구 설명
실습 # 파이썬 기초 리뷰

- 크롤링 프로그래밍 환경 잡기: 크롬, 파이썬, 도구(라이브러리)들 설치하기
- 파이썬의 기본: 변수, 자료형, 객체 이해하기
- 파이썬 반복문 이용해보기
- 파이썬의 기본: 함수, 라이브러리 import해보기
PART 2. 웹사이트 구조 완벽 이해하기
포탈 사이트의 구조를 뜯어보며, 웹페이지의 구조를 이해해봅니다.
2 이론 - 웹 사이트는 어떻게 만들어져있을까?
- HTML + CSS + JS 간단한 소개
실습 # 검색 포털 사이트

- 검색 포털 사이트의 구조 뜯어보기
- 실시간 검색어 크롤링하기
PART 3. 내가 원하는 사이트를 크롤링해보자
온라인 커뮤니티 사이트, 페이스북, 트위터 등 본격적으로 다양한 사이트의 웹 크롤링을 시작해 봅니다.
3 이론 - 크롤링을 도와주는 크롬 사용법, 로그인해서 크롤링하기
- CSS Selector 이해하고 연습해보기
- 웹에서 로그인이 어떻게 이루어지는지 알아보기
- 로그인이 유지되는 방법들 알아보기
실습 # 온라인 커뮤니티 사이트 / 온라인 거래 사이트

- 온라인 커뮤니티 사이트 (IT행사 신청 사이트) 구조 뜯어보기
- 온라인 커뮤니티 사이트 검색 결과 크롤링하기
- 온라인 거래 사이트 로그인 구조 뜯어보기
- 온라인 거래 사이트 로그인 하고 장터 크롤링하기
4-5 이론 크롬과 Selenium을 통해 SNS 크롤링하는 방법 익히기
실습 # 페이스북

- Selenium 설치 (pip로 설치 / selenium chrome driver 받기)
- Selenium 사용법 익히기 (브라우저 이동, 클릭, 입력 / 웹 페이지 Element가져오기)
- 페이스북 로그인하기
- 페이스북 타임라인 크롤링하기

# 인스타그램

- 인스타그램 로그인
- 인스타그램 타임라인 가져오기
- 인기 피드 가져오기
- 검색 결과 가져오기
6 이론 - 파이썬 더 간단하게 크롤링 해보기
- PhantomJS와 Headless Chrome으로 CLI에서 크롤링 코드를 실행합니다.
실습 # 트위터

- 기존 Selenium이용한 코드들을 Headless 환경에서 실행하기
- 트위터 로그인하기
- 트위터 해쉬태그 검색결과 크롤링하기
PART 4. 시간 감축 및 효율적 업무를 위한 크롤링 자동화
내가 일일이 하지 않아도, 주기적으로 크롤링하는 방법에 대하여 알아봅니다.
7 이론 - 시간 주기에 맞춰 크롤링 프로그램을 실행시키는 방법 알아보기
- 원격 서버에 코드를 올려 동작시키는 방법 알아보기
실습 # 크롤링 자동화

- VPS에 크롤링 프로그램 올려서 실행해보기
- 주기적으로 크롤링하도록 설정해보기
PART 5. 크롤링 데이터 정리 및,법적 유의사항 알아보기
크롤링한 데이터를 전처리하는 방법과 웹 데이터 저작권 및 사이트 정책등 크롤링을 하기 위한 유의사항을 알아봅니다.
8 이론 - 정규표현식을 이용하여 원하는 데이터만 추출하기
- 크롤링의 법적 문제와 한계
실습 # 정규표현식을 사용한 데이터 정리

- regexr.com에서 정규표현식 연습하기
- 크롤링한 HTML에서 정규표현식으로 단어들 추출하기

# 크롤링 과정을 좀 더 사람처럼 보이게 만들기

- 진짜 브라우저처럼 만들기
- 랜덤하게 쉬면서 크롤링하기

수강료

등록가

90만 원