AWS, 그리고

APACHE SPARK을 활용한
데이터 파이프라인 만들기
CAMP

데이터 파이프라인의 빠른 구축이 필요할 때,
현업 전문가가 말하는 AWS 활용노하우로 Spark를 시작하세요.

#서비스배포#운영노하우
#데이터파이프라인

기간 & 일정

2019.06.29 – 08.03
매주 토요일 14:00 – 18:00
주 1회 회당 4시간|총 24시간

장소 & 준비물

패스트캠퍼스 강남강의장
강남역 4번 출구, 미왕빌딩
필기구, 노트북

담당자 & 문의

윤형진 매니저
02-517-0641
help-ds@fastcampus.co.kr

Apache Spark의 기초 사용법은 배웠지만,
정작 실무에 적용하기는 어려웠나요?

실무에서는 데이터 수집부터 데이터 분석 결과물 출력까지 수행하는 데이터 파이프라인을
구축하고 운용할 수 있는 능력을 갖추는 것이 중요합니다!

  • Search Icon
  • 데이터 파이프라인 구축 실습으로
    실전력을 갖추고, 실제 운영 노하우까지!

  • AWS Icon
  • 실제 스타트업에서 많이 사용하는
    AWS를 활용하여 경제적이고, 효율적으로!

AWS, Apache Spark의 기능과 활용법을 혼자서 공부한다면, 정말 많은 시간과 노력이 소요됩니다.
본 CAMP에서는 현업 경력 20년의 베테랑 강사님과 함께 데이터 파이프라인 구축 실습을 진행하고,
실제 서비스 배포와 운영 노하우까지 단 6주안에 모두 배우실 수 있습니다.

미니프로젝트로, 데이터 파이프라인 구축 과정 전체를 Wrap-up!

미니프로젝트로,
데이터 파이프라인
구축 과정 전체를

Wrap-up!

  • 강의
    특징
  • 빠르게 데이터 파이프라인을 구축하는 방법을 배울 수 있습니다.

    본강의는 Apache Spark와 AWS를 활용하여 직접 데이터 파이프라인을 구축하는 실습형 강의입니다.
    데이터 수집부터 데이터 저장, 전처리, 분석과 시각화까지 모두 배워 실제 서비스에 바로 적용할 수 있습니다.

    AWS의 경제적인 운영 방법과 서비스 제공 노하우를 배울 수 있습니다.

    AWS는 유료 서비스이기 때문에 경제적으로 활용하는 것이 중요합니다.
    하지만, AWS에서는 이러한 노하우를 가르쳐주지 않습니다.
    AWS를 많이 활용한 현업 전문가에게 직접 AWS의 활용 노하우를 배워가세요.

    AWS와 Spark의 사용법이라는 두 마리 토끼를 잡을 수 있습니다.

    본 강의를 통해 AWS와 Spark이 갖고 있는 다양한 기능들을 어떻게 조합해야 하는지에 대한 감을
    잡을 수 있습니다. 또한 데이터웨어하우스와 데이터 레이크 전체에 걸쳐 간단하게 모든 데이터를 분석할 수 있는 Redshift를 어떻게 활용하는지까지 배울 수 있습니다.

    미니프로젝트를 진행해보며, 강의 전체 내용을 wrap-up 해 볼 수 있습니다.

    미니프로젝트를 통해 데이터를 분석할 Target을 선정하고, 데이터 구성 및 수집부터 데이터 가공까지 직접
    경험할 수 있습니다. 또한 팀별 미니프로젝트 결과물을 발표하는 시간을 가지며 다른 수강생들과 결과를
    공유해볼 수 있습니다.

공부도 하고!
학습지원금도 받고!

결제액의 10%를 학습지원금으로 드립니다.

패스트캠퍼스의 수강의지를 강화하기 위한 지원금 제도를 운영합니다
패캠이 제안하는 학습 목표를 달성하고 커리어 이상의 성취감을 얻어가길 바랍니다.

*학습지원금은 제세공과금(22%)을 제하고 드립니다.

학습노트

100% 제출

출석

100% 참석

스터디그룹

100% 참여

강의 자료 .

  • 추천
    대상
  • 1. 'Spark 실제 운영에 있어서 어려움' 을 겪는 데이터 엔지니어/개발자

    2. '데이터 파이프라인 구축 및 운영 노하우' 를 익히고 싶은 데이터 엔지니어/개발자

    3. '클라우드 환경에서 데이터 파이프라인' 을 빠르게 구축하고 싶은 데이터 엔지니어/개발자

    *본 코스는 선수 지식이 필요합니다!
    Spark의 사용 방법을 알고 있는 분, AWS EC2 배포 방법을 알고 계신 분이라면 적극 추천합니다!

    만약 Spark이 처음이시라면, Apache Spark의 기초 개념부터 주요 라이브러리의 활용법과
    음악추천시스템 구현까지 다루는 [Apache Spark을 이용한 빅데이터 분석 입문 CAMP]를 먼저
    수강하실 것을 권합니다.

  • 1 'Spark 실제 운영에 있어서 어려움'
    을 겪는 데이터 엔지니어/개발자
    2 '데이터 파이프라인 구축 및 운영 노하우'
    를 익히고 싶은 데이터 엔지니어/개발자
    3 '클라우드 환경에서 데이터 파이프라인'
    을 빠르게 구축하고 싶은 데이터 엔지니어/개발자

    본 코스는 선수 지식이 필요합니다!
    Spark의 사용 방법을 알고 있는 분, AWS EC2 배포 방법을 알고 계신 분이라면 적극 추천합니다!

    만약 Spark이 처음이시라면, Apache Spark의 기초 개념부터 주요 라이브러리의 활용법과
    음악추천시스템 구현까지 다루는 [Apache Spark을 이용한 빅데이터 분석 입문 CAMP]를 먼저
    수강하실 것을 권합니다.

Apache Spark,
이제는 실전이다!

빠르게 데이터 파이프라인을 구축하고,
AWS를 활용한 서비스 배포까지
모두 배우는 6주 강의

수강신청|10% 할인(~6/20)
  • 강사
    소개
    • Teacher Img
    • 권낙주 강사님

      現) Public Cloud 데이터 아키텍트 책임자

      아주대학교 산업공학과 대학원 졸업

      인덕대학교 2년 강사 활동

      금융권 데이터표준화 컨설팅

      삼성화재 정보계 모델링 및 데이터 이관

      솔루션 개발 기술자문 10년 경력

      前) 직방 데이터분석팀 데이터 아키텍트 책임자

      권낙주 강사님 인터뷰 보러가기
  • 커리
    큘럼
  • 주차 데이터 수집 데이터 저장 및 전처리 데이터 분석/시각화
    1주 데이터 수집부터 분석/시각화에 이르는 데이터 파이프라인의 흐름에 대해서 이해하고 데이터 파이프라인 구성하는데 필요한 패키지의 각각의 용도에 대해서 알아봅니다. 온프레미스(기존에 서버호스팅방식)와 클라우드 환경에서의 데이터 수집의 차이를 살펴봅니다.

    1. 데이터 파이프라인의 흐름의 이해

    2. 데이터 파이프라인의 각 단계에서 사용되는 최신 패키지

    3. 데이터 수집을 위한 패키지인 logstash와 kafka를 이용해 ec2에서 로그를 s3에 수집하기

    *미니프로젝트 : 프로젝트 팀 구성하기

    2주 AWS Cloud의 인터넷용 스토리지 서비스 S3를 이해합니다. 대규모 데이터 레코드 스트림을 실시간으로 수집하고 처리하는 Kinesis Stream을 사용해봅니다. 1주차에 배운 데이터 수집방법을 토대로 온프레미스와 클라우드상에서 데이터 수집의 차이를 살펴봅니다.

    AWS 패키지들을 이용한 데이터 수집

    1. Api-gateway, Kinesis Stream, Firehose, S3의 이해

    2. Api-gateway, Kinesis Stream, Firehose, S3 설정하기

    3. AWS cloud 에서 데이터 수집하기

    *미니프로젝트 : 데이터 분석할 Target 설정하기

    3주 AWS에서 Apache Hadoop 및 Apache Spark와 같은 빅데이터 프레임워크 실행을 간소화하는 관리형 클러스터 플랫폼인 EMR에 대해 알아봅니다. 분석할 데이터가 요구하는 컴퓨팅 파워에 따라 클러스터를 쉽게 확장하고 축소할 수 있는 EMR의 장점에 대해서 실습을 통해서 배워봅니다. EMR 중 데이터 파이프라인에 중심이 되는 Spark 과 Hive 활용법을 살펴봅니다.

    1. EMR 구조에 대한 이해 및 실행

    2. EMR의 Spark에 대한 모니터링 방법의 이해

    3. Zeppelin을 이용한 데이터 처리

    4. Zeppelin에서 RDS와 Glue에 정의된 테이블 join 해보기

    *미니프로젝트 : 데이터 구성 및 수집하기

    4주 AWS Glue는 고객이 분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 지원하는 완전관리형 ETL(추출, 변환 및 로드)서비스입니다. Cloud 상에서 사용하는 메타데이터를 관리할 수 있는 AWS Glue 에 대해서 이해하는 시간을 갖습니다.
    Micro-service 아키텍처(MSA)는 작은 자율 서비스 컬렉션으로 구성되며, 서비스를 쉽게 추가하고 삭제할 수 있는 구조를 갖고 있습니다. 1주차때 생성한 데이터 수집 Architecture를 MSA구조로 변경해봅니다.

    1. AWS Glue의 이해

    2. AWS Glue를 활용한 Hive table 생성

    3. Hive table를 활용한 데이터 처리

    4. Zeppelin의 cron 기능을 활용한 데이터 생성

    *미니프로젝트 : 데이터 가공하기

    5주 Presto는 하둡 분산 파일 시스템(HDFS)과 Amazon S3를 비롯한 여러 데이터 소스에서 데이터를 처리할 수 있는 분산 SQL 쿼리 엔진입니다. Presto는 데이터 분석가와 개발자가 손쉽게 대규모로 이기종간의 정형 데이터를 쿼리할 수 있는 기능을 지원하며, 복잡한 집계함수나 조인, 통계함수 그리고 다양한 SQL 기능도 제공합니다. 막강한 기능을 가진 Presto를 배워보고 데이터 Dashboard Tool과 어떻게 연동하는지 알아봅니다. 최근에 화두가 되고 있는 검색엔진인 Elasticsearch와 Dashboard로 많이 사용하고 있는 Kibana를 이용하여 데이터 분석 및 시각화를 수행해봅니다.

    1. Presto 이용해 S3 저장되어 있는 Hive Table Data 를 BI툴에 제공하기

    2. Presto와 Tableau를 연동하여 간단한 Dashboard 구성해보기

    3. Spark와 ElasticSearch 와 연동해서 간단한 분석 수행해보기

    * 미니프로젝트 : 시각화(Visualization)하기

    6주 Amazon Redshift는 데이터웨어하우스와 데이터 레이크 전체에 걸쳐 간단하게 모든 데이터를 분석할 수 있는 AWS 서비스의 MPP(Massively Parallel Processing) Database로서 분석 성능이 우수하고 확장 가능하다는 장점이 있습니다. 데이터웨어하우스를 구성하는 데에 있어서 Redshift를 어떻게 활용하는지 알아보고, S3에 구성한 데이터 레이크에 있는 데이터를 Spectrum 기능을 활용하여 조회해봅니다. 5주동안 진행한 미니프로젝트 결과에 대해 공유합니다.

    1. Redshift의 이해

    2. Redshift SQL 조회

    3. Redshift Spectrum을 이용해서 Glue에 정의되어 있는 Table 조회

    *미니프로젝트 : 팀별 미니프로젝트 결과물 발표

    주차 커리큘럼 설명
    1주 데이터 수집부터 분석/시각화에 이르는 데이터 파이프라인의 흐름에 대해서 이해하고 데이터 파이프라인 구성하는데 필요한 패키지의 각각의 용도에 대해서 알아봅니다.
    온프레미스(기존에 서버호스팅방식)와 클라우드 환경에서의 데이터 수집의 차이를 살펴봅니다.
    2주 AWS Cloud의 인터넷용 스토리지 서비스 S3를 이해합니다. 대규모 데이터 레코드스트림을 실시간으로 수집하고 처리하는 Kinesis Stream을 사용해봅니다. 1주차에 배운 데이터 수집방법을 토대로 온프레미스와 클라우드상에서 데이터 수집의 차이를 살펴봅니다.
    3주 AWS에서 Apache Hadoop 및 Apache Spark와 같은 빅데이터 프레임워크 실행을 간소화하는 관리형 클러스터 플랫폼인 EMR에 대해 알아봅니다. 분석할 데이터가 요구하는 컴퓨팅 파워에 따라 클러스터를 쉽게 확장하고 축소할 수 있는 EMR의 장점에 대해서 실습을 통해서 배워봅니다. EMR 중 데이터 파이프라인에 중심이 되는 Spark 과 Hive 활용법을 살펴봅니다.
    4주 AWS Glue는 고객이 분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 지원하는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. Cloud 상에서 사용하는 메타데이터를 관리할 수 있는 AWS Glue 에 대해서 이해하는 시간을 갖습니다.
    5주 Presto는 하둡 분산 파일 시스템(HDFS)과 Amazon S3를 비롯한 여러 데이터 소스에서 데이터를 처리할 수 있는 분산 SQL 쿼리 엔진입니다. Presto는 데이터 분석가와 개발자가 손쉽게 대규모로 이기종간의 정형 데이터를 쿼리할 수 있는 기능을 지원하며, 복잡한 집계함수나 조인, 통계함수 그리고 다양한 SQL 기능도 제공합니다. 막강한 기능을 가진 Presto를 배워보고 데이터 Dashboard Tool과 어떻게 연동하는지 알아봅니다. 최근에 화두가 되고 있는 검색엔진인 Elasticsearch와 Dashboard로 많이 사용하고 있는 Kibana를 이용하여 데이터 분석 및 시각화를 수행해봅니다.
    6주 Amazon Redshift는 데이터웨어하우스와 데이터 레이크 전체에 걸쳐 간단하게 모든 데이터를 분석할 수 있는 AWS 서비스의 MPP(Massively Parallel Processing) Database로서 분석 성능이 우수하고 확장 가능하다는 장점이 있습니다. 데이터웨어하우스를 구성하는 데에 있어서 Redshift를 어떻게 활용하는지 알아보고, S3에 구성한 데이터 레이크에 있는 데이터를 Spectrum 기능을 활용하여 조회해봅니다. 5주동안 진행한 미니프로젝트 결과에 대해 공유합니다.

강의에 대한 전반적인 소개를 한 눈에 보고 싶다면? 교육 과정 소개서를 확인해주세요!
* 본 소개서는 회사 제출용으로도 사용 가능합니다.

{ FASTCAMPUS COMMUNITY MEMBERSHIP }

패스트캠퍼스 오프라인 강의를 수강하셨다면!
별도의 가입절차없이 패스트캠퍼스 커뮤니티 멤버쉽 회원이 됩니다.
커뮤니티 멤버쉽은 수강 후 1년 동안 유지되며,
오직 멤버들만을 위한 비공개 스터디클럽, 네트워킹행사, 세미나 등 비정기적 행사에 모실 예정입니다.

매주 목요일마다 할인 마감!

수강료 안내

강의 정보, 한 번 더 확인!

기 간 : 2019. 6. 29. ~ 2019. 8. 3. (총 6주)
일 정 : 토요일 14:00 – 18:00 (주 1회 4시간)
준비물 : 개인 노트북 권장
장 소 : 패스트캠퍼스 강의장


90만원 100만원

 

얼리버드 할인 | 10% OFF

✓ 6월 20일 자정에 할인이 마감됩니다.

✓ 매주 목요일마다 가격이 소폭 상승합니다.

다음 모집은 언제죠?

 

출시알림을 신청해주세요

최저가로 강의를 수강할 수 있게, 강의 홍보 시작 시 가장 먼저 메일을 보내드립니다.

강의장 안내

학습 지원 프로젝트

공부도 하고! 학습지원금도 받고!

*학습지원금(제세공과금 22% 차감 후 지급)은 강의마다 개인마다 상이할 수 있습니다.

학습 목표 1. 학습노트 제출

-학습노트 형태: 매주 학습노트 제출.
-학습노트 제출 일정: 매주 화요일 자정 24:00까지 폼스택으로 학습노트 제출.(학습노트 접수 여부는 폼스택 접수시간으로 판단)
-주차별 제출 기한:
1주차: 7월 2일(화) 자정
2주차: 7월 9일(화) 자정
3주차: 7월 16일(화) 자정
4주차: 7월 23일(화) 자정
5주차: 7월 30일(화) 자정
6주차: 8월 2일(화) 자정

학습지원금을 받으려면?

미션을 모두 완료하면 신청페이지를 통해 신청 가능합니다.
다만, 강의 종료 후 30일 이내에 신청페이지를 통해서 신청해주셔야 합니다.
아래의 환급신청 링크로 신분증 사본 / 환급받을 통장사본을 제출 (반드시 본인 명의로만 가능)해 주세요.
결제한 수강료의 10% (환급 금액의 22% 제세공과금으로 차감) 를 드리며, 학습지원금은 개인마다 상이할 수 있습니다.

환불규정

* 학습지원금은 기수강생 및 얼리버드 할인과 중복 적용이 가능합니다. (기타 다른 이벤트와 중복 적용이 불가합니다.)
* 과제물이 허위로 작성되거나 표절일 경우 환급이 거절될 수 있습니다.
* 환불은 환불규정(https://www.fastcampus.co.kr/refund/)에 따라 진행됩니다. 규정에 의거하여 환불금액이 없을 수 있습니다.