Apache Spark을 이용한
빅데이터 분석 입문 CAMP.

#빅데이터 엔지니어링을 위한 필수 과정
#현업 전문가에게 배우는 Apache Spark의 모든 것

기 간 일 정 장 소 준비물 문 의
2019년 1월 9일 ~ 4월 3일
휴강: 2/6(설연휴)
(주 1회, 총 12회)
수요일 저녁
7시 30분 ~ 10시 30분
(회 당 3시간, 총 36시간)
패스트캠퍼스 강남 강의장 개인 노트북 권장
(RAM 최소 4GB 이상, 8GB 권장)
윤형진 매니저
tel. 02-517-0641
help-ds@fastcampus.co.kr

많은 양의 데이터를 빠르고 효율적으로 처리/분석하는 Spark
하지만, 혼자 공부하긴 어렵다. 왜?

Spark를 하려면 꼭 알아야할 RDD의 개념부터 이해가 어렵습니다.

기본적인 리눅스 환경 설정이나 VI 에디터 사용을 어떻게 해야할지 모르겠습니다.

노드 간의 네트워크 설정이 굉장히 까다롭고 복잡합니다. 책을 봐도 잘 모르겠네요.

제대로 돌아가는 분산 환경 구축은 어떻게 해야 하죠? 현업 전문가의 도움이 필요합니다.

이렇게 공부해야할 것도, 환경 설정도 복잡한 Spark
독학으로 전부 익히기에는 너무 많은 시간이 소요됩니다.

이런 고민을 해결해줄
[ Apache Spark를 이용한 빅데이터 분석 입문 CAMP ]를 준비했습니다.

본 강의는 붉은 박스에 해당 되는 내용들을 중심으로 커리큘럼이 구성되어 있으며, 최종적으로 음악 추천 시스템을 구현하는 실습을 진행합니다.

강의 특징.

“최신 버전 실습 환경을 구성하여 Spark을 배울 수 있는 강의!”

Spark의 최신내용을 담은
실전형 커리큘럼

Spark을 배우고자 하는 분은 많지만, 국내에 체계적으로 Spark을 가르쳐주는 곳은 패스트캠퍼스 뿐입니다. 최신 버전 Spark의 기능과 사용법을 익힐 수 있으며, Spark의 기초 핵심개념은 물론 Spark 주요 3 Stack(Streaming, SQL, MLlib)을 활용하는 방법을 가르쳐드립니다. 독학으로는 경험할 수 없던 빠른 러닝커브를 경험하세요.

현업 전문가의
생생한 노하우 공유

현업 최전선에서 직접 빅데이터를 다루고 계신 전문가가 여러분과 직접 대면하고 수업을 진행합니다. 전문가가 현업에서 사용하는 핵심 기술과 업계의 최신 트렌드, 그리고 몸으로 부딪혀가며 직접 체득한 실전 경험과 노하우까지, 직접 전수해주는 실무의 정수! 절대 놓치지 마세요.

Spark를 활용한
음악 추천시스템 구현 실습

아무리 많은 이론 지식을 쌓아도, 힘들고 지루한 코딩 연습을 수십 시간 했어도, 배운 내용을 실제 업무에 적용할 수 없다면 무슨 의미가 있을까요? part 3에서 총 2회차에 걸쳐 강사님과 함께 추천 시스템을 기획하고 만들어보는 시간을 통해 여러분이 배운 내용을 업무에 적용하는 능력을 한층 끌어올리세요!

이런 분들에게 추천합니다.

icon_man4_3_oh

“Spark을 배우려면 어디로 가야하지?”

빅데이터 분석 분야로 입문하기 위해
Spark을 배우고 싶은 입문자
icon_man3_2_happy-150x150

“역시 독학은 무리야!”

독학으로 Spark을 배워서 실무에 적용하려고 했지만
기초가 부족해 사용에 어려움을 겪는 분

수강 후기.

어디서도 배우기 힘들었던 Spark 개념, 설치, 활용법에 대한 상세한 설명이 도움이 많이 되었습니다.
빅데이터 분야에서 계속 공부나 업무를 한다면 당연히 들어야 할 강의라고 생각합니다.
– K사 김*윤님

하나하나 천천히 알려주시기 때문에 따라하는데 큰 지장이 없습니다.
강사님의 스파크에 대한 이해와 수준이 높고 제공하는 실습 프로젝트가 참고하기에 잘 갖춰진 구조입니다.
– G사 기*환님

특히 이 강의에서는 가장 최신 버전 Spark을 설치하여 실습하는 점이 마음에 듭니다.
강사님께서 핵심을 빠뜨리지 않고 설명해주실 뿐만 아니라 실습 코드도 제공해 주시면서 꼭 실습을 통해서 배우도록 하는 점이 좋았습니다. 국내에서 Spark을 이렇게 체계적으로 가르쳐주는 곳이 많지 않습니다. 빅데이터에 관심이 있다면 이 강의를 수강해서 Spark의 진면목을 음미하시기를 권합니다.”

커리큘럼.

주차 내용
Part 1. Apache Spark, 꼭 알아야할 핵심 개념
1-3 Apache Spark 이해하기
Apache Spark의 정의와 특징을 살펴보고 그 작동원리를 이해합니다.
Apache Spark에서 사용하는 Scala 언어의 특징을 알아보고 기본적인 사용법을 배웁니다.
Apache Spark 실습진행을 위해 필요한 설치 및 환경설정을 합니다.

- Spark 개요(Apache Spark 소개, 특징, 지원언어, Hadoop과 비교, Spark 프로그래밍 모델(RDD), 작동원리, Spark Components 등)
- Scala 개요(Scala 언어 소개, 특징, 변수 선언, 함수 정의 등 기본 문법)
- Spark 설치 및 실행(VirtualBox, CentOS7, Java 8, Spark 설치 및 환경설정, 프로세스, Lineage 확인 등 Spark Shell 기본 사용법)
Spark Core
Spark Core Components 각각의 기능을 살펴보고, 분산환경(클러스터) 설정과 함께 RDD Operation을 이해합니다.
RDD 생성부터 Transform까지 RDD 프로그래밍을 해봅니다.
병렬 수행되는 클러스터상의 Task를 위한 Shared Variables에 대해 배웁니다.

- Spark RDD 개요(Spark Core Components, Spark Application 배포, RDD Operations 등)
- RDD 프로그래밍(RDD 생성, RDD Transform, RDD Action 등)
- Shared Variables(Broadcast, Accumulators)
Part 2. Apache Spark의 다양한 라이브러리 정복하기
4-10 Spark SQL
Spark 기반으로 SQL을 사용하기 위해 필요한 기본개념과 DataFrame/Dataset, Catalyst Optimizer에 대해 배웁니다.

- Spark SQL 개요(특징, 성능, RDD와 DataFrame/Dataset의 비교, SparkSession)
- DataFrame/Dataset(생성법, Basic Operations, Queries, Join, 저장, Row Object 처리 등)
- Catalyst Optimizer 및 Tungsten Project 작동원리
Spark Streaming
실시간으로 스트림 데이터를 빠르게 처리하는 Spark Streaming과 Structured Streaming을 배웁니다.

- Spark Streaming(특징 및 기능, DStream의 개념 및 Basic Operations, Stateful Operations, Execution Model, DStream Persistence, Checkpoint, Kafka 연계 등)
- Structured Streaming(DStream의 문제점, Programming Model, Window Operations, Watermarking 등)
- 실습 데이터 : twitter를 이용하여 SNS 데이터 수집
Spark ML
Spark ML의 특징을 살펴보고, 사용가능한 알고리즘들을 알아봅니다.다양한 모델을 구축하고 테스트하는 방법에 대해 배웁니다.

- Spark MLlib(특징, 머신러닝 분류, 데이터 유형,,Word2Vec, VectorAssembler, ChiSqSelector 등)
- MLlib Algorithms(Classification, Regression, Clustering, Collaborative, Filtering, Dimensionality Reduction)
- ML Pipeline(Estimator, Transformer, Paramerter, Pipeline)
- Model Selection(CrossValidator, TrainValidationSplit)
- ML Persistence(Status, Predictive Model Markup Language)
Part 3. 추천시스템 구현 프로젝트
11-12 Recommender system with Spark
10주간 배운 내용들을 바탕으로 Cassandra와 Redis 등을 활용하여 음악추천시스템의 기본내용을 구현해봅니다.
- 추천시스템의 개요(추천시스템 아키텍처 및 알고리즘, 배치 추천시스템과 실시간 추천시스템)
- 추천시스템 구현(음악추천시스템)
- 실습 데이터 : 음악 예제 데이터

강사 소개.

Apache_Spark_강사사진_강경인

데이터 엔지니어
강경인 님

대용량 데이터 실시간 처리/분석 기술연구 및 플랫폼 개발업무를 맡고 있습니다.
현재 통신, 제조 분야에서의 빅데이터 실시간 분석 및 머신러닝 시스템을 위해 Apache Spark 중심의 OSS 기술지원을 진행하고 있습니다.

자주 묻는 질문.

Q: 이 수업을 들으려면 프로그래밍 스킬이 많이 필요한가요?

A: 그렇지 않습니다!
수업에 들어오시기 전에 오른쪽 링크를 통해 초급 Java 프로그래밍 무료 온라인 강의를 수료하신다면 이 강의를 듣는데 충분한 프로그래밍 소양을 갖출 수 있습니다.

Q: Spark를 활용한 분석이 아닌 실제 구축과 Hadoop과의 연동에 대해서 궁금합니다. 이 강의를 들으면 될까요?

A: 아니요!
본 캠프는 분석법에 대한 강의로서, Spark를 활용해 데이터를 분석하는 법을 가르쳐드립니다. 따라서, 데이터 엔지니어링에 중점을 두고 Hadoop 플랫폼 위에서 Spark를 어떻게 설치/구축하고 Hadoop과 연동하는지에 대해 학습하길 원하신다면 Apache Hadoop으로 구축하는 분산처리 빅데이터 플랫폼 CAMP (click)를 추천드립니다.

함께 들으면 좋은 강의 추천.

분산처리(MapReduce)에는 Spark이 강자라면, 분산 저장에는 Hadoop의 HDFS를 사용해야 합니다. Spark과 Hadoop을 모두 알면 빅데이터 처리의 효율성을 극대화 할 수 있습니다. [Apache Hadoop으로 구축하는 분산처리 빅데이터 플랫폼  CAMP]에서는 Spark과 Hadoop을 연동하여 사용하는 방법에 대해서도 다룹니다.

빅데이터 엔지니어링을 위한 필수 과정!

Apache Spark을 이용한 빅데이터 분석 입문 CAMP

일    정 2019.1.9.~ 2018.4.3. 휴강 2/6(설연휴)
매주 수요일 19:30 ~ 22:30 | 총 12주
준비물 개인 노트북 사용 추천(RAM 최소 4GB 이상, 8GB 권장)
본인 PC에 맞는 개발 환경 설정 및 원활한 개별 실습을 위해 권장드립니다.
장    소 강남역 패스트캠퍼스 본원
문    의 윤형진 매니저 : 02-517-0641 | help-ds@fastcampus.co.kr
메일로 문의 주실 경우 자세한 상담을 원하신다면 휴대폰 번호, 상담가능 시간을 남겨주세요!

170만원

※출시알림을 신청하시면, 다음 기수 강의 정보를 가장 먼저 받아보실 수 있습니다.
※할인가는 매주 목요일 자정에 변경됩니다.
※ 카드 12개월 무이자 할부 가능!

출시알림

강의장 안내