실무 장애 대응 프로세스로 끝내는 장애율 0% 서비스 운영의 모든 것

Online

실무 장애 대응 프로세스로 끝내는
장애율 0% 서비스 운영의 모든 것

기본 정보

[강의 설명]
- 장애율 0% 서비스 운영을 위한 실제 상황 재현부터 복구까지, 장애 대응 프로세스 전반을 실습 기반으로 학습

[수강 난이도]
입문 - 심화
선수지식: Docker, K8S, AWS등 운영 관련 지식을 가지고 있는 개발자

[수강 대상]
1) 데브옵스, SRE업무에 막 투입되어 실무의 장애 대응 프로세스를 알고 싶은 개발자 & 엔지니어
2)대용량 트래픽 대응, 쿠버네티스 클러스터 환경에서 업무를 진행하는 개발자 & 엔지니어
3)모니터링 시스템 구축을 통한 시스템 장애 대응 플랜 설계를 고민중인 개발자 & 엔지니어

강의 특징

∙ 수강료 1회 결제로 평생 소장
∙ 실습에 필요한 데이터와 소스코드 제공
∙ 실무형 실습 기반으로 구성된 프로젝트 형 강의
∙ 질의 응답 게시판 운영 (2024. 05. 20 ~ 2027. 5. 20 )

01
실습으로 배우는
장애 대응 프로세스의 모든 것

직접 경험하지 않고서는 알 수 없는 장애 대응 프로세스의 전반을 100% 실습을 통해서 학습합니다.
02
장애 상황 복구부터 회고까지 경험하는
유일무이한 강의

장애 상황을 눈으로 파악하고 복구 후 재발 방지를 위한 회고까지 한번에 하며 진짜 장애 대응 역량을 키워요.
03
국내 외 다양한 규모의 기업에서
장애 상황을 경험한 초특급 강사진

글로벌 기업부터 스타트업 규모까지, 다양한 규모와 유형의 장애를 대응한 강사진의 노하우를 얻어가세요.

코스 프로모션 배너 전용입니다.

0일 0시간 0분 0초 코스 프로모션 배너 전용입니다.

(자동)

정가 ~~(자동)~~

할인 금액 (자동)

현재 판매가 (자동)

(자동)

* 12개월 무이자 할부 시

바로 구매하기

오직 패스트캠퍼스에서만 만날 수 있는
고성능, 고가용성 서비스 운영을 위한 장애 대응의 모든 것!
그 6가지 포인트를 소개합니다.

단 한 번이라도 이러한 고민을 해봤다면
당신에게 이 강의가 더욱 필요합니다.

데브옵스엔지니어, SRE엔지니어, 데브옵스, SRE, 장애상황분석, 장애분석

기술 스택에 대한 이해를 기반으로 실전 장애 상황을 겪어보고 복구하는 모든 프로세스를 담은 단 하나의 강의!
당신에게 실전 장애 대응 역량을 길러줄 수 있는 강의는 오직 패스트캠퍼스에서만 만나볼 수 있습니다.

POINT 1

DevOps, SRE 엔지니어의 필수 역량인
장애 대응 프로세스를 실무 그대로 모두 담았습니다.

더 이상 장애 발생 상황에서 두 손 놓고 죄책감 가지지 않도록 할,
실전 장애 대응 프로세스를 모두 다룬 강의는 패스트캠퍼스가 유일합니다.

POINT 2

100% 실습으로 진행하는 실제 서비스에서 겪는
장애 상황 복구와 회고를 8개의 프로젝트로!

강사님의 스타트업부터 대기업까지 커리어에서 가장 빈번하게 일어났던 장애 케이스만 모았습니다.
실제 서비스에서 발생하는 장애를 눈으로 보고 복구하고 재발 방지를 위해 회고까지 작성하는 방법을 실습해보세요.

이 강의로 실무에서 가장 많이 일어나는 장애 유형 4가지를
8개 케이스로 풀어가며 실전 장애 대응 복구를 완벽하게 정복하세요!

개발서버에서는 단순한 오타부터 서비스 구조의 문제까지, 미처 드러나지 않은 다양한 원인으로 장애가 발생할 수 있습니다.

대규모 트래픽이 발생되면 감지되지 않았던 취약점이 드러나 장애가 발생할 수 있습니다.

스타트업부터 대기업까지! 회사 규모에 관계없이 벌어질 수 있는 데이터베이스 오염은 잘못된 DB조작으로 인하여 장애를 일으킬 수 있습니다.

일정 규모 이상의 시스템은 컴포넌트 간 의존 관계가 점점 복잡해지는데, 이 과정에서 한 컴포넌트에 장애가 발생하면 다른 컴포넌트까지 연쇄작용이 일어나면서, 전면 장애로 번질 수 있습니다.

트래픽과부화, 장애케이스, 트래픽장애, 서버다운, 데이터베이스장애, 애플리케이션장애, 네트워크장애

Q: 이렇게 많은 장애 케이스를 다뤄보는 것이 실제 업무 환경에 어떤 도움을 줄 수 있을까요?

저의 경험상, 회사 규모와 상관 없이 장애는 잊을 만하면 발생했습니다. 잦으면 1주에 1번꼴로 발생하는 것이 장애이기 때문에 회사나 서비스의 규모에 관계 없이 이제는 반드시 갖추어야 하는 역량입니다. 영원히 소규모 서비스만 운영하시고자 한다면 이 강의는 필요하지 않을 수 있습니다. 하지만 더 큰 기업으로 이직하시고자 하는 분들께는 실무 역량 뿐 아니라 이직으로의 발판까지 될 수 있다고 생각합니다.

(전) AWS, (현) 스타트업 Tech Lead | 정윤의 강사님

서비스마다 장애가 다르니깐, 진짜 내가 필요한 장애 케이스만 뽑은
설문조사 기반 추가 프로젝트 [ 2개 혜택 ]을 드립니다!
AWS, 오늘의집, 스타트업 테크리드까지! 국내외 다양한 규모의 기업에서 경험을 쌓은 강사님께 원하는 프로젝트를 배우세요.

* 설문조사는 2024년 7월 15일에 실시합니다.
* 설문조사 결과가 반영된 New 프로젝트는 2024년 8월 중 확정 및 안내됩니다.
* 설문조사는 2024년 4월 15일부터 5월 15일까지 구매하신 수강생분들을 대상으로, 강의 내 질의응답 게시판에서 진행됩니다.

POINT 3

서비스 다운률 0.00009%로 만들어 줄
실전 모니터링 시스템 구축 프로세스

단순한 기술 스택 기반 모니터링 시스템 구축 강의가 아닙니다!
빠른 장애 상황 탐지를 위한 알림 시스템 구축까지, 실전에 200% 활용 가능한 모니터링 시스템 구축 방법을 배워요!

모니터링 시스템이 왜 중요한가요? 각 환경별로 구축해보아야 하는 이유가 있나요? 다양한 환경과 서비스의 특성에 따라 어떤 메트릭을 모니터링할지에 대한 정의와 운영자에게 어떤 상황에 알림을 보낼지에 대한 구현이 모두 달라지게 됩니다. EC2와 EKS 환경에서 모니터링 시스템을 구축하는 것은 장애 대응 시간을 최소화하고 서비스 운영의 안정성을 극대화하는 데 필수적입니다. 특히 EC2는 AWS 환경에서 가장 기본이 되는 서비스이며, 최근 Cloud native 구성을 활용하기 위해 EKS 기반의 Kubernetes 를 통해 서비스를 많이 구현하고 있으므로, 이를 정확히 이해하고 가시성(observability) 를 확보한다면 비즈니스 연속성을 보장하는 데 매우 중요한 역할을 할 수 있습니다.

Prometeous & Grafana 단순 사용법만으로는 실전 장애 상황에 대응할 수 없습니다.

운영할 서비스 구축부터 시작하여 서비스 별 모니터링 지표를 제대로 시각화하는
진짜 실전에 필요한 모니터링 서비스 구축을 학습합니다!

어플리케이션 서버의 로그, 데이터베이스 쿼리 성능, HTTP 요청 및 응답 상태 코드 등과 같은 어플리케이션 레벨의 지표를 모니터링하여 어플리케이션의 성능을 평가하고 사용자 경험을 개선할 수 있습니다.

EC2 기반의 어플리케이션에서는 EC2 인스턴스들과 네트워크 구성을 관리해야 합니다. 이러한 인프라 관리 측면에서 모니터링은 EC2 인스턴스의 CPU, 메모리 사용량, 네트워크 트래픽 등을 모니터링하여 자원 사용량을 최적화하고 장애를 예방할 수 있습니다.

어플리케이션 서버의 로그, 데이터베이스 쿼리 성능, HTTP 요청 및 응답 상태 코드 등과 같은 어플리케이션 레벨의 지표를 모니터링하여 어플리케이션의 성능을 평가하고 사용자 경험을 개선할 수 있습니다.

k8s,쿠버네티스, 컨테이너, 컨테이너관리, 로드밸런싱,클러스터관리, 클러스터, 서비스디스커버리

EKS에서는 어플리케이션을 컨테이너로 실행하며, 각 컨테이너는 Pod에 배치됩니다. 따라서 모니터링 시스템은 Pod의 상태, 컨테이너 리소스 사용량(CPU, 메모리), 컨테이너 로그 등을 관리하고 모니터링해야 합니다.

EKS 클러스터는 여러 노드로 구성되며, 각 노드는 여러 Pod를 호스트합니다. 모니터링 시스템은 클러스터 노드의 상태, 노드 간 통신 상태, 클러스터의 확장/축소 이벤트 등을 관리하고 모니터링합니다.

EKS에서는 Kubernetes 서비스를 사용하여 서비스 디스커버리와 로드 밸런싱을 수행합니다. 모니터링 시스템은 서비스의 상태와 로드 밸런서의 트래픽 분산 상태를 관리하고 모니터링합니다.

Q: 이번 프로젝트에서 학습할 수 있는 모니터링 서비스 구축에서의 실무 핵심 포인트는 무엇인가요?

저는 다년간의 실무 경력을 통해 장애율을 현저히 줄일 수 있는 모니터링 전략을 개발하고 실제로 적용한 경험을 가지고 있습니다. 이 과정에서 얻은 실질적인 모니터링 서비스 구축 및 운영에 대한 노하우를 공유할 예정인데요. 이번 강의를 통해 IT 인프라 및 서비스 운영의 안정성 극대화 전략을 학습하실 수 있으며, 이는 IT 대기업 또는 빠른 고객 피드백과 서비스 개발을 요구하는 스타트업에서도 매우 중요한 역량입니다.

(전) 메가존클라우드 (현) 스타트업 개발총괄 | 송지형 강사님

POINT 4

장애가 가장 많이 발생하는 서비스 론칭단을 100% 커버!
Canary 배포 방식으로 알아보는 무중단 배포와 롤백 프로젝트

아무리 개발서버와 실서버의 싱크를 잘 맞추어도 항상 배포에서는 에러가 나기 마련!
장애 예방과 빠른 대응에 최적화된 Canary 배포 방식을 도입부터 제대로 학습하세요!

무중단 배포 방식 별 비교 한 눈에 알아보기

실무에 한걸음 더 다가서는 Special Point 3가지!

실무 개발자에게는 항상 어려운 오토스케일링!
대규모 트래픽 특화 프로젝트로 장애도 예방하고 적절한 인프라 오토스케일링 방법까지 한 번에 학습하세요!

Q. 대규모 트래픽 장애 예방에 부하테스트가 필요한 이유가 무엇인가요? 다양한 환경과 서비스의 특성에 따라 어떤 메트릭을 모니터링할지에 대한 정의와 운영자에게 어떤 상황에 알림을 보낼지에 대한 구현이 모두 달라지게 됩니다. EC2와 EKS 환경에서 모니터링 시스템을 구축하는 것은 장애 대응 시간을 최소화하고 서비스 운영의 안정성을 극대화하는 데 필수적입니다. 특히 EC2는 AWS 환경에서 가장 기본이 되는 서비스이며, 최근 Cloud native 구성을 활용하기 위해 EKS 기반의 Kubernetes 를 통해 서비스를 많이 구현하고 있으므로, 이를 정확히 이해하고 가시성(observability) 를 확보한다면 비즈니스 연속성을 보장하는 데 매우 중요한 역할을 할 수 있습니다.

부하테스트, 트래픽과부화, 쿠버네티스, 오토스케일링, 인프라증설, 사전증설, 대규모트래픽

• 부하테스트 도구 K6 사용 방법
• 부하 테스트 시나리오 설계
• 모니터링 대시보드 구축
• 부하테스트 종류 학습

• 스펙 산정을 위한 부하테스트 실습
• 임계치를 넘어서 발생 하는 장애
• 네트워크 초과
• 커넥션 제한

• keda, 카펜터를 활용한 증설 실습
• 스파이크 트래픽에 대비해 사전 증설 실습
• keda cron 증설 및 스파이크 트래픽 대응 효율성 체크

POINT 6

장애만 해결했다고 끝이 아닙니다. 똑같은 장애가 재발하지 않도록 하는 장애 후속 보고서 작성

10년차 이상의 CTO급 개발자에게 듣는
장애 보고서 작성을 위한 개론과 TIP까지

Q: 장애 후속 보고서 작성이 중요한 이유는 무엇인가요? 평소 대규모 트래픽을 경험해볼 수 있는 상황을 자주 겪는다고 해도, 대규모 트래픽이 가해지는 유형과 시나리오에 따라 발생할 수 있는 장애가 각각 다르다는 것을 아시나요? 만약 데이터베이스의 단순 용량이 문제라면 리소스를 늘리면 되지만 쿠버네티스 환경처럼 복잡한 구조를 가진 서비스에서는 정확하게 얼마나 증설이 필요한지 파악하기 어려울 수 있기 때문에, 미리 부하 테스트를 통해 예상되는 시나리오별로 트래픽을 주입 후 확인해보며 예상되는 장애를 사전에 차단할 수 있도록 준비가 필요합니다.

장애대응보고서, 장애대응회고, 장애보고서, 장애회고, 장애리뷰, 장애원인분석, 장애후속조치

학습내용

• 장애 심각도
• 장애 발생 시각, 인지 시각, 대응 이력, 해소 시각
• 장애 원인 분석
• 재발 방지 및 장애 후속 조치 방안

학습내용

• 리뷰와 회고의 차이
• 분석 결과 리뷰와 장애 회고 방법

학습내용

• 다양한 장애 지표 소개
- MTBF, MTTD, MTTR, MTTA 및 MTTF
• 실전 장애 관리 및 개선
- 장애 관리 시스템 도입과 활용
- 팀 내 커뮤니케이션과 조율
- 사례 연구 및 시나리오 기반 학습

POINT 7

평균 연차 10년차 이상! 장애를 핸들링 하는 데 이만큼 경험을 가진 강사님은 없습니다.
AWS, KT 등 빅테크 기업 엔지니어들의 진.짜. 실무 꿀팁 대방출

송지형 강사님

• (현) 파트리지시스템즈 개발총괄
• (전) 메가존클라우드 R&D센터 플랫폼개발팀장
• (전) 엔씨소프트 플랫폼 개발 리드
• (전) SK Planet 클라우드엔지니어링
• (전) KT 클라우드엔지니어링

수강생에게 전하는 한마디

본 강의에 등록해 주신 여러분을 진심으로 환영합니다. 여러분은 이미 서비스 운영의 안정성과 장애 대응 능력을 갖추는 데 있어 중요한 첫걸음을 내딛었습니다. 이 강의를 통해 여러분이 실무에서 직면할 수 있는 다양한 도전을 극복하고, 서비스 안정성을 올리는데 큰 도움이 되었으면 합니다. 이 강의를 통해 장애 발생 시 신속하고 효과적으로 대응할 수 있는 능력을 개발할 수 있고, 모니터링 시스템 구축과 운영을 통해 서비스의 안정성을 극대화하는 방법을 배움으로써, 장애율을 현저히 줄이고 IT 서비스 운영에 있어 핵심 인재로 성장할 수 있도록 도와드리겠습니다. 이 강의가 커리어 발전에 있어 중요한 이정표가 되었으면 합니다.

조이정 강사님

• (현) 카카오계열사 SRE
• (전) 클라우드 공급업체 Solutions Architect
• (전) LG 계열사 Cloud Architect

수강생에게 전하는 한마디

안녕하세요, 새로운 패스트캠퍼스 강의에 강사로 참여하게 되어 영광입니다. 주니어 시절 On-premise 시대의 끝자락에서 Cloud 트랜드를 관찰하고 거스를 수 없는 거대한 흐름을 느끼고 쭉 클라우드에 관심을 가지고 커리어를 쌓아왔습니다. 제가 처음 devops를 시작할때 느꼈던 막연한 부담감을 기억합니다. 이제는 '핫'한 기술에서 베이직이 되어가고 있는 kubernetes 기술과, 이를 둘러싼 Microservice / Cloud환경에서 어떻게 장애를 두려워하지 않는 운영자가 될수 있을지에 대한 힌트를 얻게 되시길 기대합니다. 이 강의를 듣는 모든 분들이 실제 현업의 슈퍼맨이 되시길 응원합니다.

정윤의 강사님

• (현) 디비디랩 Tech Lead
• (전) 오늘의집 DevOps Engineer
• (전) AWS Cloud Engineer

수강생에게 전하는 한마디

수 년간 다양한 규모의 회사에서 클라우드 기반의 개발과 시스템 설계를 수행해 온 정윤의라고 합니다. 지금까지 저 역시 정말 많은 장애 상황을 겪어 왔는데, 장애 상황의 그 긴장감과 압박감은 저도 아직 극복이 되지 않습니다. 다만 평소 시스템에 대한 이해와 장애 대응에 대한 준비를 통해 그런 급박한 상황에서도 점점 정확한 판단과 행동을 할 수 있게 되는 것 같습니다. 이번 강의를 수강하시며 다양한 장애 상황의 사례를 검토하여 장애 대응과 시스템에 대한 이해 수준을 높일 수 있다면 좋겠습니다. 여러분도 혹시나 닥칠 수 있는 실제 상황에서 정확한 판단으로 문제를 해결하고, 마음을 진정하고, 제 시간에 퇴근할 수 있기를 바랍니다.

윤진석 강사님

• (현) 위대한상상 Tech Director
• (전) 카카오페이지 Tech Director
• (전) 스푼라디오 Head of R&D
• (전) 여기어때 CTO

수강생에게 전하는 한마디

안녕하세요! 인터넷 서비스 회사에서 무정지 무장애 서비스와 대용량 트래픽 처리를 위한 미들웨어를 개발하는 경험과 오픈소스 커뮤니티에서 데이터베이스와 빅 데이터 플랫폼을 다룬 경험을 가지고 있어요. 시니어로서 프로젝트와 팀을 관리하며 O2O, IoT, 스트리밍 등 다양한 비즈니스 도메인에서 문제 해결과 운영 경험을 쌓았습니다. 이런 경험을 살려 만든 본 강의는 실무에서 필요로 하는 문제 해결 절차와 역량을 향상시켜주며, 서비스 엔지니어링에 대한 자신감을 높일 수 있는 기회입니다. 함께 공부하며 두려움을 이겨내고 자신의 잠재력을 발휘해보세요. 여러분의 성장과 도전을 응원합니다! 🚀✨

POINT 8

수강 중 막히는 부분이 생긴다면?
강사님들이 바로 답변해주시는 질의응답 게시판까지!

✓ A실습 중 에러가 나면? 질의응답 채널을 통해 빠른 해결 ! 
✓ 강의를 듣는 중 이해가 안가는 부분이 생기면 바로 질문하세요 !

* 본 채널은 2024. 05. 20 ~ 2027. 5. 20 동안 운영 됩니다.
* 강사님이 현업 중 답변하시기에 답변까지 영업일 기준 7일 내외 시간이 소요될 수 있습니다.

POINT 7

타사 어디에서도 찾을 수 없는
압도적인 구성을 가성비 있게

단순 기술 스택 사용 방법을 알려주는 강의가 아닙니다.
진짜 장애 상황을 마주칠 수 있는 국내 유일의 강의를 가성비있게 소장하세요!

강의 수강 후 당신의 서비스에 일어날 변화

현업에서 실제로 사용하는 모니터링 서비스 구축 방법을 이해하고 사용할 수 있습니다.

대규모 트래픽 대응을 위한 알맞은 스펙을 산정하여 안정적인 서비스 운영을 할 수 있습니다.

쿠버네티스 환경을 이해하고 안정적인 서비스 배포를 진행할 수 있습니다.

서비스 배포, 네트워크 문제, 애플리케이션 단의 장애를 빠르게 인지하고 조치할 수 있습니다.

장애 재발 방지를 위한 장애 대응 보고서 작성 방법을 이해하고 사내 문화로 적용할 수 있습니다.

추천 대상

SRE, 데브옵스, 엔지니어, SRE엔지니어, 데브옵스엔지니어, 인프라사전증설, 모니터링서비스, 장애상황대응, 장애대응

상세 커리큘럼.

아래의 모든 강의를 해당 강의 하나로 모두 들을 수 있습니다.
지금 한 번만 결제하고 모든 강의를 평생 소장하세요!

Part 1. 실전에서의 장애 대응과 문제 해결

01 장애 후속 조치를 위한 개괄적 프로세스 및 장애 보고서 작성 요령 (Write incident report)

∙ HTML 둘러보기 (웹의 기둥)
∙ 장애 상황에 대한 요약
∙ 장애 심각도
∙ 장애 발생 시각, 인지 시각, 대응 이력, 해소 시각
∙ 장애 원인 분석
∙ 재발 방지 및 장애 후속 조치 방안

(1-1) 장애 심각도 (incident severity levels)
∙ 심각도에 대한 이해, 우선순위와 심각도의 차이
∙ 심각도 수준을 정의하는 방법

(1-2) 장애 원인 분석 (incident cause analysis)
건강한 코드 리뷰와 온콜 문화 만들기
∙ 배포 프로세스의 고도화
∙ 모니터링 지표 추가

(1-3) 재발 방지 대책 수립 (incident prevention)(incident review and retrospective)
∙ 건강한 코드 리뷰와 온콜 문화 만들기
∙ 배포 프로세스의 고도화
∙ 모니터링 지표 추가

02 장애 리뷰와 회고 (incident review and retrospective)

∙ 리뷰와 회고의 차이
∙ 분석 결과 리뷰와 장애 회고 방법

03 장애 지표 관리 요령 (incident metrics)

MTBF, MTTD, MTTR, MTTA 및 MTTF

04 실전 장애 관리 및 개선 (Incident in Action)

∙ 장애 관리 시스템 도입과 활용br> ∙ 팀 내 커뮤니케이션과 조율
∙ 사례 연구 및 시나리오 기반 학습

Part 2. AWS를 활용한 모니터링 시스템 구축 및 모의 장애 훈련

01 모니터링 시스템 구축을 위한 기본 개념 이해하기

∙ 전체 커리큘럼과 강의 방식에 대한 소개
∙ 아키텍처 소개: Three Tier Architecture with EC2, EKS
∙ Observability: 모니터링 시스템과 알람
∙ 주요 모니터링 지표: business metric, healthy host, response time, response code, connections, cpu/mem
∙ 장애에 대한 정의
∙ 장애관련 용어: SLA, SLO, RPO, RTO, MTTD, MTTR 등
∙ 장애 발생시 역할과 및 대응절차

02 EC2를 활용한 3계층 어플리케이션 및 모니터링 시스템 구성하기

∙ 아키텍처 소개
∙ [실습] Setup
∙ [실습] 네트워크 및 보안설정
∙ [실습] 데이터베이스 생성
∙ [실습] 앱 계층 생성
∙ [실습] 웹 계층 생성
∙ [실습] 로드밸런서와 오토스케일링 생성
∙ [실습] Telegraf, InfluxDB, Grafana 설치
∙ [실습] Grafana 기본 대시보드 구성
∙ [실습] CloudWatch 메트릭 설정
∙ [실습] Cleaup

03 EKS를 활용한 3계층 어플리케이션 및 모니터링 시스템 구성하기

∙ 아키텍처 소개
∙ [실습] Setup
∙ [실습] 컨테이너 이미지 생성
∙ [실습] EKS 클러스터 생성
∙ [실습] Ingress Controller 생성
∙ [실습] 마이크로서비스 배포
∙ [실습] 컨테이너 인사이트 사용하기
∙ [실습] 오토스케일러 적용하기: HPA, Cluster Autoscaler
∙ [실습] Prometheus, Grafana 설치
∙ [실습] Grafana 기본 대시보드 구성
∙ [실습] CloudWatch 메트릭 설정
∙ [실습] Cleaup

04 카오스엔지니어링과 FIS

∙ 카오스 엔지니어링이란?
∙ AWS FIS 소개 및 실습 방법
∙ [실습] Setup
∙ [실습] EC2 장애: CPU Stress
∙ [실습] RDS 장애: Instance Reboot, Cluster Failover
∙ [실습] EKS 장애: Node Termination, Pod Delete
∙ [실습] Cleaup

05 카오스엔지니어링과 Chaos Toolkit

∙ Chaos Toolkit 소개 및 실습 방법
∙ [실습] Setup
∙ [실습] EC2 장애: stop, restart, terminate
∙ [실습] RDS 장애: failover, reboot, stop
∙ [실습] EKS 장애: terminate pod, drain/delete node
∙ [실습] Cleaup

06 장애대응도구 Slack

∙ 장애대응 프로세스
∙ 장애대응 도구 소개: Slack
∙ [실습] Setup
∙ [실습] AWS Chatbot을 이용한 Slack alert
∙ [실습] Cleaup

(부록) 장애대응도구 PagerDuty

∙ 장애대응 도구 소개: PagerDuty
∙ [실습] Setup
∙ [실습] CloudWatch 연동하기
∙ [실습] EventBridge 연동하기
∙ [실습] Cleaup

Part 3. 대규모 트래픽 대응을 위한 사전 증설로 장애 예방하기

01 모니터링 시스템 구축을 위한 기본 개념 이해하기

∙ 전체 커리큘럼과 강의 방식에 대한 소개
∙ 아키텍처 소개: Three Tier Architecture with EC2, EKS
∙ Observability: 모니터링 시스템과 알람
∙ 주요 모니터링 지표: business metric, healthy host, response time, response code, connections, cpu/mem
∙ 장애에 대한 정의
∙ 장애관련 용어: SLA, SLO, RPO, RTO, MTTD, MTTR 등
∙ 장애 발생시 역할과 및 대응절차

02 적절한 서버 스펙 산정으로 장애 예방하기

∙ 스펙 산정을 위한 부하테스트 실습
∙ 심화 학습: 어플리케이션 서버 이외의 인프라 장애
∙ 인프라 장애에는 어떤 것들이 있는지 설명
∙ 임계치를 넘어서 발생 하는 장애
∙ 네트워크 초과
∙ 커넥션 제한
∙ 심화 : 어플리케이션 서버 이외의 인프라 장애 설명
∙ 임계치를 넘어서 발생하는 장애들

03 대규모 트래픽 유입시 발생 하는 장애를 예방하기

∙ 대규모 트래픽 발생시 인프라 적으로 어떤 준비를 해야 하는지?
∙ AWS에 사전 증설 요청
∙ AWS 할당량 알림 받기
∙ 서비스 카탈로그 구축
∙ 서비스별 담당자 및 연락처 구축하기
∙ keda, 카펜터를 활용한 증설 실습
∙ 증설이 중요한 이유 및 솔루션 설명
∙ 노드 레벨 증설 도구 -> 카펜터
∙ pod 레벨 증설 도구 -> KEDA
∙ KEDA 실습
∙ k6로 부하를 줬을때 부하가 잘 발생 하는지 테스트
∙ 스파이크 트래픽에 대비해 사전 증설 실습
∙ k6로 스파이크 트래픽을 유발 해보고 분석 하기
∙ keda cron 증설시 스파이크 트래픽을 얼마나 효과적으로 예방 할수 있는지 실습
∙ 사전 증설 대수를 늘렸을때 결과가 어떤지 여러 실험을 해보고 분석 하는 방식으로 구성
∙ 카펜터 실습
트래픽 증가로 pod이 증설되는 시나리오에서 노드가 제대로 증설 되는지?

Part 4. Canary 적용을 통한 Kubernetes(EKS) 워크로드의 안정적 배포

01 Canary 적용을 통한 Kubernetes(EKS) 워크로드의 안정적 배포

∙ devops / kubernetes / cicd 에 대한 개요
∙ 배포 환경에서의 장애 대응 가능성 이해
∙ 안정적인 배포를 위한 canary 구성 실습
∙ 자동화된 canary 버전 분석을 위한 prometheus 와 argo rollout analysis
∙ (번외) istio 에서의 장애 대응 기능들

Part 5. 실전 장애 케이스 8가지 실습과 보고서 작성

01 실전 장애 케이스 실습 전 준비

∙커리큘럼 및 강의 방식 소개
∙장애에 대처하기 전: 어떤 장애가 실제로 발생할 수 있는지
∙장애에 맞닥뜨렸을 때: 무엇을 해야 하는지, 무엇을 보아야 하는지, 어떤 마음가짐을 가져야 하는지
∙장애 상황이 끝난 후: 무엇을 돌이켜 봐야 하는지
∙실습에서 가정하는 서비스 구조 설명 및 시스템 설정

02 케이스 1: 배포 후 네트워크 장애 (1)

∙ 네트워크 장애와 연관된 증상 파악하기
∙ 시스템 전체의 네트워크 플로우 이해
∙ DNS와 관련된 트러블슈팅 기법
∙ [실습] 근본 원인 분석 및 장애 보고서 작성
∙ 의미 있는 장애 보고서를 작성하기
∙ 모두에게 도움이 되는 회고

03 케이스 2: 배포 후 네트워크 장애 (2)

∙ 쿠버네티스의 네트워크와 트래픽 라우팅
∙ 쿠버네티스의 패키지 매니저인 헬름(Helm)의 템플리팅 ∙ 쿠버네티스의 리소스에 대한 트러블슈팅 기법
∙ DNS 실패 케이스와 프록시 실패 케이스 사이의 메트릭 비교
∙ [실습] 근본 원인 분석 및 장애 보고서 작성
∙ 중요한 코드 또는 매니페스트를 리팩터링할 때 지켜야 할 것

04 케이스 3: 배포 후 서버 애플리케이션 장애

∙ 문제가 발생한 컴포넌트를 정확하게 포착하기
∙ [실습] 쿠버네티스 기반 서버 애플리케이션의 트러블슈팅 기법
∙ [실습] 근본 원인 분석 및 장애 보고서 작성
∙ 서비스 컴포넌트 마이그레이션의 올바른 방법
∙ 안전한 배포를 위해 검증해야 할 시스템의 범위

05 케이스 4: 트래픽으로 인한 서버 애플리케이션 장애

∙ 쿠버네티스 리소스에 대한 모니터링 기법
∙ 쿠버네티스 워크로드 리소스의 자원 할당
∙ [실습] 트래픽으로 인한 장애에 대한 응급 처치
∙ [실습] 근본 원인 분석 및 장애 보고서 작성
∙ 적절한 워크로드 자원 할당과 스케일링
∙ 시스템 디자인 측면의 문제 해결 방법

06 케이스 5: 트래픽으로 인한 데이터베이스 장애

∙ 데이터베이스 장애와 연관된 증상 파악하기
∙ 데이터베이스 커넥션과 관련된 OS 지식 - thread, process, thrashing, swap, page fault 등
∙ [실습] 근본 원인 분석 및 장애 보고서 작성
∙ 데이터베이스 커넥션 풀 설정의 best practice
∙ 데이터베이스의 고가용성을 확보하는 여러가지 방법

07 케이스 6: 잘못된 조작으로 인한 데이터베이스 장애

∙ [실습] 데이터베이스 오염에 대한 응급 처치
∙ [실습] 근본 원인 분석: 잘못된 조작이 수행된 이유와 조작된 부분을 파악하기 - migration file commit history, query log
∙ [실습] 장애 보고서 작성
∙ 데이터베이스 접근과 조작에 대한 best practice
∙ 코드를 통한 데이터베이스 마이그레이션에서 주의해야 할 점
∙ 데이터베이스의 재해 복구 - backup and restore, pilot light, warm standby, multi-site active

8 케이스 7: SPOF로 인한 장애 (1)

∙ TSingle Point of Failure (SPOF) 개념 이해하기
∙ 장애가 모든 컴포넌트로 확산된 상황에서 정확한 문제의 근원 파악하기
∙ [실습] 캐시 셧다운에 대한 응급 처치
∙ [실습] 근본 원인 분석 및 장애 보고서 작성
∙ NoSQL 데이터베이스의 고가용성 확보
∙ 서킷 브레이커(Circuit breaker)에 대한 이해

09 케이스 8: SPOF로 인한 장애 (2)

∙ Kafka의 동작 원리
∙ AWS EBS와 쿠버네티스 볼륨
∙ [실습] 카프카 볼륨 이슈 응급 처치 - 인위적으로 볼륨 내부 정리 또는 볼륨 용량 증설
∙ [실습] 근본 원인 분석 및 장애 보고서 작성
∙ 무엇을 모니터링해야 할지 이해하기

상세 커리큘럼 보기

해당 강의는 사전 예약 상품입니다.

영상 공개는 다음과 같이 5회에 걸쳐 공개됩니다.
(강의 1회 결제시 모든 영상을 평생 반복 수강 가능합니다.)

-----

1차 공개 24년 05월 20일 (월)
2차 공개 24년 06월 17일 (월)
3차 공개 24년 07월 22일 (월)
4차 공개 24년 08월 19일 (월)
전체 공개 24년 09월 23일 (월)

(자동)

정가 ~~(자동)~~

할인 금액 (자동)

현재 판매가 (자동)

(자동)

* 12개월 무이자 할부 시

바로 구매하기

학습규정 * 본 상품은 동영상 형태의 강의를 수강하는 상품입니다.
* 상황에 따라 사전 공지 없이 할인이 조기 마감되거나 연장될 수 있습니다.
* 해당 강의는 사전 예약 상품으로, 강의 영상이 공개 일정에 따라 순차적으로 제작되어 오픈됩니다.

총 학습기간:
– 정상 수강기간(유료 수강기간) 최초 3개월(60일), 무료 수강 기간은 61일차 이후로 무제한이며, 유료 수강기간과 무료 수강기간 모두 동일하게 시청 가능합니다.
– 본 패키지는 약 40시간 분량으로, 일 1시간 내외의 학습 시간을 통해 정상 수강 기간(=유료 수강 기간) 내에 모두 수강이 가능합니다.
– 수강시작일: 수강 시작일은 결제일로부터 기간이 산정되며, 결제를 완료하시면 마이페이지를 통해 바로 수강이 가능합니다. (사전 예약 강의는 1차 강의 오픈일)
– 패스트캠퍼스의 사정으로 수강시작이 늦어진 경우에는 해당 일정 만큼 수강 시작일이 연기됩니다.
– 일부 강의는 아직 모든 영상이 공개되지 않았습니다. 각 상세페이지 하단에 공개 일정이 안내되어 있습니다.

주의사항 – 상황에 따라 사전 공지 없이 할인이 조기 마감되거나 연장될 수 있습니다.
– 천재지변, 폐업 등 서비스 중단이 불가피한 상황에는 서비스가 종료될 수 있습니다.
– 본 상품은 기수강생 할인, VIP CLUB 제도 (구 프리미엄 멤버십), 기타 할인 이벤트 적용이 불가할 수 있습니다.
– 커리큘럼은 제작 과정에서 일부 추가, 삭제 및 변경될 수 있습니다.
– 쿠폰 적용이나 프로모션 등으로 인해 5만원 이하의 금액으로 강의를 결제할 경우, 할부가 적용되지 않습니다.

환불규정 – 환불금액은 정가가 아닌 실제 결제금액을 기준으로 계산됩니다.
– 쿠폰을 사용하여 강의를 결제하신 후 취소/환불 시 쿠폰은 복구되지 않습니다.

– 수강시작 후 7일 이내, 5강 미만 수강 시에는 100% 환불 가능합니다.
– 수강시작 후 7일 초과, 5강 이상 수강 시 정상 수강기간(유료 수강기간) 대비 잔여일에 대해 다음과 같이 환불 가능합니다.
환불요청일 시 기준
: 수강시작 후 1/3 경과 전, 실 결제금액의 2/3에 해당하는 금액 환불
: 수강시작 후 1/2 경과 전, 실 결제금액의 1/2에 해당하는 금액 환불
: 수강시작 후 1/2 경과 후, 환불 금액 없음

* 보다 자세한 환불 규정은 홈페이지 취소/환불 정책에서 확인 가능합니다.

패스트캠퍼스 정책 안내 [패스트캠퍼스 아이디 공유 금지 정책]
패스트캠퍼스의 모든 온라인 강의에서는 1개의 아이디로 여러명이 공유하는 형태를 금지하고 있습니다.
동시접속에 대한 기록은 내부 시스템을 통해 자동으로 누적되며, 이후 서비스 이용이 제한될 수 있습니다.

[기기제한 정책]
패스트캠퍼스 온라인 강의 시청을 위해서는 ID별 최대 3개의 기기를 등록할 수 있으며, 기기 등록은 온라인 강의장 접속 시 자동 등록됩니다.
최대 갯수를 초과하였을 경우 등록된 기기 해제가 필요합니다.

[저작권 정책]
패스트캠퍼스의 모든 강의는 무단 배포 및 가공하는 행위, 캡쳐 및 녹화하여 공유하는 행위, 무단으로 판매하는 행위 등 일체의 저작권 침해 행위를 금지합니다.
부정 사용이 적발될 경우 저작권법 위반에 의한 법적인 제재를 받으실 수 있습니다.

root layout

초격차 : 실무 장애 대응 프로세스로 끝내는 장애율 0% 서비스 운영의 모든 것

기본 정보

강의 특징

학습내용

학습내용

학습내용

송지형 강사님

수강생에게 전하는 한마디

조이정 강사님

수강생에게 전하는 한마디

정윤의 강사님

수강생에게 전하는 한마디

윤진석 강사님

수강생에게 전하는 한마디

01 장애 후속 조치를 위한 개괄적 프로세스 및 장애 보고서 작성 요령 (Write incident report)

02 장애 리뷰와 회고 (incident review and retrospective)

03 장애 지표 관리 요령 (incident metrics)

04 실전 장애 관리 및 개선 (Incident in Action)

01 모니터링 시스템 구축을 위한 기본 개념 이해하기

02 EC2를 활용한 3계층 어플리케이션 및 모니터링 시스템 구성하기

03 EKS를 활용한 3계층 어플리케이션 및 모니터링 시스템 구성하기

04 카오스엔지니어링과 FIS

05 카오스엔지니어링과 Chaos Toolkit

06 장애대응도구 Slack

(부록) 장애대응도구 PagerDuty

01 모니터링 시스템 구축을 위한 기본 개념 이해하기

02 적절한 서버 스펙 산정으로 장애 예방하기

03 대규모 트래픽 유입시 발생 하는 장애를 예방하기

01 Canary 적용을 통한 Kubernetes(EKS) 워크로드의 안정적 배포

01 실전 장애 케이스 실습 전 준비

02 케이스 1: 배포 후 네트워크 장애 (1)

03 케이스 2: 배포 후 네트워크 장애 (2)

04 케이스 3: 배포 후 서버 애플리케이션 장애

05 케이스 4: 트래픽으로 인한 서버 애플리케이션 장애

06 케이스 5: 트래픽으로 인한 데이터베이스 장애

07 케이스 6: 잘못된 조작으로 인한 데이터베이스 장애

8 케이스 7: SPOF로 인한 장애 (1)

09 케이스 8: SPOF로 인한 장애 (2)

해당 강의는 사전 예약 상품입니다.