진행중 이벤트!

1) 강의 기간 : 4월 21일 ~ 6월 30일 (주 1회, 총 10주)
# 단, 5월 5일은 어린이날로 인하여 휴강합니다.

2) 강의 시간 : 매 주 토요일 오후 3시 ~ 6시
3) 강의 장소 : 패스트캠퍼스 강의장 (강남역 4번출구 앞)
4) 문 의 : 강호준 매니저 (tel. 02-517-0697)

딥러닝-음성인식 CAMP는 이런 '고민'에서 시작했습니다.

사실 음성인식 기술이 개발되기 시작한것은 오래된 일이지만, 성능의 한계로 인해 그 적용 범위가 제한적이었습니다. 하지만 Deep Neural Network의 접목으로 놀라운 성능 향상이 가능해져 다양한 분야에서의 활용에 대한 연구가 활발히 이뤄지고 있습니다. 2017년 한 연구 보고에 따르면 음성인식을 통한 받아쓰기 성능은 단어오류율 5%에 근접하여, 사람이 받아쓰는 수준까지 발전했다고 평가됩니다. 하지만, 그 관심을 뒷받침할만한 제대로된 교육 컨텐츠는 찾기 어려웠습니다. 이 분야 입문을 위해 독학을 하기도 쉽지 않습니다. 왜일까요?

딥러닝 이론이나 TensorFlow을 쓸 줄 안다고 해도, 이것을 ‘어떻게’ 활용해 음성인식 문제를 해결할지 막막해요.

한국어의 특성에 맞는 음성인식기를 구현하려면 어떻게 해야할지 모르겠어요.

실제 구현을 위해 필요한 음성 데이터 자체를 모으는 것이 어려워요. 직접 해봐야 제대로 알 수 있을텐데…

이런 고민을 해결하고자,
국내 최고의 음성인식 분야 전문가와 함께 체계적으로 음성인식 이론을 학습하고,
실제 구현까지 해보는 10주 커리큘럼을 준비했습니다.

10주 후, 이런 것들을 얻어 갈 수 있습니다.

목표는 한국어 음성인식 시스템 구현하는 것

음성인식의 핵심이론 뿐 아니라, 실제 서비스 구현과 상용화에 필요한 실무 기술까지 모두 배우세요.

dsr1

음성 인식 시스템 구현에
꼭 필요한 핵심이론 학습

DNN과 HMM을 중심으로 3회차에 걸쳐 음성인식 시스템의 핵심 원리와 2가지 음향모델에 대해서 학습합니다. 이후, 실제 사람들의 언어를 인식하기 위한 확률언어모델(statistical language model)에 대해 다룹니다.

dsr2-1

한국어 특성 이해 및
그에 맞는 언어 모델과 발음사전 구축

영어와 달리 ‘단어’ 아닌 ‘형태소’ 단위로 사전을 구축해야하는 한국어의 특성을 이해하고, 실제로 Morfessor을 이용해 형태소를 분석해봅니다. 이를 기반으로 한국어 음성 인식을 위한 언어모델과 사전 구축법을 배웁니다.

dsr3-1

KALDI를 활용한
한국어 
음성 인식 시스템 구축 실습

speech recognition 분야에서 통용되는 c++기반의 Kaldi를 활용해 직접 음성 인식 시스템을 구현하는 실습을 진행합니다. 실습을 위해 필요한 음성 데이터와 소스코드는 한국어 음성인식 오픈소스 프로젝트인 Zeroth 프로젝트를 통해 제공됩니다.

실습 자료 예시

데이터 수집부터 어려운 음성인식 시스템 구축
본 캠프에서는 실습에 필요한 음성데이터를 Zeroth Project를 통해 모두 제공합니다.

Zeroth Project는 무엇인가?

Zeroth 프로젝트는 Kaldi open source tool-kit 을 사용해서  한국어 음성인식기를 구현하는 프로젝트 입니다. 이 프로젝트는 기업이 AI를 고객 서비스에 추가하는 데 도움이되는 (주)아틀라스가이드의 AI 플랫폼 개발의 일부로서 개발되었습니다. Kaldi official recipe 에 한국어 버전을 소개하는 것을 시작으로, 많은 사람들의 참여를 통해 누구나 사용할 수 있는 음성인식기를 만들어 나갈 수 있도록 하는 것을 목표로하는 프로젝트입니다.

Zeroth Project는 무엇을 제공하는가?

현재 Zeroth 프로젝트에는 아래와 같은 것들이 포함되어 있습니다.

– 51.6 시간 한국어 학습데이터 (22,263 발화, 105명, 3000 문장)
– 한국어 언어모델 구축을 위한 스크립트 (LM tool-kit)
– Kaldi training 스크립트 (training script)
– 공개 음성 DB 구축에 참여할 수 있는 음성 녹음 앱

이런 분들에게 추천합니다.

음성데이터를 활용하여 음성인식 시스템을 개발하고 싶은 개발자/연구원

딥러닝을 활용한 음성데이터 처리에 대하여 알고 싶으신 분

수강 신청 전, 꼭 확인해주세요!

본 강의는 대학원 수준의 난이도가 있는 과정으로서, 하기의 배경지식이 없다면 수강이 불가능합니다.

사전지식 : 지도학습, 비지도학습 알고리즘에 대한 이해

프로그래밍 경험 : C/C++, Linux shell script, awk, perl, regex, python

프로그래밍 경험 : 리눅스 환경에 대한 이해가 있어야 원활한 수업진행 가능

비정형 음성 데이터, 더이상 막막해 하지마세요.
10주간의 실습형 커리큘럼을 통해
음성 인식의 핵심기술을 당신의 것으로 만드세요.

10주간 함께할 강사님을 소개합니다.

jty

조태영 강사님

현재 (주) 아틀라스 가이드에서 한국어와 싱글리쉬(싱가폴 영어) 음성인식기 개발을 맡고 있습니다. 음성인식기 개발에 필요한 기본적인 구성요소들을 하나하나 구축하는 방법부터 최신 DNN 구조를 적용한 음향모델 구축 및 학습 그리고 실시간 음성인식을 위한 서버구축까지 강의를 통해 공유할 예정입니다.

약력

– 現 (주) 아틀라스 가이드 음성인식팀 팀장
– RADSONE 책임 연구원 – High-end DAC/Headphone 앰프 개발
– PULSUS 선임 연구원 – Class-D 앰프 구동을 위한 디지털 PWM Modulator 개발
– 서울대학교 전기공학부 학부 및 석사 졸업(음성신호처리 전공)

한 줄 수강후기

– 알찬 음성인식 강의 입니다. 최신 트렌드가 반영이 잘 되어 있습니다. 수강생 K님

– 잘 준비된 강의자료, 커리큘럼이나 강의 진행 페이스도 적절했다. 수강생 L님

– Best of the best! 무엇보다 여러 관련 논문을 잘 설명해주셔서 좋았습니다. 수강생 Y님

커리큘럼

PART 1. 음성인식의 이해와 음향모델
1-3 Introduction to Speech Recognition
- 오디오 신호 및 음성 신호의 특징
- 음성 신호 분석
- 음성인식 문제 정의 및 최근 기술 동향
- Zeroth 프로젝트 소개
HMM (Hidden Markov Model)
- 한국어 음성인식기 구축을 위한 오디오 녹음
- Introduction to HMM(Hidden Markov Model)
- GMM (Gaussian Mixture Model)
- HMM: Likelihood & Decoding
- HMM: Training
- HMM: Context-dependent Phone Models
Acoustic Model
- Introduction to Feedforward Neural Network
- from HMM/GMM to HMM/DNN in speech recognition
- Toward End-to-End ASR
- RNN-CTC: Toward HMM-free End-to-End ASR
- TDNN-chain: Kaldi ASR Approach
- Appendix: Sequence Discriminative Training
Part 2. 언어모델의 이해와 한국어 언어모델의 특징
4-5 Language Model
- What is LM?
- N-gram Statistic Language Model
- How to Deal with unseen N-grams
- Distributed Language Model: LSTM-LM
- Exercise: SRILM tool and perplexity
Korean Language Model
- Pre-processing on Corpus
* Normalization
* Extract Unique Word
* Finding Korean-morphemes by Morfessor Training
* Extract Unique Morphemes
- Building Lexicon
- Building N-gram LM
- Decoding with wFST
Part 3. Kaldi를 활용한 음성인식시스템 구축 및 실시간 서비스를 위한 서버 구축
6-10 Kaldi Training Phase 1
- Initial setup

- Data preparation
- LM and Lexicon Setup
Kaldi Training Phase 2
- GMM-HMM training and alignment
Kaldi Training Phase 3
- Data augmentation
- speed perturbation
- RIR simulation
Kaldi Training Phase 4
- DNN NNET3 training and WER Performance Check
Real-time Online ASR system
- Using trained model on Kaldi Gstreamer server

강의 정보 및 수강료 안내

딥러닝-음성인식 CAMP
기     간 2018년 4월 21일 – 6월 30일 (총 10주)
(5월 5일은 어린이날로 휴강합니다.)
일     정 매주 토요일 (주 1회)
오후 3시 – 6시
준 비 물 개인 노트북 권장
(RAM 4GB 이상, 8GB 이상 권장)
장     소 패스트캠퍼스 내 강의장
문     의 강호준 매니저 tel. 02-517-0697
help-ds@fastcampus.co.kr

(메일로 문의 주실 경우 자세한 상담을 원하신다면 휴대폰 번호, 상담가능 시간을 남겨주세요!)

등록가

170만 원

1) 본 수강료는 Part. 3 실습에 필요한 AWS 사용 비용이 포함되어 있습니다.
2) 할인 적용 및 수강 확정은 결제일을 기준으로 합니다.
3) 본 강의는 매 기수 조기마감되는 강의이오니, 수강신청 시 참고부탁드립니다.