제대로 된 음성인식 시스템 교육과정을 찾고 계셨나요?
전통적인 음성인식 기술과 최근 동향, Kaldi를 사용한 한국어 음성인식기 구현까지 모두 담았습니다.

data_camp_dsr
딥러닝-음성인식 CAMP
기 간 2018. 1. 20 ~ 2018. 03. 31 (10주, 총 10회)
※ 2/17(토) 설 연휴 휴강
일 정 매주 토요일 14:00 ~ 17:00 (1회 3시간)
준비물 개인 노트북 권장
(RAM 4GB 이상, 8GB 이상 권장)
장 소 패스트캠퍼스 강의장
담당자 강호준 매니저
tel. 
02-517-0697
help-ds@fastcampus.co.kr

(메일로 문의 주실 경우 자세한 상담을 원하신다면 휴대폰 번호, 상담가능 시간을 남겨주세요!)

 * 본 CAMP는 조기마감 되었습니다. 출시알림을 신청해주시면 다음 기수 모집시 가장 먼저 안내해 드립니다. 

국내 유일한 딥러닝-음성인식 CAMP에서
음성인식 기술의 정수를 배우세요!

강의 소개

“구글, 음성인식 기술 API 공개”
http://www.bloter.net/archives/252909
“아마존 음성비서 ‘알렉사’, 세상 바꿀 두 번째 성배
http://www.bloter.net/archives/253314
“음성인식 기술 어디까지 갈까”
http://news.mk.co.kr/newsRead.php?year=2017&no=131699

  ▷ 왜, 누가 ‘음성 데이터’에 집중하는가?

Google의 Home, Amazon의  alexa와 같은 Personal asistant가 잇따라 공개되며, 음성 데이터 분석에 대한 관심이 높아지고 있습니다. personal assistant의 핵심은 사용자의 음성을 사람처럼 ‘제대로 알아듣고’, 정확하고 적절한 정보를 제공하는 것인데, 음석인식 시스템은 전통적으로 Hidden Markov Model을 사용했으나, 최근 음석인식을 위한 다양한 딥러닝 모델들이 등장하고 있습니다.

 ▷ 왜 음성인식 기술은 어려운가?

음성은 대표적인 시계열 데이터입니다. 이를 인식하기 위해서는 20ms 정도의 짧은 구간에 대해 추출한 음향벡터들에 대한 음향 벡터 공간상에서 분류(classification)를 포함하여, decoding network 구현 및 효과적인 어휘생성과 언어모델 구현을 필요로 합니다. 이를 위해서는 단순히 벡터 분류기만이 아니라, 시계열 데이터에 대한 이해, 언어 구조에 대한 이해, 선형대수, 머신러닝 등 다양한 분야에 대한 이해가 기반이 되어야 하기에, 기존 교육과정에서는 음성인식 기술을 온전히 전할 수 없었습니다.

  ▷ 지금까지 이런 교육과정은 없었다.

본 캠프는 음성인식 분야의 최고 전문가와 함께 직접 한국어 음성인식 시스템을 구현하는 것을 목표로 합니다. 총 10주, 30시간동안 음성과 관련된 비정형 데이터를 전처리하고, 분석하는 전 과정을 경험하는 커리큘럼을 통해 음성인식 분야에서 한 발 앞서나갈 수 있는 기회를 놓치지 마세요. 

목표는 한국어 음성인식 시스템 구현하는 것

음성인식의 핵심이론 뿐 아니라, 실제 서비스 구현과 상용화에 필요한 실무 기술까지 모두 배우세요.

dsr1

음성 인식 시스템 구현에
꼭 필요한 핵심이론 학습

DNN과 HMM을 중심으로 3회차에 걸쳐 음성인식 시스템의 핵심 원리와 2가지 음향모델에 대해서 학습합니다. 이후, 실제 사람들의 언어를 인식하기 위한 확률언어모델(statistical language model)에 대해 다룹니다.

dsr2

한국어 특성 이해 및
그에 맞는 언어 모델과 발음사전 구축

영어와 달리 ‘단어’ 아닌 ‘형태소’ 단위로 사전을 구축해야하는 한국어의 특성을 이해하고, 실제로 Morfessor을 이용해 형태소를 분석해봅니다. 이를 기반으로 한국어 음성 인식을 위한 언어모델과 사전 구축법을 배웁니다.

dsr3

KALDI를 활용한
한국어 
음성 인식 시스템 구축 실습

speech recognition 분야에서 통용되는 c++기반의 Kaldi를 활용해 직접 음성 인식 시스템을 구현하는 실습을 진행합니다. 실습을 위해 필요한 음성 데이터와 소스코드는 한국어 음성인식 오픈소스 프로젝트인 Zeroth 프로젝트를 통해 제공됩니다.

데이터 수집부터 어려운 음성인식 시스템 구축
본 캠프에서는 실습에 필요한 음성데이터를 Zeroth Project를 통해 모두 제공합니다.

Zeroth Project는 무엇인가?

Zeroth 프로젝트는 Kaldi open source tool-kit 을 사용해서  한국어 음성인식기를 구현하는 프로젝트 입니다. 이 프로젝트는 기업이 AI를 고객 서비스에 추가하는 데 도움이되는 (주)아틀라스가이드의 AI 플랫폼 개발의 일부로서 개발되었습니다. Kaldi official recipe 에 한국어 버전을 소개하는 것을 시작으로, 많은 사람들의 참여를 통해 누구나 사용할 수 있는 음성인식기를 만들어 나갈 수 있도록 하는 것을 목표로하는 프로젝트입니다.

Zeroth Project는 무엇을 제공하는가?

현재 Zeroth 프로젝트에는 아래와 같은 것들이 포함되어 있습니다.

– 51.6 시간 한국어 학습데이터 (22,263 발화, 105명, 3000 문장)
– 한국어 언어모델 구축을 위한 스크립트 (LM tool-kit)
– Kaldi training 스크립트 (training script)
– 공개 음성 DB 구축에 참여할 수 있는 음성 녹음 앱

수강 대상

음성데이터를 활용하여 음성인식 시스템을 개발하고 싶은 개발자/연구원

딥러닝을 활용한 음성데이터 처리에 대하여 알고 싶으신 분

수강 신청 전, 꼭 확인해주세요!

본 강의는 대학원 수준의 난이도가 있는 과정으로서, 하기의 배경지식이 없다면 수강이 불가능합니다.

사전지식 : 지도학습, 비지도학습 알고리즘에 대한 이해

프로그래밍 경험 : C/C++, Linux shell script, awk, perl, regex, python

비정형 음성 데이터, 더이상 막막해 하지마세요.
10주간의 실습형 커리큘럼을 통해
음성 인식의 핵심기술을 당신의 것으로 만드세요.

강사 소개

강사사진_조태영 (1)

조태영 강사님

현재 (주) 아틀라스 가이드에서 한국어와 싱글리쉬(싱가폴 영어) 음성인식기 개발을 맡고 있습니다. 음성인식기 개발에 필요한 기본적인 구성요소들을 하나하나 구축하는 방법부터 최신 DNN 구조를 적용한 음향모델 구축 및 학습 그리고 실시간 음성인식을 위한 서버구축까지 강의를 통해 공유할 예정입니다.

약력

– 現 (주) 아틀라스 가이드 음성인식팀 팀장
– RADSONE 책임 연구원 – High-end DAC/Headphone 앰프 개발
– PULSUS 선임 연구원 – Class-D 앰프 구동을 위한 디지털 PWM Modulator 개발
– 서울대학교 전기공학부 학부 및 석사 졸업(음성신호처리 전공)

커리큘럼

주차 주제 세부 내용
Part 1. 음성인식의 이해와 음향모델
1 Introduction to Speech Recognition - 오디오 신호 및 음성 신호의 특징
- 음성 신호 분석 음성인식 문제 정의 및 최근 기술 동향
- Zeroth 프로젝트 소개
2 HMM (Hidden Markov Model) - 한국어 음성인식기 구축을 위한 오디오 녹음
- HMM(Hidden Markov Model)
- Determine likelihood of observation (forward algorithm)
- Discover the best hidden state sequence (forced alignment)
- Learn HMM parameters (Viterbi training, EM …)
- HMM/GMM 음향모델
3 Acoustic Model - What AM do? Why DNN AM?
- Feedforward Neural Net, Back propagation
- Deep Neural Net
- HMM/DNN 음향모델
Part 2. 언어모델의 이해와 한국어 언어모델의 특징
4 Language Model - 언어모델이란
- Build Corpus by Crawling and Text Normalization
- N-gram statistical language model
- SRILM tool and perplexity
5 Korean Language Model - 한국어의 특성과 형태소에 대한 이해
- Data-driven Morpheme Analysis (Morfessor)
- Building Language Model
- Building Vocabulary
- 한국어 표준 발음법과 발음열 생성
- Building Lexicon
Part 3. Kaldi를 활용한 음성인식시스템 구축 및 실시간 서비스를 위한 서버 구축
6 Kaldi Training Phase 1 - Data preparation
- LM and Lexicon Setup
7 Kaldi Training Phase 2 - GMM-HMM training and alignment
8 Kaldi Training Phase 3 - NNET, NNET2 training and Performance Check
9 Kaldi Training Phase 4 - NNET3 training and WER Performance Check
10 Real-time Online ASR system - Real-time Online ASR system with Kaldi Gstreamer server

강의 정보 및 수강료 안내

딥러닝-음성인식 CAMP
기     간 2018년 1월 20일 – 3월 31일 (총 10주)
(2월 17일은 설 연휴로 휴강합니다.)
일     정 매주 토요일 (주 1회)
오후 2시 – 5시
준 비 물 개인 노트북 권장
(RAM 4GB 이상, 8GB 이상 권장)
장     소 패스트캠퍼스 내 강의장
문     의 강호준 매니저 tel. 02-517-0697
help-ds@fastcampus.co.kr

(메일로 문의 주실 경우 자세한 상담을 원하신다면 휴대폰 번호, 상담가능 시간을 남겨주세요!)

 * 본 CAMP는 조기마감 되었습니다. 출시알림을 신청해주시면 다음 기수 모집시 가장 먼저 안내해 드립니다.