[파이썬을 활용한 머신러닝 기초 CAMP/강사 인터뷰] “데이터 처리, 알고리즘 등 현업에 실질적인 도움이 되는 강좌” 고태훈 강사님

파이썬을 활용한 머신러닝 기초 CAMP 강사 인터뷰

‘머신러닝’이라는 단어는 이제 안 들어본 사람이 없을 정도입니다. 하지만 정작 머신러닝에 우리 삶에서 어떻게 쓰이는지 모르는 경우가 많습니다. 그저 ‘우리와는 상관 없는 일이다’ 라고 생각하시는 분들도 있을지 모릅니다.

하지만 실제로 머신러닝은 우리의 삶에 생각보다 가까이 있습니다. 우리가 자주 듣는 음악 어플이 내 취향에 맞는 음악을 추천해주거나, 제조업에서 품질 이상 유무를 예측하는 등 다양한 비즈니스에서 적용되고 있습니다. 요즘들어 더욱 비즈니스에서 중요하게 쓰이고 있어, 머신러닝 알고리즘을 구현하는 개발자를 찾는 곳도 많이 늘어나고 있죠.

단어는 많이 들어봤지만 막상 그 실체에 대해서 잘 모르는 머신러닝, [파이썬을 활용한 머신러닝 기초 CAMP]의 고태훈 강사님의 인터뷰를 보시면 머신러닝에 대한 감이 조금은 올 것 같습니다. 그리고 머신러닝을 공부하려면 어떻게 공부해야 할 지, 자세한 내용을 알아보실까요?

[파이썬을 활용한 머신러닝 기초 CAMP] 자세히 보기 >>>


 

안녕하세요, 강사님. 자기소개 부탁드립니다.

안녕하세요, 저는 서울대 산업공학과 데이터마이닝센터에서 박사과정을 하고 있는 고태훈이라고 합니다.

현재 어떤 프로젝트들을 진행하셨는지, 소개해주실 수 있을까요?

저는 인공지능 분야보다는 실제 다양한 비즈니스 분야에서, 다양한 형태의 데이터를 이용하여 새로운 지식을 도출하거나 데이터마이닝 모델을 만드는 프로젝트를 주로 진행하였습니다. 제조업 분야에서는 제조 과정에서 발생하는 센서 데이터와 품질과 관련된 데이터를 결합하여 이들의 관계를 찾는 주제의 프로젝트를 진행하였습니다. 그 외에도 신제품 기획 단계에서 필요한 사용자의 니즈를 여러 사용자 행동 데이터로부터 도출하는 프로젝트, 의료 데이터 연구분석 프로젝트, 소셜 미디어 데이터 및 텍스트 데이터를 이용한 연구 프로젝트를 수행하였습니다.

머신러닝에 대한 관심은 높은데, 막상 도전하려고 해보면 어려워하시는 분들이 많은 것 같습니다. 머신러닝을 어려워하는 이유가 무엇일까요?

알고리즘 자체의 난이도가 높은 경우도 있겠지만, 실전에서 사용하는 입장에서 어려운 첫 번째 이유는 데이터와 친숙하지 않기 때문인 것 같습니다. 데이터와 친숙해지기 위해서는 자신이 원하는 형태로 데이터를 변환/처리하고 시각화하여 탐색하는 방법이 필요합니다.
두 번째 이유는 분석 주제가 명확하지 않기 때문이라고 생각합니다. 여기에서 ‘명확’하다는 것은 머신러닝이 활용될 수 있는 형태로 주제가 정해졌다는 것을 의미합니다. 이를 위해서는 각 머신러닝 알고리즘이 어떠한 문제를 풀 수 있는지 배우는 것이 가장 중요합니다. 그런데 이에 대한 접근이 어렵다고 봅니다.

 

이번 [파이썬을 활용한 머신러닝 기초 CAMP]에서는 주로 어떤 내용들을 다루실 건가요?

저는 앞서 3번에서 말한 두 가지 이유를 해결할 수 있도록 돕는 것이 목표입니다. 먼저 파이썬으로 데이터를 처리하는 일련의 과정, 그리고 데이터 탐색을 위해 데이터를 정적인 형태와 동적인 형태로 시각화하는 방법을 다룰 예정입니다. 그 이후에는 주요 데이터마이닝 태스크와 각 태스크에 해당하는 알고리즘을 소개할 예정입니다. 각 강의에는 Python 2.7을 기준으로 예제와 실습 과정을 진행함으로써 이해를 돕고자 합니다.

본 수업에서 다루는 머신러닝을 강사님께서 프로젝트에 직접 적용한 사례가 있으면 하나 소개 부탁드립니다.

데이터의 전처리 및 시각화는 모든 데이터마이닝 프로젝트에서 반드시 수반해야 하는 일이기 때문에 거의 전 분야의 프로젝트에서 쓰였습니다. 제조업 분야에서 제품 품질과 생산 이력을 연결한 후 머신러닝 알고리즘을 이용하여, 제품이 생산된 직후에 해당 제품에 품질 이상 유무를 예측하는 모델을 만들었습니다. 또한, 대형 온라인 쇼핑몰에서 고객 구매 점수를 도출하는 모델을 구축한 적이 있습니다.

 

이 수업은 어떤 분들이 수강하시면 좋을까요?

짧은 시간이다 보니 머신러닝 알고리즘을 깊게 다루는 것보다는 실전에서 사용하기 위해 고려해야 할 사항들과 경험들을 전달할 예정입니다. 그래서 초심자 혹은 데이터 분석을 시작한 지 얼마 안 된 분들에게 적합한 강의입니다.

수업 전에 공부를 해보고 싶어 하는 분들에게 도움이 될 만한 책이나 자료들이 있다면 추천해주실 수 있을까요?

먼저 Python의 기본 문법에 대해 공부하시면 좋습니다. 제가 추천한 곳은 ‘SOLOLEARN 파이썬 강좌‘입니다. 매우 쉬우면서 직관적으로 되어 있기 때문입니다. 또한, iTunes나 Google playstore를 통해 앱을 다운 받아 틈틈이 내용을 파악할 수 있어 좋습니다. 본 강의의 실습을 원활하게 진행하기 위해서 최소 Module 1 ~ Module 3까지는 이수하시기를 추천합니다. 그 외에는 ‘Codeacademy 파이썬 강좌‘도 좋습니다.
이번 수업의 많은 내용은 ‘Stanford University’의 ‘InfoLab‘에서 공개한 ‘Mining of Massive Datasets(MMDS)‘, 그리고 ‘O’Reilly’에서 출간된 ‘Data Science from Scratch‘에서 참조할 예정입니다. MMDS의 경우 책과 강의자료 모두 공개되어 있고, 온라인 공개강좌 플랫폼으로 유명한 Coursera에 이 책을 다루는 ‘Mining Massive Datasets‘라는 무료 공개강좌가 존재합니다. 또한 O’Reily의 책 저자는 소스에 사용한 모든 파이썬 코드를 자신의 ‘Github‘에 업로드하였습니다. 이러한 자료들이 많은 도움이 될 것입니다.

 

마지막으로 강의를 수강하고자 하는 분들에게 한마디 부탁드립니다.

만약 이번 강의를 수강하신다면 데이터 처리, 머신러닝 알고리즘 등을 실제 계신 현업에서 활용하는 데에 도움이 될 수 있을 겁니다. 많은 관심 부탁드리겠습니다.


 

데이터 처리, 머신러닝 알고리즘 구현 등 현업에 실질적인 도움이 되는 강좌가 필요하다면? ▼

[파이썬을 활용한 머신러닝 기초 CAMP] 자세히 보기 >>>

Recent Posts