“데이터를 부탁해” 세미나 현장 리포트 – 데이터 분석, 피할 수 없다면 즐겨라!

패스트캠퍼스에는 다양한 데이터 사이언스 관련 캠프들이 있습니다.

데이터 분석에 도전하고 싶은 분들을 위해, 입문자를 위한 [데이터를 부탁해] 오픈 세미나를 진행했습니다.

강사와 수강생이 함께 연사로 참여하는 4개의 강의 세션과 Q&A 세션으로 진행되었는데요, 그 날의 현장 리포트를 전해 드립니다!

Session 1. “Save your time and money!”
데이터 분석에 관심을 가져야 하는 이유 by 임경덕 (데이터 분석 입문 CAMP 강사)

Session 2. “업무에 데이터 분석을 적용한다면?”
항공 기상 데이터 분석으로 운항 스케줄 예측하기 by 신진환 (파이썬을 활용한 데이터 분석 CAMP 졸업생)

Session 3. “내 데이터에 맞는 분석법은?”
환율 데이터에 시계열 분석을 적용해보자 by 진한샘 (데이터 분석 입문 CAMP 강사)

Session 4. “비전공자도 할 수 있다!”
데이터 분석가로 거듭나기 by 황준식 (머신러닝 CAMP 수강생)

[데이터 분석 입문 CAMP] 자세히 보기 >>

[머신러닝 CAMP] 자세히 보기 >>>


세미나가 시작되는 시간은 오후 8시, 하지만 입장이 시작된 7시부터 데이터 분석에 입문하고자 하는 분들께서 먼저 오셔서 하나둘 자리를 채워 주셨습니다. 8시가 임박하자 한꺼번에 10명씩 그룹으로 입장하기도 하시는 등 시작하기도 전부터 후끈후끈한 열기와 기대감을 느낄 수 있었습니다.

[데이터를 부탁해] 세미나의 진행을 맡은 박가영 코스매니저가 무대 위에 서고, 인사말로 시작을 알렸습니다.

“이제 주관적인 인사이트만으로 의사 결정하기 어려운 시대가 되었습니다. 피할 수 없다면 즐기라고 했죠. 여러분과 함께 데이터 분석을 즐겁게 공부할 수 있는 방법을 찾아 제공해 드리는 게 바로 저희, 패스트캠퍼스의 데이터 사이언스 코스 기획팀의 마음입니다.

이 자리에 함께 해주신 모든 분들이 데이터 분석에 자신감을 가지고 입문하실 수 있도록, 즐겁게 데이터 분석에 대한 이야기를 들려 드리겠습니다. 끝까지 참석하셔서 원하시는 인사이트를 얻어가세요!”


Session 1. “Save your time and money!”
데이터 분석에 관심을 가져야 하는 이유 by 임경덕 (데이터 분석 입문 CAMP 강사)

첫번째 세션은 왜 데이터 분석에 관심을 가져야 하는지에 대해 [데이터 분석 입문 CAMP]를 담당해 주시는 임경덕 강사님께서 이야기를 들려 주셨습니다.

상품을 단순히 차별화하기만 해서는 히트치기 어려운 시대. 소비자의 필요와 욕망을 측정하고, 유용하고 가치 있는 상품을 만들고, 개인에게 맞춤화된 콘텐츠를 제공해야 할 필요성이 높아졌습니다. 개인 맞춤형 서비스의 예시로, 헬스케어 시장에서 스마트워치를 통해 실시간으로 생체 정보를 수집하고, 여기에 개인의 건강 정보와 유전 정보를 더해 개개인이 암에 걸릴 확률을 예측할 수 있다고 알기 쉽게 설명해 주셨습니다.

또한 데이터 분석에 의한 의사 결정의 중요성을 강조하셨습니다. 경험 만으로 일을 하는 경우를 고인 물로 비유하고, 실시간으로 모니터링할 수 있는 데이터 분석에 기반하는 경우를 흐르는 물에 비유하신 게 인상적이었습니다.

하지만 막상 데이터 분석의 중요성을 알고 기업에서 데이터 분석가를 영입하려 해도, 국내에 이를 할 수 있는 사람이 생각보다 없는 실정입니다. 따라서, 이제는 모든 관련자가 데이터 분석에 관심을 가지고 개념을 이해해야 한다고 하셨습니다.

데이터 분석 입문자들을 대상으로 강의하시는 분 답게, 어려운 이야기를 되도록 쉽게 풀어주고자 노력하시는 모습이 돋보였습니다.

[데이터 분석 입문 CAMP] 자세히 보기 >>>


Session 2. “업무에 데이터 분석을 적용한다면?”
항공 기상 데이터 분석으로 운항 스케줄 예측하기 by 신진환 (파이썬을 활용한 데이터 분석 CAMP 졸업생)

2번째 세션은 패스트캠퍼스의 [파이썬을 활용한 데이터 분석 CAMP]에서 데이터 분석을 배우신 신진환 님께서 이를 업무에 직접 적용하신 사례를 발표하셨습니다.

[파이썬을 활용한 데이터 분석 CAMP] 자세히 보기 >>>

기상 분석 업무를 진행하신지는 1년 정도 되셨고, 기장님께 기상 상황에 따른 운항 정보를 전달드리면 이를 항공사에서 발표하여, 운항 스케줄이 고객에게 전달되는데요, 이런 운항 스케줄 결정에 참고할 데이터 분석에 파이썬을 활용하셨습니다.

유럽의 웹 사이트에서 데이터를 크롤링하여, 5만 행 정도 되는 10년치 텍스트 데이터를 파이썬의 Pandas 라이브러리를 사용하여 가져왔습니다.

이를 통해 계림공항의 시정 빈도를 히트맵으로 나타내셨는데요, 시정이 나쁠 때가 언제인지만 필요하기에, 시정이 안 좋은 것만 확대해서 보여지게 했습니다. 이 모든 게 보고서 하나를 쓰기 위해 작업이었다는 게 스스로도 믿기지 않는다고 하셨습니다.

그리고 김포공항에서 제주공항으로 갈 때 뇌우가 치면 비행 시간이 얼마나 늘어날지에 대한 데이터 분석 결과도 발표하셨는데요, 이에 대해서는 신진환 님의 [파이썬을 활용한 데이터 분석 CAMP] 수강 후기에서 자세히 보실 수 있습니다.

“항공 기상 데이터를 분석하여 운항 스케줄을 예측하다!” 신진환님의 수강 후기 보기 >

업무를 진행하시면서 경험적으로 판단해왔던 것들을 데이터 분석 과제로 변환하여, 데이터에 기반한 업무의사 결정을 했던 실제 사례를 들을 수 있었던 귀한 시간이었습니다.


Session 3. “내 데이터에 맞는 분석법은?”
환율 데이터에 시계열 분석을 적용해보자 by 진한샘 (데이터 분석 입문 CAMP 강사)

3번째 세션에서는 재무팀에서 환율/금리 데이터를 다루시는 진한샘 강사님께서 어떤 식으로 데이터 분석의 목적에 적합한 분석 방법을 찾으셨는지 사례를 공유해 주셨습니다.

다양한 분석 방법이 있지만, 데이터 분석의 목적에 맞는 분석 방법을 선택하는 게 가장 중요하며, 이를 위해서는 데이터를 명확히 이해해야 합니다. 분석의 목적에 맞지 않는 방법을 쓰거나, 데이터에 대한 이해 없이 분석하거나, 구미에 맞게 억지로 결과를 뽑아내지 말라는 얘기를 해 주셨습니다.

환율 데이터는 시간에 따라 달리지며 다양한 외부 요인의 영향을 많이 받습니다. 시계열 분석은 데이터의 과거 행적을 따라가는 것으로, 단순한 회귀분석보다는 이를 적용했을 때 더 적절한 결론을 도출할 수 있다며, 환율이 시간에 따라 어떻게 변화했는지를 그래프로 시각화해서 보여 주셨습니다. 스스로 분석법을 찾아가기 위해서 더욱더 다양한 데이터 분석 방법을 공부하고 적용해 봐야겠다는 생각을 했습니다.


Session 4. “비전공자도 할 수 있다!”
데이터 분석가로 거듭나기 by 황준식 (머신러닝 CAMP 졸업생)

4번째 세션은 참석자들의 깊은 공감을 이끌어냈던 세션이었습니다. [머신러닝 CAMP]를 수강하신 황준식 님께서는 경영학을 전공하신 경영학도이십니다.

“시간을 줄여주면서도 정확하게, 대규모의 데이터를 다루는 머신러닝의 강점” 황준식 님의 수강 후기 보기 >

스스로 데이터 분석을 공부해서, 현재는 데이터 분석가로 거듭나기까지의 과정을 들려주셨는데요, 앞 세션을 들으시면서 저렇게 잘하고 싶다, 성장하고 싶다고 생각하셨다고 합니다.

2013년 2월에 대학을 졸업하고, 스타트업에서 사회 생활을 시작하면서, 내가 의사 결정을 올바르게 내리고 있는지에 대한, 마치 ‘장님이 코끼리를 만지는 듯한’ 의문이 생겼고, 데이터 분석을 하기로 결정하셨다는 이야기를 들려 주셨습니다.

하지만, 일단 시작을 하려고 했으나 어려웠고, 뭐가 트렌드라고 하는데 어디서부터 시작해야 할지 모르겠고, 오픈 소스로 공부해도 다음에 뭘 해야 할지 모르겠다는 등 어려움이 많아서, 간단한 것부터 시작하기로 하셨습니다.

그래서 그 당시 보고 있던 한국판 <왕좌의 게임> 같은 정도전의 등장 인물들을 중복되지 않게 묶는 파이썬 문제를 풀어보았고, 이런 개인 프로젝트를 하면서 자신감이 많이 생기셨다고 합니다.

황준식님은 머신러닝 알고리즘을 적용하여 [냉장고를 부탁해]를 분석하셔서 주목을 모으시기도 했는데요, 이 사례를 자세히 소개해 주시면서 비전공자로서 어떻게 학습하셨는지 방식을 알려주셨습니다.

머신러닝 알고리즘으로 분석한 “냉장고를 부탁해” 자세히 보기 >

데이터 분석에 대한 열정과 집념으로 목표를 이뤄가는 과정이 정말 인상적이었습니다. 배운 내용을 자신이 관심 있는 데이터에 직접 활용해 보고자 하는 의지가 있다면, 이렇게 빨리 성장할 수 있지 않을까요?


Q&A Session

강의 세션이 끝나고, 참석자들의 궁금증을 연사들과 함께 풀어보는 Q&A 시간을 가졌습니다. 참가신청을 해주신 분들께서 가장 많이 질문해 주신 내용에 대한 답변을 들어보았습니다.

“데이터 분석 공부를 시작하려고 하는데, 어떻게 해야 할까요?”라는 질문에 임경덕 강사님은 분석 예제를 보면 의외로 간단한 경우가 많다며, 워드 클라우드도 단어의 빈도를 세는 것 뿐이라고 하셨습니다. 통계를 배운 다음에 분석 기법을 활용할 수 있으리라 생각하는데, 자신이 가진 데이터와 목적을 제대로 파악하고 공부하라는 조언을 주셨습니다.

“데이터를 분석하기 전에 분석할 데이터는 어떻게 수집하나요?”라는 질문에 신진환 님께서는 자신의 세션에서 소개했던 파이썬으로 크롤링하여 수집할 수 있다고 얘기해주셨습니다. 황준식님께서는 데이터는 널려 있고, 심지어 수작업으로 기입할 수도 있지만 그 전에 어떤 데이터를 수집할지가 중요하다고 하셨습니다. 이 질문을 하고, 이에 필요한 데이터를 가장 쉽고 빠르게 수집할 수 있는 방법으로 모으신다네요.

“초보자가 무료로 사용할 수 있는 툴은 무엇이 있을까요?”란 질문에 임경덕 강사님께서는 통계학과에서는 R을 많이 쓰고, 파이썬은 서버와의 연동이 편하여, 서비스를 직접 운영하시는 분들에게 추천하셨습니다. 반면 R은 시각적인 표현에 강점이 있어서, D3.js 등에 관심 있으시다면 R을 추천한다고 하셨습니다. (패스트캠퍼스의 [데이터 시각화 CAMP]에서도 D3.js를 써서 학습하고 있습니다.)

“통계/수학을 잘하면 데이터 분석에 도움이 되나요?”라는 질문에 임경덕 강사님께선 몰라도 할 수는 있지만, 이해하기가 더 쉽다고 답변해 주셨습니다. 결과 예측에 들어간 변수를 설명할 때 배경 지식이 있으면 도움이 되기에, 통계/수학을 알면서 분석하면 강점이 될 수 있다고 하셨습니다.

“비전공자가 데이터 분석을 공부할 때, 비용 부담을 줄일 수 있는 방법은 뭐가 있을까요?”라는 질문에, 역시 비전공자이신 황준식님께서 답변을 해주셨는데요. 온라인에 소스가 굉장히 많으며, 코세라(Coursera) 등은 요즘 자막까지도 제공되니, 온라인 교육을 많이 활용하면 비용 부담이 줄어듭니다. 또한 오프라인에서는 좀더 인터랙티브하고 생생하게 배울 수 있다는 강점이 있기에, 페이스북에서 열리는 스터디 등도 활용하면 좋을 것 같습니다.

강사님들께서 세미나가 끝난 후에 공유해 주신 데이터 분석에 대해 공부할 수 있는 온라인 자료들을 소개합니다.

준비된 질문 외에도 자유롭게 궁금한 점을 물어볼 수 있었는데요, 데이터 분석이 아직 몇몇 사람의 책임으로 여겨지는 데에 대한 안타까움을 표현하신 참가자 분이 계셨습니다. 임경덕 강사님께서는 데이터 분석은 모두가 나누어야 한다는 인식이 중요한데, 그 기회가 왔을 때 데이터 분석에 대한 역량을 발휘할 수 있도록 준비하라는 조언을 해주셨습니다. 미리 어느 정도 알아두면 나중에 좀 더 데이터 분석가에게 요구를 할 수 있다고 말이죠.

마지막으로는 ‘데이터 분석에 대한 세미나’스럽게, 임경덕 강사님께서 R을 활용하여 랜덤으로 행운권을 추첨하는 이벤트가 있었습니다. 먼저 입장하신 50분께 가중치를 부여해 드리고, 1등에게는 데이터 분석 입문 CAMP 무료 수강권을 드리기로 했는데요, 이색적인 실시간 추첨 시스템에 심장이 더욱 쫄깃해졌답니다.


워드클라우드로 본 [데이터를 부탁해] 세미나 참석자, 그들은 누구인가?

앞에서 R이 시각화에 강하다고 했던 것, 기억하시나요? 현장 리포트를 마무리하기에 앞서, 진한샘 강사님의 아이디어로 참석자들의 정보를 임경덕 강사님께서 워드클라우드로 만들어 주셔서 소개합니다.

1) 참가자 분들의 소속

대부분이 어떤 ‘팀’에서 ‘기획’이나 ‘마케팅’ 업무를 맡고 계십니다. 학생 분들도 많이 계신것 같고요. 데이터 분석에 대한 관심과 니즈가 관련 업무 실무자들과 학생들을 중심으로 커져가고 있는 거 같네요!

2) 참가자 분들의 질문

세미나 주제에 맞게, 대부분 ‘데이터’와 ‘분석’에 대한 방법을 질문하셨습니다.


절대적으로 많이 나온 ‘데이터’와 ‘분석’을 제외하고 다시 한번 살펴보면, 데이터 분석이 왜 ‘필요’하고, 어떤 ‘방법’으로 어떤 ‘분야’에 활용되는지, 그렇다면 ‘무엇’을 해야 하는지 궁금해 하셨다는 걸 알 수 있었습니다.

질문에서 알 수 있듯이, 우리는 데이터 분석에 관심은 많지만, 작은 분석 하나 실행하는 것에도 겁을 먹습니다. 그냥 한번 시작해보는 것은 어떨까요?

위에 있는 워드클라우드도 어렵지 않습니다!

1단계 : R 설치하기
http://cran.nexr.com/bin/windows/base/

2단계 : 따라하기!
http://develop.sunshiny.co.kr/903
http://www.r-bloggers.com/word-cloud-in-r/

데이터 분석은 전문가만 할 수 있는 어려운 일이 아닙니다. 누구나 조금만 배우면 시작할 수 있고, 내가 가진 역량과 융합해서 새로운 것을 만들 수 있습니다. 2시간 동안의 짧은 세미나가 여러분의 궁금증을 모두 해결해 줄 수는 없었겠지만, 패스트캠퍼스의 데이터 사이언스 팀과 함께 도전해 보세요! 참여해 주신 분들께 감사드리며, 앞으로도 패스트캠퍼스가 계속 선보일 다양한 데이터 사이언스 세미나를 기대해 주세요!

 

[데이터 분석 입문 CAMP] 자세히 보기 >>

Recent Posts