본문 바로가기

댓글0
번역beta

Translated by kakao i

번역할 언어 선택

뷰 본문

탈잉

빅데이터? 머신러닝? 이 시대에서 살아남으려면 꼭 알아야합니다.

데이터분석의 의미부터 이 시대의 가장 중요한 point까지

22,622 읽음
댓글0
번역beta

Translated by kakao i

번역할 언어 선택

4차 산업혁명의 시대로 접어든 요즘 '데이터 분석, 머신러닝'이라는 거창하고 어려운 말들이 주위에서 막 들립니다.

하지만, 비전공자에다가 딱히 접할 기회가 없어서 막연히 어렵게만 생각하는 사람들도 왜 저런 말들이 이 시대에 맞춰 나오는지 알아야만 미래를 함께 준비할 수 있습니다. 

이 글을 꼭 봐야하는 사람들

1. 난 통계도 모르고 프로그래밍도 몰라 

2. 머신러닝? 프로그래밍? 관심은 있어도 뭐부터 해야될지도 모르겠어 

3. 학업으로, 업무용으로 통계 기초정도는 알고 활용하고 싶어



Why: 데이터분석, 도대체 왜 하는 것인가?

가장 중요한 질문이지만, 아쉽게도 답이 정해져 있지 않습니다.



"내가 지금 데이터 분석을 왜 하려고 하는가"

"분석하려면 어떤 게 필요한가"

"어떤 형식의 데이터를 사용할 것인가"


이 질문이 중요한 이유는 위의 질문과 답에 따라서 사용하는 분석 방법이 달라지기 때문입니다. 이걸 모르고 '데이터가~ 알고리즘이~ 머신 러닝이~'  얘기해봐야 스스로에게 아무런 도움이 되지 않습니다.

앞으로도 이 사항을 항상 명심하고, 내가 왜 데이터 분석을 알려고, 또는 하려 하는지 고민해보세요! 우리는 4차 산업혁명에 뒤쳐지지 않고자 이 글을 읽는 거잖아요?


왜 이제와서 뜨는 것일까?

사실 데이터 분석에서 쓰고있는 방법론이나 알고리즘의 기초들은 적게는 수십년에서 많게는 100년이 넘은 것도 있습니다. 그런데 왜 이제와서 '데이터 분석'이라는 분야가 뜨는 것일까요?



첫째, 데이터가 없었다

 : 분석 방법을 아무리 만들어봤자, 그것을 활용할 데이터가 충분히 축적되지 못했었습니다.


둘째, 기술력이 따라오지 못했다

 : 대량의 데이터가 있다하더라도 그것을 물리적으로 처리해줄하드웨어 및 소프트웨어가 부족했습니다. 즉, 인프라가 부족했습니다. 


셋째, 알고리즘 

 : 기존에도 여러 분석방법론들이 있었지만, 특히 요즘와서 '딥러닝쪽의 알고리즘'이 제대로 다시 논의되고 연구되고 있습니다.



즉, 현재는 데이터가 충분히 축적될 수 있고 그런 데이터를 처리해 줄 인프라도 충분습니다. 그래서 알고리즘 위주로 '데이터 분석'이 이루어지며 4차 산업혁명을 시대를 이끌고 가는 것이죠.




데이터분석과 머신러닝을 하려면 뭐가 가장 중요한가?

출처'하용호'님 슬라이드 쉐어

위의 이미지에는 굉장한 뼈가 있습니다. 미칠듯한 성능의 CPU와 빠른연산의 GPU? 다나와가서 가장 성능 좋은 것을 구매하면 됩니다.

알고리즘? 예전에는 별로 없었지만, 요즘엔 많은 연구가 진행돼서, 구글링하면 알고리즘의 소스코드까지 다나옵니다.


핵심은 DATA입니다 (feat.분석방법론)

많은 사람들이 머신러닝이라는 새롭고 매력적인 '단어'에 혹해서, 고성능의 하드웨어와 최적화 알고리즘이 머신러닝의 핵심이라고 생각하고있습니다. 하지만 이 것은 틀린 방식입니다.


데이터 분석에 가장 중요한것은 데이터입니다!!

데이터를 분석해서 무엇을 할 것인가에 따라서 '어떤 데이터를 어떻게 정의하여 쓸 것인가, 데이터 처리는 어떻게 할것인가, 어떤 분석방법론을 사용할 것인가'가 가장 중요합니다.


데이터 과학자들의 업무 비중입니다. 필요한 데이터를 수집하고 가공하는데에만 전체 업무시간의 80%가량이 소요됩니다. 즉, data분석에서 가장 중요한것은 data입니다.

출처Crowd Flower

'머신러닝하면 어차피 다 되는거 아니야?'라고 묻는 사람들은 꼭 기억하세요!  "쓰레기를 넣으면쓰레기가 나온다"



데이터 분석은 기초로 응용하는 것

혹시 데이터 분석에 관심을 갖고 시작했다면, 명심하세요. 여러분에게 아주 획기적이고 새로운 알고리즘을 만들어내라는 얘기가 아닙니다. 하지만, 적어도 지금쓰고있는 데이터 방법론에 대해 기본적인것을 이해하고, 분석결과가 안 좋다면 그 원인을 알아야 한다는 것이죠.


기초를 모르고 응용만 해서는 절대로 문제의 근본을 해결할 수 없습니다. 머신러닝의 다양한 것들을 이해하기 위해서는 몇가지 근본적으로 알아야될 기초들이 있습니다.

그 중 하나는 전통적인 통계방법론, 그중에서도 특히 회귀의 기초는 알아야 한다는 것. 왜냐면, 머신러닝은 엄청 복잡한 알고리즘으로 구성되어 있을 뿐, 회귀분석의 일종이기 때문입니다. 즉, 응용으로는 기초할수 없습니다. 하지만, 기초로는 응용할 수 있습니다.




아직은 데이터, 데이터 분석, 그리고 머신러닝까지 용어조차도 많이 어려울 거에요. 하지만 이 글을 읽음으로써 '데이터에 "눈을 떴다"'라는 말을 해드리고 싶습니다. 거창하고 어려운 말을 알아가고 앞으로 관심을 가지며 변화를 지켜보는 것 자체가 세로운 세계로 함께 들어가는 거니까요.

작성자 정보

탈잉

세상의 모든 재능

    실시간 인기

      번역중 Now in translation
      잠시 후 다시 시도해 주세요 Please try again in a moment