컨텐츠 뷰 본문

라이브러리·2017.10.12. 작성

창의력과 데이터의 공통점: 올바른 질문으로부터 시작한다

인사이트가 들어가야만 통계의 진정한 의미를 파악할 수 있다.
프로필 사진
ㅍㅍㅅㅅ 18,019명이 봤어요 ·개 댓글
 아래로 스크롤

문제 해결 과정에서 가장 중요한 점 중 하나는 팩트를 어떻게 쌓아갈 수 있는가이다. 정량적으로 분석되는 통계 자료는 우리에게 많은 것을 알려준다. 다만, 그 숫자들을 평면적으로 받아들이는 건 동어반복에 불과하며, 그 숫자들을 통찰력을 통해서 예측하고 검증해야 한다. 창의력의 첫번째는 통찰력을통해 올바른 질문을 던지는 능력이다. 예를 하나 들어보자.



암 발병률과 수명의 관계


예전에 운전을 하다가 라디오를 듣는데, 노인 암 발병에 관한 이야기가 나오고 있었다. 그리고, 뉘앙스가 점점 불편하게 다가오기 시작했다. 예전과는 달리 현대 사회에서는 도시화되고 인공적인 음식을 섭취하다보니 암 발병률이 올라간다는 전제를 깔고, 어떻게 자연으로 돌아가고 자연스럽게 살 것인가에 대한 각종 민간 요법(이라고 쓰고, 사이비과학이라고 읽는다)스러운 말들이 오가고 있었다.

이 모든 게 도시화 때문입니다!

내가 암이라는 병에 대해서 아는 건 많지 않다. 세포가 분열하면서 일정한 분열의 횟수를 넘어서면 더 이상 분열하지 못하도록 사멸하게 하는 매커니즘이 있는데, 이게 고장나서 무한히 증식하고 사멸하지 않는 세포가 된다는 정도밖에 없다.


그렇다면, 이 정의로 부터 충분히 저 방송이 터무니 없다는 걸 알 수 있다. 우선, 세포의 분열이 많으면 많을수록 대수의 법칙(law of large number; 표본이 많을수록 오차가 일어나는 경우가 줄어든다는 것)에 의해 세포의 사멸 매커니즘이 실수한 회수가 증가한다. 1년 동안 세포가 실수를 하고 그것을 바로 잡는 메커니즘이 작동하지 않을 확률이 x% 로 일정하다고 생각하기로 하자.


1살짜리 아이가 암에 걸릴 확률은 1-(1-x)=x , 2살짜리가 암에 걸릴 확률은 1- (1-x)^2, 3살짜리가 암에 걸릴 확률은 1-(1-x)^3, ….., n살까지 살면서 암에 걸리지 않을 확률은 1-(1-x)^n이 된다. 즉, 살아온 매해 암에 걸리지 않을 확률의 여사건이다. 물론 암이 걸려서 이미 사망한 경우에는 모수에서 빼줘야 하지만… 귀찮다.


복잡하게 생각할 필요 없이, 주사위를 던져서 1이 나오면 까나리 액젓을 마셔야 하는데, A라는 그룹은 40번을 던지고, B라는 그룹은 80번을 던진다고 하면 B그룹에 까나리 액젓을 마신 사람의 수가 더 많은 것은 당연한 것 아닌가. 주사위를 던지는 회수부터 다르다. 심지어 동일한 확률도 아니고, 나이가 들어감에 따라 주사위가 닳아서 1이 나올 확률이 증가한다고 하면, 더욱 그 격차는 커질 것이다.


불과 100년 전까지 한국인의 평균 수명은 40살 언저리로 현재의 기대 수명 80살의 절반이었다. 그러니까, 우리는 주사위를 더 많이 던지고 있고, 주사위는 점점 모서리가 닳아가고 있다. 따라서 까나리 액젓을 더 마실 가능성이 높아진 것이다. 그리고, 그 확률은 급격히 상승한다. 시계열로 분석하여 산업화/도시화가 되기 전과 지금의 나이 별 암 발병률을 보면, 지금이 오히려 적거나 크게 차이가 나지 않으리라고 장담한다. 예전에는 암에 걸릴만큼 오래 살지 않은 것이다.

나이가 들수록 압도적으로 확률이 높아진다

이러한 암의 정의에서 볼 때, 결국 암이라고 하는 것은 확률에 기대는 노인병이라는 결론이 도출된다. 세부적인 의학적인 지식으로 파고들지 않고, 그냥 건전한 상식으로 봐도 암이 과거에 비해서 한국인의 사망 원인에서 급격히 높아진 것은 암이 노인병이고 한국인의 수명이 사회 후생의 증가로 급격히 증가했기 때문이지, 도시화나 산업화로 인해 발암 물질에 노출이 증가했다고 보기에는 무리가 있지 않을까 싶다.



올바른 가설이 데이터 활용의 근간


물론, 공포는 현대 사회에서 커다란 상품이고 공포를 팔아서 먹고 사는 산업들은 동질적인 대상 간 비교(apple to apple)가 아닌 apple to orange 비교로 혼을 빼놓으려 할 것이다. 물론 나도 세부적인 내용은 모르지만, 다 사람 사는 세상인데 그렇게 무서워할 필요 있겠느냐 정도의 이야기다.


아마도 우리 유전자는 이러한 급격한 환경 변화에 자연 선택이 적용되기에 시간이 짧았고, 40살 이후에 어떻게 살아야되는지를 모른다. 그러니, 40살 이후에 주사위의 모서리가 급격히 닳기 시작했을 것이다. 노인병보다 40살 이전에 사자가 다가오는 걸 알아채거나, 추위를 피하는 것에 더 많은 발전이 있었을 테니.


이런 가설을 가지고 데이터를 모아야 한다. 일단 데이터부터 모아 보고 뭔가 건질거라는 기대를 하면 안된다. 다행히 일로 하는 것도 아닌 이런 문제는 내가 데이터를 찾거나 아니면 직접 측정하여 구축할 필요 없이, 구글에서 검색하는 걸로 족하다. 그리하여, 구글에서 나이와 암 발병과의 관계를 검새하고 얻은 그래프는 첨부한 것과 같았고, 그 경향이 만족스러웠다.

짜잔!

다시 말해, 아무 근거도 없이 지푸라기라도 잡는 심정으로 데이터를 보고 뭔가를 찾으려고 하지 말고, 미리 데이터를 모으는 목적이나 가설이 명확해야 데이터가 힘을 발휘한다. 데이터의 늪에 빠져, 나중에는 내가 데이터를 보는 것인지 아니면 데이터가 나를 보는 것인지 장자의 경지에 가지 않으려면, 올바른 질문을 바탕으로 가설을 먼저 세우고 그 후에 필요한 데이터를 모으는 게 좋다.


물론 그 가설이 데이터에 영향을 끼치지 않도록 이중맹검에 의해 검증해야 하는 것은 물론이지만, 사실 회사일에서는 이중맹검이고 뭐고 그런 거 할 필요 없이 이미 발생한 데이터를 어떻게 선별하느냐에 불과하다.


p.s.


물론 그럼에도 불구하고, 암 발병 예방과 치료를 위해 노력을 해야 마땅하다. 내가 지적하고 싶은 것은 사리에 맞지 않는 이유로 공포팔이를 할 필요까지는 없고, 사이비처럼 굴 필요 없이 좋은 목적을 달성할 수 있다는 것이다.


놓치지 말아야 할 태그

#이효리

    많이 본 TOP3

      당신을 위한 1boon

        더보기