빅데이터를 지배하는 통계의 힘
니시우치 히로무 지음 | 비전코리아
빅데이터를 지배하는 통계의 힘
니시우치 히로무 지음
비전코리아 / 2013년 7월 / 296쪽 / 15,000원
제1장 빅데이터, 통계학에서부터 시작하라
실생활과 밀접한 통계 리터러시
오늘날 우리는 ‘읽고 쓰기 능력(literacy)’을 기본으로 갖춰야 하는 것처럼 통계학적 사고방식 또한 당연히 알고 있어야 하는 시대에 살고 있다. 통계학적 리터러시가 없으면 사업적ㆍ개인적으로 큰 결정을 제대로 내리지 못할 위험이 크다. 읽고 쓰기를 못하면 계약서나 법률 내용을 알 수 없는 것처럼 통계 리터러시가 없으면 확률이나 데이터를 이해할 수 없기 때문이다. 우리가 내기를 할 때 즐겨 사용하는 사다리타기 놀이도 얼핏 보면 공정해 보이지만 실제 시뮬레이션을 해보면 선택에 따른 확률차이가 크다. 내가 데이터 분석을 해준 어떤 기업은 습관처럼 모든 고객에게 DM(직접 메일)을 발송한다. 그런데 어떤 고객에게는 보내고, 어떤 고객에게는 보내지 않는 최적 선택을 하는 것만으로도 6% 매출 증가를 이루었다. 그 예상 매출 증가액은 60억 엔에 달한다. 이것이 통계학이다. 21세기를 사는 우리가 통계학을 모른다면 60억 엔가량의 돈이 순식간에 허공으로 사라져버리는 것이다.
답을 알려주는 실용적인 학문, 통계학
회사에서 중요한 프로젝트를 결정할 때 베테랑 사원들의 경험과 감에 의존하는 경우가 많다. 그런데 여러분의 의사결정에 10만 명의 목숨이 좌우된다고 가정해보자. 이 순간에도 경험과 감에만 의존하여 결단을 내리겠는가? 필자의 전문 분야인 공중위생, 사회의학, 보건행정 같은 영역에서는 지금 이 순간에도 이런 결정이 내려지고 있다. 일본에서는 해마다 약 35만 명, 10만 명이 각각 암과 심장병으로 죽고 있으며, 3만 명 정도는 자살을 한다. 통계를 이용해 적절한 예방법이나 치료방법을 모색하면 많은 사람이 목숨을 건질 수 있다. 원인을 모르는 전염병을 막기 위해 연구하는 학문을 ‘역학(疫?)’이라고 한다. 세계 최초의 역학 연구는 19세기 런던에서 콜레라를 대상으로 이루어졌다. ‘역학의 아버지’라 불리는 영국의 존 스노는 통계적 방법을 사용하여 콜레라 퇴치법(콜레라에 오염된 물을 사용하지 말 것)을 제시했다. 이후 역학 개념은 의학 전반에 걸쳐 중요한 요소로 자리 잡았다. 오늘날 역학 연구 결과는 ‘암을 없애려면 흡연율부터 낮춰라!’, ‘심장병을 줄이려면 혈압부터 관리하라!’라고 확실하게 답을 알려준다. 그에 따라 인간의 수명은 50년 전과 비교해 엄청나게 늘었다.
IT와 통계학의 기막힌 결혼
과거의 통계학 교육은 칠판과 분필, 종이와 펜만으로 수식을 이해하고 수십 건 정도의 데이터를 손으로 계산하고 분석하는 방법으로 이루어졌다. 그러나 지금은 간단한 프로그램이나 통계해석 툴을 조작해 대규모 데이터도 쉽게 분석할 수 있다. 통계학의 기본 방식이나 기법은 수십 년 전에 대부분 완성되었지만 그것을 누구라도 언제든 손쉽게 사용할 수 있도록 만든 것은 20세기 말 시작된 ‘IT 혁명’이다. 이제 통계학자들은 수학적 능력뿐만 아니라 컴퓨터 활용 기술에도 정통해야 살아남을 수 있게 되었다. 지금은 데이터 양이 아무리 방대해도 어떤 계산이든 할 수 있다. 그렇기 때문에 통계해석이 중요해졌다. 막대한 정보를 단순히 기록하고 보관만 해서는 아무 도움이 되지 않는다. 그래서 통계해석이 빅데이터, 비즈니스 인텔리전스 등의 유행하는 단어로 바뀌어 사용되고 있는 것이다.
제2장 정보비용을 대폭 줄여주는 통계
통계가가 본 빅데이터 광상곡
자주 받는 상담 중에 이런 것이 있다. “회사에는 테라바이트에 달하는 방대한 데이터가 축적되어 있다. 그렇다면 이제 뭔가 알 수 있어야 하는 것이 아닌가?” 이 질문에 대해 “무엇을 알 수 있는지도 모르면서 왜 그런 투자를 했습니까?”라고 되묻고 싶다. 기업이 고성능 서버로 시스템을 구축하려면 많은 돈이 든다. 만약 여러분의 회사가 지금 일상 업무에 드는 비용을 절약하고 서비스의 안정성을 높이기 위해 빅데이터 기술에 투자하려고 한다면 하다못해 이 책을 10쪽 정도라도 읽고 나서 했으면 한다. 통계학의 기초 지식만 알더라도 데이터에 바탕을 둔 올바른 경영 판단을 할 수 있기 때문이다.
뉴딜정책을 뒷받침한 통계가들
1930년대 대공황 시기에 미국 정부는 뉴딜정책을 시행했다. 뉴딜정책은 불황에서 벗어나고 실업률을 낮추는 것이 목적이므로 먼저 정확한 실업자 수부터 파악해야 했다. 이를 위해 연방의회는 모든 국민을 대상으로 하는 전수조사 방법을 제안했다. 하지만 최신 통계학을 배운 젊은 관료들은 ‘임의(무작위)로 뽑은 전체 인구의 0.5% 정도를 대상으로 표본조사’를 하자고 했다. 먼저 실행된 방법은 표본조사였다. 이를 통해 실업률 외에, 상위 10%가 전체 소득의 40%를 차지한다는 사실까지 알아냈다. 윗사람들은 이 결과를 믿을 수 없다고 보고 전수조사를 지시했다. 하지만 많은 실업자가 조사에 참여하기를 꺼려했고, 그 결과 실업자 수가 낮게 평가된 잘못된 데이터가 얻어졌다. 반면 표본조사는 그 후 10년 동안 검증을 거듭했는데도 놀라우리만치 정확한 결과라는 것이 밝혀졌다. 비현실적인 전수조사와 전인구의 0.5%만을 대상으로 한 표본조사를 비교할 때, 어느 쪽이 비용이 덜 들고 신속하게 이루어질지는 명백하다. 이처럼 제대로 대처하기 어려울 정도의 데이터가 존재할 때 적절한 표본조사만 이루어지면 적은 비용으로 충분히 필요한 정보를 얻을 수 있다. 이것은 80년 전이나 지금이나 본질적으로 바뀌지 않은 진리이다.
무작위로 뽑힌 전인구의 0.5%를 조사한 결과 그 100%가 실업자였다고 해도 나머지 99.5% 전원이 실업자가 아니라면 전체 실업률은 0.5%밖에 되지 않는다. 그런데도 ‘왜 표본조사 결과만 놓고 전체가 실업자라는 결론을 내려야 하는가’라는 반론이 제기된다. 이에 대한 통계 전문가의 대답은 ‘그럴 일이 생길 가능성이 없을 리는 없다. 그런데 그런 일이 생길 가능성이 얼마나 되겠는가’이다. 10만 명의 고객 데이터로부터 남녀별 비율을 조사한 결과 고객 중 여성이 70%라고 가정해보자. 이때 표본 수가 100명이면 표준 오차는 4.6%가 되어 ‘고객 중 여성이 차지하는 비율이 70%’라는 결과가 얻어져도, 실제로는 ‘여성 비율이 61∼79%라 생각해도 무방하다’는 해석이 가능해진다. 그러나 표본이 1000명 있으면 표준 오차는 1.4%가 되어 ‘여성 비율이 67∼73%라 생각해도 무방하다’는 결론이 나온다. 표본 수를 계속 늘려도 표준 오차는 그다지 적어지지 않는다. 참고로 표본이 1만 명일 때 표본오차는 0.4%, 2만 명이라 해도 0.3%에 그친다. 이 결과와 고가의 데이터 처리 서버에 투자해 얻어진 “여성 비율이 정확히 70%입니다.”라는 결과를 비교할 때, 과연 어디에 돈을 쓰는 게 올바른 판단일까?
제3장 오차와 인과관계가 통계학의 핵심이다
나이팅게일식 통계의 한계
“비즈니스에서 구체적인 결과를 이끌어내려면 다음 세 가지 질문에 답할 수 있어야 한다. (질문 1) 어떤 요인을 변화시켜야 이익이 향상될까? (질문 2) 그런 변화를 일으키는 행동이 실제로 가능한가? (질문 3) 그에 따르는 비용이 이익을 상회할까?” 여러분이 빅데이터를 이용하여 하고자 하는 분석이 위의 3가지 질문에 대답할 수 없다면 쓸데없는 일만 벌인 셈이 된다. 즉 데이터의 단순집계는 별다른 도움이 되지 않는다. 평균값을 구하고 백분율을 계산하는 고전적인 통계는 19세기 초반 세계 각국에서 성행했다. 나이팅게일도 통계를 활용했다. 그녀는 참전용사의 사인을 집계해본 결과 전투 중 입은 부상 때문에 죽은 병사보다 부상 후 균에 감염되어 사망하는 병사의 수가 압도적으로 많다는 사실을 밝혀냈다. 그녀는 이 데이터를 바탕으로 ‘참전병사, 나아가 국민의 생명을 지키고 싶다면 병원을 청결한 상태로 유지하라!’고 주장했다. 하지만 그녀는 병원을 청결하게 유지하면 얼마나 사망자가 줄지, 어느 정도 목숨이 구해지는지에 대해서는 아무것도 대답하지 못했다. 이런 질문에는 20세기에 발달한 현대 통계학의 기법을 사용해야 한다.
‘60억 엔을 버는 비결’이 담긴 리포트
A사는 1천만 명 이상 고객을 대상으로 1000억 엔 이상의 연매출을 올리는 기업으로, 고객 100만 명의 개인정보를 담은 데이터를 활용하고 있다. 동사는 판촉활동으로 임의로 뽑은 일부 회원에게 연간 4번에 걸쳐 사은품을 곁들인 DM 총 30만 통을 발송했다. 발송비는 한 통당 100엔으로 연간 3천만 엔이 든다. 효과를 알아보기 위해 임의 표본집단 2만 명을 대상으로 3개월 단위로 분석했더니 DM이 발송된 그룹의 평균 구매액은 2300엔, 발송되지 않은 그룹은 1800엔이었다. 결론적으로 DM을 발송하면 3개월당 500엔의 매출 증가가 예상된다. 그렇다면 DM을 표본집단에 있는 모든 회원에게 발송하면 어떨까? 분석 결과 DM만 적극적으로 보내도 연간 매출이 약 1.2배 증가한다는 결과가 나왔다. 이를 등록된 회원 모두에게 적용시킨다면 어떻게 될까? 매출의 10%를 차지하는 100만 명 회원의 매출이, 전원에게 DM을 발송하는 단순한 방법으로 1.2배가 증가되어, 회사 전체 매출이 2% 증가할 것이다. 1000억 매출의 2%이니 20억 엔 정도 느는 것이다.
참고로 내가 실제로 작성한 기업 리포트에는 단순히 ‘DM 발송만 늘리면 매출이 증가한다’는 식의 내용이 담겨 있지 않다. ‘DM을 발송하면 매출을 올릴 수 있는 고객과 그렇지 못하는 고객의 차이’ 혹은 ‘고객의 매출을 유도하는 DM과 그렇지 못하는 DM의 차이’를 설명하고 구별 법칙을 분명히 밝혔다. 이 법칙에 따라 DM을 발송하면 발송량 자체는 거의 변화가 없어도 6% 정도의 매출 증가가 예상된다. 60억 엔의 돈을 버는 리포트인 셈이다. 이처럼 실제 데이터의 총체적인 비교를 통해 차이를 개략적으로만 알고 있더라도, 구체적인 이익과 직결되는 수치가 뒷받침되면 ‘지금 최우선으로 해야 할 일이 무엇인가’ 하는 전략목표가 명확해진다.
오바마가 선거에서 승리한 이유
최근 오바마 캠프가 선거운동에 사용했다는 A/B 테스트에 대한 관심이 높다. 오바마 캠프는 오바마닷컴을 방문한 유권자를 대상으로 어떤 그림이나 메시지를 노출하느냐에 따라 선호도가 어떻게 달라지는지 측정해 유권자를 타겟팅하여 새로운 선거 전략을 짰고, 이는 결과적으로 오바마를 재당선시켰다. 어떤 기업에서 기존의 A패턴 디자인 사이트와 개선된 B패턴 디자인 사이트 방문자 10만 명의 접속 기록을 분석한 결과, A 패턴에서는 구매율이 9.5%인 데 반해 B 패턴에서는 9.6%로 소폭 올랐다고 하자. 새로운 디자인을 적용했을 뿐인데 매출이 약 1.01배 올라갈 가능성이 보이는 것이다. 하지만 유감스럽게도 이 차이가 의미가 있는 차이인지, 아니면 오차인지는 알 수 없다. 이처럼 ‘실제는 아닌데 오차나 우연에 의해 데이터와 같은 차이가 생길 확률’을 통계학 전문용어로 ‘p값’이라고 한다. p값이 작을 때(5% 이하) 과학자들은 이 결과는 우연히 얻어졌다고 생각하기 어렵다고 판단한다. 예를 들어 앞의 사례에서 p값이 4.77%라고 가정하면 이것이 실제로 매출 증가로 이어질지 알 수 없다는 의미이다. 0.1%의 차이가 매출 증가로 이어진다는 것을 실증하고 싶다면 각 패턴별로 총 100만 명의 데이터를 구해야 한다. 이런 계산은 통계학을 조금만 알면 누구나 할 수 있다. 무턱대고 빅데이터만을 주장할 필요도 없지만 의미 있는 해석이 가능한 최소 표본의 수는 알고 있어야 한다.
한 청소년 보호단체에서 폭력게임과 소년 범죄와의 인과관계를 알기 위해 부모를 대상으로 설문조사를 진행했다. 그 결과 범죄를 저지른 아이들은 폭력적인 게임을 즐기는 것으로 나타났다. 그러나 이를 근거로 게임을 규제한다고 범죄율이 낮아질지는 장담할 수 없다. 게임에 영향을 받지 않더라도 본래 폭력성을 갖고 태어난 아이가 있을 수도 있고, 그런 아이일수록 폭력적인 게임을 즐기고 또 범죄에도 쉽게 빠져든다는 인과관계의 방향이 진리일 수도 있기 때문이다. 이처럼 한 시점의 데이터만 보고서는 인과관계의 방향을 가늠할 수 없다. 비교집단이 동일한 조건에 놓여 있지 않기 때문이다. 즉 ‘공정하지 않기 때문’이다. 이러한 문제에 대해 통계학은 두 가지 해결법을 제시한다. 하나는 부모의 성격과 가정환경, 본인의 심리적 경향 등 관련 있는 조건을 가급적 계속 추적 조사하고 측정된 조건에 한해서 공정한 비교를 하는 방법이다. 다른 하나는 정확한 해석을 위해 본래의 데이터를 어떻게 다룰 것인가의 시점으로 돌아가 조건을 최대한 공정하게 갖춰놓는 방법이다.
제4장 ‘임의화’라는 최강의 무기 활용하기
우유가 먼저인가, 홍차가 먼저인가?
폭력적인 게임과 범죄율의 예처럼 두 항목이 통계적으로 강한 관련성을 보인다 해도 전자가 후자의 원인인지는 알 수 없다. 더욱이 제3의 요인(예: 열악한 가정환경)이 그 둘에 영향을 미치는지의 여부는 단순 크로스집계와 p값만으로는 밝혀낼 수 없다. 하지만 고도의 해석기법을 이용하면 이야기는 달라진다. 완벽한 수준은 아니지만 무엇이 원인이고 결과인지, 그리고 원인을 제어하면 얼마만큼 결과를 개선할 수 있는지 명확히 알 수 있다. 1920년대 말 영국, 어느 여름 오후 여러 명의 영국 신사와 부인들이 정원 테이블에서 홍차를 마실 때의 일이다. 한 부인이 밀크티를 마시면서 자신은 ‘홍차를 먼저 넣은 밀크티’인지 ‘우유를 먼저 넣은 밀크티’인지를 맛으로 구별할 수 있다고 말했다. 대다수 신사들은 부인의 말에 웃고 말았지만 그때 한 남자가 ‘그렇다면 한번 시험해보고 싶습니다’ 하며 제안을 했다. 이 남자가 현대 통계학의 아버지 로널드 A. 피셔이다. 그는 부인이 볼 수 없게 한 상태에서 여러 개의 찻잔에 서로 다른 방법으로 탄 밀크티를 준비했다. 그다음 부인에게 임의로 차를 마시고 답을 적도록 했다. 이것이 세계 최초로 이루어진 임의화 비교실험이다. 그는 부인에게 두 가지 방식의 밀크티를 임의로 마시게 하고, 어느 정도 맞히는지를 검증하였다. 그녀가 임의로 5잔을 마시고 우연히 모두 맞힐 확률은 1/32이고, 10잔을 우연히 모두 맞힐 확률은 1/1024이다. 이 정도 확률이라면 그녀에게 밀크티를 식별하는 능력이 있다고 보는 것이 자연스러울 것이다.
임의화 비교실험이 사회과학을 가능하게 했다
‘어떻게 하면 밀 수확량을 늘릴까?’라는 주제에 대해 농부들은 언제, 얼마나, 어떤 종류의 비료를 써야 하는지를 경험과 감으로 알고 있다. 하지만 이러한 지식은 피셔가 등장하기 이전에는 과학이 아니었다. 주의를 기울여 비료 배합을 연구한 경우와 귀찮아서 비료를 주지 않은 해를 비교해도, 때마침 기후가 좋아 후자 쪽이 풍작이 될 수 있다. 하지만 피셔는 과학적 방법론을 사용하여 이러한 문제를 다루었다. 실험을 100번 하여 100번 다 꼭 그렇지만은 않은 현상을 과학적으로 다루고자 할 때 가능한 방법이 3가지 있다. 첫째, 실제 데이터를 전혀 취급하지 않고 단지 가설이나 이런 사례가 있었다는 말만으로 이론 모델을 세우는 방식이다. 둘째, 결과가 그렇게 나타난 사례만 보고하는 방식이다. 예를 들어 멘델이 완두콩을 이용한 유전법칙을 알아보기 위해 실험 보고한 내용에서 그는 자기가 주장한 유전법칙에 딱 맞아떨어지는 완두의 데이터만 보여주었다. 셋째, 피셔가 제시한 것으로 임의화를 활용해 인과관계를 확률적으로 표현하는 방식이다. 앞에서 밀을 예로 든 것도 피셔가 밀크티 다음으로 임의화 비교실험을 적용한 대상이 밀이었기 때문이다. 그는 영국 벽촌에 있는 농업시험장의 통계가로 지내면서 이곳에서의 연구 성과를 정리해 『실험계획법』이라는 책을 세상에 내놓았다. 이 책은 한때 전 세계를 통틀어 과학논문에서 가장 많이 인용된 책으로 기록된다.
‘재봉틀 두 대 사면 10% 할인’으로 매출이 오를까
임의화 비교실험을 활용하면 적은 비용과 최소한의 위험부담으로 실수 가능성을 줄일 수 있다. 예를 들어 여러분이 취미용품을 통신 판매하는 회사에 근무하는데 부하직원이 “재봉틀을 두 대 사면 10% 할인해주는 캠페인은 어떨까요?”라는 아이디어를 제안하면 어떻게 하겠는가? ‘무슨 뚱딴지같은 소리야’라고 생각할 것이다. 하지만 이 바보 같은 착상으로 매출을 3배 끌어올린 회사가 있다. <조앤패브릭>이라는 회사에서 이러한 캠페인을 벌였는데, 결과적으로 아무도 상상하지 못했던 현상이 벌어졌다. 캠페인을 접한 고객들이 두 대의 재봉틀을 갖고 싶어 한 것은 아니었다. 하지만 원하는 재봉틀을 10% 할인된 가격에 사기 위해 일부러 이웃과 친구들을 찾아가 공동구매를 제안했다. 회사는 돈 한 푼 들이지 않고 우수한 영업직원을 고용한 셈이다. 캠페인 광고에 노출된 고객 그룹은 그렇지 않은 고객 그룹에 비해 평균 3배 이상 매출을 올려주었다. 이 두 그룹은 임의화에 의해 나누어졌으며 캠페인 광고 이외의 나머지는 모두 동일한 조건이었다. 통계학적 사고만 잡혀 있다면 비즈니스 관련 임의화 비교실험의 비용은 그다지 많이 들지 않는다. 확실한 정답이 나오지 않는 주제를 놓고 불필요한 회의를 반복하는 것보다 저렴한 매체를 통해 소규모 임의화 비교실험을 하는 편이 비용은 덜 들이면서도 신속하고 확실한 답을 얻을 가능성이 훨씬 크다.