통계의 미학
최제호 지음 | 동아시아
최제호 지음
동아시아 / 2007년 11월 / 305쪽 / 13,000원
1. 데이터 수집의 중요성
여론조사로 대통령을 결정한다.
2002년 16대 대통령 선거에서 노무현 후보와 정몽준 후보가 여론조사를 통해 후보 단일화를 이룩하였다. 여기서 우리는 의문을 품을 수 있다. 대선 후보 결정처럼 중대 사안을 수천만 명의 유권자 중 겨우 2천명을 조사해서 결정하는 것은 너무 우연에 맡기는 것이 아닌가 하고 말이다. 이런 의문을 해소하기 위해서는 대수의 법칙이라는 통계학의 원리를 살펴보아야 한다. 대수의 법칙에서 중요한 것은 우리가 웬만큼만 조사를 하면 전체 대상의 수에 관계없이 전체 대상에 대해 충분히 우수한 예측을 할 수 있다는 것이다.
2002년 단일화 여론조사에 이를 적용해서 설명해 보자. 당시 전체 유권자 수는 3천만 명, 이회창 후보 1천만, 노무현 후보 8백만, 정몽준 후보 8백만, 기타 4백만의 지지자가 있다고 하자. 이때 이 후보 지지자를 제외하면 2천만 명이 남는다. 이중에서 2천 명을 뽑는다면, 노무현 후보 지지자만 뽑힐 수도 있고, 반대의 경우도 있다. 그렇지만 '임의로'라는 원칙에 맞게 공평하게 뽑았다면, 그럴 가능성은 전혀 없다. 2천만 명 중에서 무작위로 뽑힌 2천 명 중에 노무현 후보 지지자의 비율은 원래의 비율에 근접하여 40%로 집계된다. 여기서 40%의 정답에서 土2.19%를 넘을 정도로 지지자가 적게 또는 많이 뽑히게 되는 경우는 5% 정도이다. 이럴 때 우리는 유의수준 95%에서 土2.19%의 오차 한계를 가진다고 표현한다.
모집단이 크다고 하더라도 이를 잘 대표할 수 있는 표본을 설정하고, 이 표본이 일정 수 이상이 되면 우리는 이 표본으로도 충분히 모집단을 잘 예측할 수 있다. 우리가 신문에서 보는 선거 관련 또는 정책에 대한 지지 여부 등의 설문조사 결과에서 조사 인원수를 보면 1000~2000명 이내이다. 이 정도의 인원수로도 충분히 알 수 있다는 점을 이제 독자들은 이해할 수 있을 것이다.
EBS 수능 강의는 듣는 사람은 누구인가
EBS 수능 강의와 관련하여 교육부는 2007년 2월 전체 고교생 중 68%의 학생이 수능방송을 활용하고 있고 이를 통해 사교육 경감효과가 있다고 주장하였다. 이에 한 국회의원이 EBS의 인터넷 서비스 접속자 현황 자료를 분석한 결과 학생들이 인터넷 강의를 평균적으로 11.3%만이 듣고 있다고 발표하였다. 이는 교육부가 발표한 결과와 약 6배 차이가 난다. 왜 이런 현상이 발생하는 것일까?
먼저 국회의원은 "주 당 한 번 이상 EBS에 접속해 강의를 시청한 회원은 평균 14만 명으로 전체 고교생의 10분의 1수준"이라고 주장하였다. 이에 대해 교육인적자원부는 자신들이 발표한 자료는 "조사 시점에 사용빈도에 관계없이 응답자가 EBS를 활용하고 있는가에 대한 응답(개인별 인터넷 동영상 시청, TV 시청, 학교에서 단체 시청)의 평균치라고 발표했다. 수능방송 이용자에 대한 기준이 서로 틀린 것이다. 국회의원의 기준은 매우 각박한데 비해 교육부의 기준은 매우 폭이 넓다. 대부분의 집단은 자신의 성과를 수치로 표현할 때 되도록이면 어떻게 하면 좀 더 큰 수치로 만들 수 없나를 고민한다. 따라서 어느 성과를 수치로 표현한다면 이 수치가 나오게 된 과정, 즉 수치의 운영정의가 합리적인가를 따져보아야 한다.
이명박과 박근혜, 왜 설문 문항을 놓고 대립했나
자료를 얻는 방법은 크게 관측, 조사, 실험으로 나눌 수 있다. 어느 경우이든 현상은 측정이라는 과정을 거친 후에 자료의 형태로 우리에게 주어진다. 같은 대상을 관찰하는데도 다른 측정 방식을 사용한다면 다른 값을 가지는 수치가 나온다. 측정을 하여 자료 수집을 할 때는 측정 표준이 정해져 있어야 한다. 학교 다닐 때 과학 시간에 비커의 물의 눈금을 읽는 방법을 배우는 이유는 동일한 방법으로 눈금을 읽지 않는다면 사람들이 측정한 수치를 믿을 수 없게 되기 때문이다. 관찰뿐만 아니라 조사, 이를테면 설문조사 방식에서도 조사 결과의 신뢰도와 자료의 가치를 높이기 위해서는 일정한 조사 표준을 지켜야 한다.
설문조사 문항의 문구는 때로 중요한 정치적 사안에서 첨예한 줄다리기의 대상이 되기도 한다. 2007년 한나라당 대통령 후보 경선이 좋은 사례가 될 수 있다. 이명박-박근혜 후보는 박빙의 승부여서 여러 경선 규칙 결정에 매우 예민하였는데, 그중 하나가 설문 문항이었다. 이 후보측은 "차기 대통령 후보로 누구를 더 선호하느냐?"는 선호도 방식을, 박 후보측은 "내일 투표를 한다면 누구를 지지하겠느냐?"는 지지도 방식을 주장하였다. 이 둘의 차이는 뭘까?
설문 응답자가 어떤 후보의 적극적 지지자라면 두 후보 중에 선호자와 지지자에 대한 물음에 같은 반응을 보인다. 그러나 적극적 지지자가 아닌 경우라면 문항 차이에 따라 응답이 달라진다. 선호도를 질문할 경우에는 A후보라고 대답하지만, 지지 여부를 질문할 경우에는 후보가 없다는 무응답을 선택한다. 두 후보가 각기 다른 방식을 채택한 이유는 지지자의 성향 차이 때문이다. 박 후보측의 지지자들은 적극적인 지지자가 많은 반면, 이 후보측의 지지자들은 소극적인 지지자가 많다고 알려져 있다. 설문문항에 따라서 상대방의 표를 줄이고 자신의 표를 늘리는 것이 가능하기 때문에 설문문항의 결정 과정에 자신이 유리하도록 양측이 노력한 것이다.
2. 다양성의 통찰
평균의 시대가 가고 있다
최대 50% 할인. 흔히 볼 수 있는 광고문구이다. 여기에서 보면 최대란 용어가 소비자들에게 혼동을 불러일으키고 있다. 상품을 할인 판매할 때 판매자는 각 상품을 구분하여 할인 폭을 정하게 된다. 재고가 많은 상품은 할인 폭을 높일 것이고, 그렇지 않은 상품에 대해서는 할인 폭을 작게 가져간다. 그리고 유리한 말만 큰 글씨로 광고하거나 최대라는 말을 사용한다. 소비자는 이럴 때 "내가 원하는 상품은 무엇인데, 그것의 할인율은 얼마인가?"라고 판단하는 것이 현명하다. 보통 주위에서 들어보면 할인 기간의 할인 상품에 대해 이런 말을 한다. "내가 원하는 것은 언제나 할인 안 해서 못 샀어요."
예매율 순위 1위. 영화에 관심이 있는 독자라면 이런 광고를 많이 봤을 것이다. 광고의 예매율 순위에 붙은 단서를 보자. 우선 2006년 4월하고도 셋째 주다. 1년에 보통 개봉 영화 수는 200여 개, 그것을 52주로 나누면 평균 4개이다. 4개 중에 1등이 그렇게 자랑할 만한 것인가? 그래도 많은 사람들의 인상에는 예매율 순위 1위라는 말만 남는다. 여기에 더해 마케팅에서 무척 약세인 영화라면 앞에 다른 단서가 붙기도 한다. 대형 예매 사이트 중 하나를 선정하여 앞에 '티켓링크 예매 순위'라는 단서를 붙인다. 그리고 가끔 영화사에서 그런 사이트들에 단체 구매를 하기도 한다. 적은 투자로 작은 시장을 왜곡시키고, 작은 시장임을 교묘한 말로 감추어서 광고효과를 볼 수 있는 것이다. 이런 사례들은 평균을 무시하고 자신의 강점만을 부각시키는 광고의 사례이다.
주어진 자료들을 대표하는 값으로 가장 유명하고 많이 활용되는 것이 평균이다. 한 집단을 평가할 때 또는 다른 집단과 비교할 때 평균은 유용한 수단이 된다. 그러나 평균이 대상을 잘 반영하는 대표값이라는 공감이 이루어지기 전까지는 전체 자료를 먼저 검토하는 것이 필요하다. 그렇지 않고 평균만으로 모든 것을 결정할 경우 여러 문제가 발생할 수 있다.
미국 일반 가구당 평균 가족 수는 3.6명이라고 한다. 이런 통계적 평균에 맞추어 건축업자들은 2.4명의 가족을 대상으로 하는 주택을 짓는다. 하지만 평균적 가족 수에서 벗어나는 가족도 상당수에 달한다. 통계에 의하면 미국에서는 3인이나 4인 가족이 전체의 45%에 불과하며 1인 가족이나 2인 가족이 35%, 5인 이상 가족이 20%에 달한다. 건축업자들에게 변명의 여지가 없는 것은 아니다. "우리는 평균적인 가족을 위한 평균적인 가옥을 짓는다"라고 말할 것이다. 물론 발 빠른 건축업자들이 그런 현실을 강 건너 불구경 하듯 하지도 않을 것이다. 하지만 이 사례는 평균의 개념이 어떤 단점이 있는지를 잘 설명하고 있다.
아파트 값에 얽힌 패러독스
몇 년 간의 부동산 가격 상승으로 국민들의 걱정이 많다. 이런 가운데 2007년 언론은 '아파트 거래량 하락', '평당 가격 서울 12.2% 하락'의 내용을 정부 발표를 근거로 보도하였다. 국민들 입장에서는 환영할 만한 소식이 아닐 수 없다. 하지만 보도내용을 자세히 보면 아리송한 통계 숫자의 오용이라는 느낌을 지울 수 없다. 당시 보도는 "2007년 1월 거래된 전국 아파트 평당 가격이 556만원으로 지난해 10월 739만원 보다 27.3% 떨어졌다"는 것을 핵심 논조로 하고 있다. 실패를 거듭하던 정부의 부동산 정책이 어느 정도 성공한 것이라 생각할 수 있다. 하지만 전국적으로 24.7% 하락, 서울 12.2% 하락했다는 말에 동의하는 시장 참여자는 없었다.
논란이 증폭되자 정부관계자는 "실제 거래된 아파트의 평당 가격이 하락했다고 해서 전체 아파트 값이 떨어졌다고 볼 수 없고, 다만 평당 평균 가격은 같은 아파트를 대상으로 한 것은 아닐지라도 시장 움직임을 판단하는 간접적인 기준이 될 수는 있다"고 말해 논란을 무마하려 했다. 하지만 전문가들은 "무리한 가격 분석보다 거래량 추이를 통해 시장을 평가하는 게 바람직하다"고 말해 논란의 여지가 여전히 많음을 보여주었다.
각각의 가중치를 고려하지 않는 평균은 현상을 제대로 이해하는 데 문제를 야기한다. 정부는 각 월 거래분 가격 평균 간 단순 비교를 통해 아파트 가격이 하락했다는 발표를 하였다. 다시 말해 2006년 10월과 2007년 1월 각각의 기간 동안 전체 아파트 거래 금액의 총합을 거래 건수로 나눈 숫자를 단순 비교한 것으로 보인다. 그러나 이런 계산법에서는 비싼 아파트와 싼 아파트의 거래 감소량 폭의 차이가 평균 단가의 왜곡을 만들어낸다.
다시 말해 전국(24.1%)과 비교해 상대적으로 비싼 서울의 비율(10.3%)이 많이 줄었으므로 전국 평균 가격의 하락 폭이 컸던 것이다. 하지만 단 3개월 사이에 24%가 하락한 아파트 단지가 있을까? 눈을 씻고 봐도 없을 것이다. 그렇다면 서울의 경우 왜 거래가 많이 줄었을까? 이는 부동산 대책 중 총부채 상환비율 제한이라고 불리는 수입 대비 주택담보 대출 금액의 제한이 원인이었다. 이런 제도가 시행됨에 따라 고가 아파트의 거래건수는 줄고, 이것이 아파트 평당 평균 거래가격이라는 지수를 지나치게 떨어뜨린 것이다.
평균은 편리한 반면 사용하는 데 주의를 요하는 도구이다. 그래서 어떤 지표를 계산하는데 평균이 많이 쓰이지만 적절하지 않는 사용은 지표를 계산하는 데 필요한 노력의 양과는 상관없이, 사실을 보여주지 않는 숫자놀음의 지표를 만들어낸다.
3. 비교 그리고 관계
좋은 꿈을 꾼 사람이 복권에 당첨된다고?
우리가 어느 수치가 크다 작다를 이야기할 때는 언제나 비교 대상과의 비교를 통해서 한다. 분석이란 단어 앞에는 일반적으로 '비교'라는 단어가 생략되어 있다. 이런 우화가 있다. 누군가 마당에 나무 막대기를 가지고 선을 크게 그어 한문으로 일(-)자를 쓴 뒤, 사람들에게 글자를 건드리지 말고 작게 만들어보라고 하였다. 사람들이 어리둥절하고 있을 때 한 영특한 소년이 그 글자 위에 더 큰 일자를 그렸다. 이를 통해 앞의 일자는 작은 일자가 되었다. 보통 어떤 조건에서 어느 결과가 발생한다고 주장하는 것은 조건과 결과의 연관성을 나타낸다. 이때 조건이 충족되었을 때와 충족되지 않았을 때의 결과의 비교를 통해서 조건과 결과와의 관계를 제대로 분석할 수 있다.
한 신문에서 로또에 당첨된 사람과 그들이 꾼 꿈에 대하여 그럴듯한 통계치를 인용하여 꿈과 당첨 사이에 모종의 연관관계가 있는 것처럼 기사를 낸 적이 있다. 로또 1등에 당첨된 사람 250명을 대상으로 설문조사를 했더니 110명(44%)이 길몽을 꾸었다는 것이다. 여기서 주장하는 것은 다음과 같이 정리된다. 주장 ① 복꿈을 꾼 사람은 거의 복권을 산다. 주장 ② 복꿈을 꾼 사람은 당첨 확률이 높다.
주장 ①을 확인하기 위해서는 복권을 산 사람에게 꿈을 꾸었는지를 물어보는 것과 함께 복권을 안 산 사람 중에서 복꿈을 꾼 사람이 얼마나 되는지도 알아보아야 한다. 하지만 복권을 안 산 사람에게 복꿈 여부를 확인하는 것은 쉽지 않다. 그렇다고 복권을 산 사람에게만 물어봐서 "복꿈을 꾸는 사람은 복권을 산다"는 가설을 확인하려는 것은 잘못된 절차이다. 그래서 엄밀한 정밀성을 요구하는 과학적인 논문에서는 이런 형식의 주장을 쉽게 하지 않는다.
주장 ②를 보자. 그럼 뭔가 좋은 꿈을 꾸면 재수가 좋다는 말이 맞는 것일까? 다음과 같은 표를 만들어 보자. 즉 로또에 당첨된 사람 외에 구입 후에 당첨이 안 된 사람을 포함시켜 생각해 보자.
여기서 우리는 꿈이 영험하다 안 하다의 비교를 어느 것으로 판단해야 할까? 44%와 56%를 비교해야 하는가? 아니면 각각의 복권 당첨 확률인 p1과 p2를 비교해야 하는가? 정답은 각각의 복권 당첨 확률을 비교해야 한다. 즉 꿈을 꾸었을 때의 당첨 확률이 꿈을 안 꾸었을 때의 당첨 확률보다 큰 때에만 꿈과 복권 당첨과의 연관성이 성립하게 된다. 예를 들어 p1=22%, p2=28%라는 조사결과가 나온다면 주장 ②는 틀린 것이 된다. 이처럼 적정한 비교의 대상과는 비교가 없이 결과만을 비교한다면 잘못된 결론에 이르게 된다.
복잡하고 아리송한 인과관계 분석
어떤 인자의 조건에 따라 대상들의 결과가 차이가 났을 때 그것을 어떤 인자의 효과 또는 영향이라고 부른다. 예를 들어 "성직자들에 대한 과세는 종교의 세속화를 가져올 것이다"라는 것도 어떤 인자(과세)가 결과(세속화)에 영향을 미친다는 주장이 되고, 이런 것들이 많이 모여서 쌓이고 논리가 정밀해지면 그것은 하나의 이론이 된다. 어떤 이론에 따르면 이런 결과가 나와야 하는데 하고 생각했는데 실제로 현실에서는 그렇지 않은 경우도 있다. 따라서 이런 이론들이 어떤 특정 상황에서 실제로 원인과 결과와의 관계를 적절히 설명하였는가는 관찰을 통한 확인이 필요하고, 이를 위한 방법들이 많이 모여 있는 것이 통계학이다.
이때 원인과 결과에 대한 주장을 확인한다는 것은 그리 단순하지 않다. 우선 현실에서는 여러 인자의 영향이 우리의 관심이 있는 결과와 동시에 작용하므로, 어떤 결과에 대해서 어떤 인자의 영향이라고 꼭 집어 말하기가 조심스럽다. 그래서 사회과학에서는 특정 이론을 전개할 때 '다른 조건이 같다면'이라는 비현실적인 가정을 두기도 한다.
독일에서는 아이들이 "아기는 어떻게 생기는 거야?"라고 물으면 부모들이 황새가 아이들을 물어다 준다고 답하는 풍습이 있다. 그런데 어떤 사람이 이 풍습을 실제로 조사하여 확인하였다고 한다. 그 사람은 여러 도시를 대상으로 도시 근처에서 발견되는 황새의 수와 출생아 수를 조사하였다. 그 결과 황새의 수가 많은 도시에서 출생아 수보다 많은 경향으로 관찰하였다고 한다. 그렇다면 황새의 수와 출생아 수는 비례하는 것인가?
결과변수인 출생아 수의 차이를 황새의 차이로 설명할 수 있을까? 거꾸로 생각을 해보자. 황새를 모으면 마을 인구가 늘어날까? 그렇지 않다. 속담처럼 황새가 아이를 가져오는 것이 아니라, 숨은 원인이 있는 것이다. 도시가 발전하면 인구(특히 젊은 인구)유입이 증가하고 그에 따라 출생아 수가 증가