재생목록
재생목록이 비어 있습니다.
-
-
0:00 0:00
화면 너비 (여백)
좁게
보통
넓게
최대
배경 테마
글꼴
바탕/명조
돋움/고딕
글자 크기
작게
100%
크게
줄 간격
좁게
보통
넓게

새빨간 거짓말, 통계

대럴 허프 지음 | 더불어책
· 첫째 열쇠 : 누가 발표했는가? 출처를 캐봐야 한다

무엇보다도 가장 먼저 주의하여야 할 것은 왜곡된 통계를 찾아내는 일이다. 예를 들어 어떤 실험실에서 무엇인가를 검증하였다면 그 목적이 무엇인지, 신문의 경우에는 그 목적이 바람직한 기사를 내기 위해서인지, 아니면 다른 목적이 있는지를 살펴야 한다. 그리고 누가 발표했는지에 대해서는 가령 임금 상승률 발표 같은 경우, 임금 문제로 줄다리기를 하고 있는 노조 측인지, 경영자 측인지 등등을 잘 살펴볼 필요가 있다.



직접 대놓고 거짓을 말하거나 또는 일부러 애매하게 표현하여 자신에게 유리한 쪽으로 몰고 가는 것을 찾아야만 한다. 유리한 데이터만 골라 쓰거나, 측정 단위를 뒤바꾸어 놓거나, 부적절한 측정법이 사용되어 있는 것도 찾아내야 한다. 예를 들어 중앙값을 사용해야 함에도 불구하고, 산술 평균값을 사용하면서 그저 막연하게 평균이란 말로 어물쩍 넘어가는 경우를 조심해야 한다. 또한 권위 있는 이름이 인용되어 있을 때는 그 권위자가 그 이야기와 관련되어 있을 뿐 아니라 그 사실을 지지하고 있는지도 확인해 볼 필요가 있다.



· 둘째 열쇠 : 어떤 방법으로 알게 되었는지 조사 방법에 주의해야 한다

한 신문이 1,200개의 큰 회사에 질문지를 돌렸다고 한다. 그러나 그 중 14%의 회사만이 회답을 보내왔다. 이에 대하여 이 신문은 시치미를 뚝 떼고 있었는데, 사실상 이 기사의 내용에 대하여 별로 자랑스러워할 만한 것이 아무것도 없었기 때문이다. 실상은 다음과 같았다. 조사대상자인 1,200개의 회사 중 9%의 회사는 물가를 올린 일이 없다고, 5%는 물가를 올렸다고, 나머지 86%는 아무런 응답도 하지 않았다. 회답한 14%의 회사만이 표본이 된 셈이니, 이 표본이 왜곡된 것인지를 일단 의심해 보아야 한다. 상관관계에 대해서도 그 상관관계가 정말 의미 있는 것으로 결론지을 만큼 표본의 크기가 큰지, 그리고 또 어떤 유의한 결론을 내릴 만큼 충분히 많은 사례가 있었는지를 물어보아야 한다.

· 셋째 열쇠 : 빠진 데이터는 없는지 숨겨진 자료를 찾아 보아야 한다

표본의 크기가 얼마인지 항상 알려주지는 않는다. 이런 숫자가 빠져있다면, 특히 그 출처가 중요한 관심사라면 그 통계나 조사 전체에 대하여 의심해 볼 필요가 있다. 마찬가지로 신뢰도에 관한 자료 - 확률 오차나 표준편차 등 - 가 빠져있는 상관관계는 심각하게 여길 필요가 없다. 산술평균값과 중앙값의 차이가 클 것으로 예상되는 경우에는 편차가 명시되어 있지 않은 평균값에 대하여 특별히 주의할 필요가 있다.



비교할 다른 숫자가 빠져있기 때문에 아무런 의미가 없는 숫자들이 많다. "2,800명의 몽고병 환자 중 그 절반 이상이 어머니의 나이가 35세 이상이었다." 이 기사를 제대로 이해하려면 일반적으로 여자들이 몇 살에 아이를 많이 낳는가에 관해 어느 정도의 지식이 있어야 한다. 때때로 백분율만 발표하고 실제 숫자는 빠져 있는 경우도 있는데, 이것도 얼마 안 되는 숫자를 가리기 위한 일종의 속임수이다.

· 넷째 열쇠 : 내용이 뒤바뀐 것은 아닐지 쟁점 바꿔치기에 주의해야 한다

통계를 분석할 때는 그 기초가 된 데이터와 결론 사이에 어떤 바꿔치기가 있었는지 주의해야 한다. 전혀 다른 것으로 둔갑하여 발표되는 경우가 많기 때문이다.



1952년 캘리포니아 주의 샌트럴 밸리가 보고한 뇌염환자 수는 최악으로 일컬어졌던 그 전년도의 3배나 되었다. 깜짝 놀란 주민들은 자녀들을 다른 지방으로 피난시켰다. 그러나 실제로 사망자 수를 계산해보았더니 별로 크게 증가한 것도 아니었다. 오랫동안 골칫거리였던 이 문제를 해결하기 위해 주 정부 및 연방정부 보건 당국은 다수의 관리들을 동원하여 뇌염의 진상을 조사했던 까닭에 그전 같으면 그냥 지나쳤을 수많은 경미한 증상마저도 뇌염으로 기록했던 것이다.



중국의 어느 넓은 지역의 인구는 2,800만 명이었는데, 5년 후에는 1억 500만 명으로 늘어났다. 실제로는 거의 늘어나지 않았는데도 이렇게 엄청난 차이가 난 원인은 이 두 번에 걸친 인구조사의 목적과 이에 대응하는 피조사인들의 응답 태도 때문이었다. 첫 번째 인구조사의 목적은 과세와 징병에 있었고, 두 번째 것의 목적은 기아 구제를 위한 것이었다.



· 다섯째 열쇠 : 상식적으로 말이 되는 이야기인가 살펴봐야 한다. 석연치 않은 부분은 조사하라사회보장법의 개정에 관한 청문회에서 논의되는 발언들을 자세히 들여다보면 말도 안 되는 발언들이 얼마나 난무하는지 모른다. 평균수명은 불과 63세에 불과하니 정년을 65세로 정해 사회보장계획을 세운다는 말은 그 나이 이전에 사실상 모든 사람이 다 사망해버리니 기만이고 사기라는 것이다.



이런 주장들은 주위에 사는 사람들만 둘러보아도 쉽게 반박할 수가 있지만 그것은 그렇다 치더라도 이 논지의 잘못은 63세란 나이는 태어나면서부터 평균수명을 뜻하는 것으로, 갓난아기들의 약 반수가 이 평균수명 64세보다 더 오래 살 수 있다는 예상을 무시한 것이다.



텔레비전 보급에 관한 경향 예측을 살펴보기로 하자. 미국의 텔레비전 보급 대수는 1947년부터 1952년 사이에 10,000%로 늘어났다. 이러한 경향이 그대로 다음 5년간 계속된다면 1957년에 가서 보급 대수는 수십억 대로 늘어날 판인데, 이런 일이 일어나도 큰일이겠지만 어쨌든 그때가 되면 한 가족당 소유하는 텔레비전은 40대나 된다는 계산이 된다. 이보다도 더 멍청해지고 싶다면 기준 연도를 1947년이 아니라 그보다도 더 앞선 텔레비전 발명 당시로 소급해 올라가면 된다. 그런 경우에는 아마도 각 가정당 40대가 아닌 4만 대의 텔레비전을 갖게 된다는 것까지 증명할 수 있을 것이다.언제나 의심스러운 여론조사평균은 하나가 아니다백문이 불여일견이라고? 천만에암은 조기발견으로 치료될 수 있는가? 아마도 그럴 것이다. 그러나 이를 증명하기 위해 사용된 통계숫자 중에서 가장 신뢰할 만하다는 숫자마저도 사실은 그렇지 않음을 말해주고 있다. 코네티컷 종양 등록소의 기록에 의하면 1935년부터 1941년까지 5년 동안 암환자의 생존율은 꾸준히 상승하고 있는 것으로 나타났다. 그러나 실제로 이 기록은 1941년부터 시작되었으며, 그 이전의 것은 모두 추적조사에 의한 것이었다. 환자들 중에는 코네티컷 주를 떠난 사람이 상당수 있었는데, 그들의 생존 여부는 알 수가 없었다.



통계에 있어서 가장 중요한 것은 표본을 근거로 어떤 결론을 내릴 때 그 표본이 모집단 전체를 대표하는 것이라야 한다는 사실이다. 즉 왜곡의 원인이 되는 모든 것을 제거하고 난 표본이라야 한다는 것이다. 같은 이유 때문에 신문이나 잡지 등에 실리는 상당수의 것들이 본래의 의미를 상실한 아무런 의미가 없는 쓰레기 숫자들이다.



또 한 가지 꼭 알아두어야 할 일은 표본이 왜곡되는 원인이 때로는 분명하지 않을 수도 있다는 점이다. 즉 왜곡의 원인이 무엇인지 명확히 밝힐 수 없는 경우에도 어디에선가 왜곡될 가능성이 있다면 결과에 대해 어느 정도의 의심을 품어보아야 한다는 것이다. 또 실제로도 그럴 가능성은 늘 존재하기 마련이다. 1948년과 1952년의 미국 대통령 선거결과를 보라(1948년 선거에서 거의 모든 여론조사는 공화당 후보인 듀이 뉴욕 지사의 승리를 예언했다. 그러나 막상 뚜껑을 열어 본 결과 선거인단의 표수는 민주당 후보인 트루먼 대 듀이가 303 대 189였고, 민주당의 반대세력이 옹립한 더몬드는 39표를 얻었다. 또 1952년의 대통령 선거에서는 모든 여론조사가 민주당 후보인 스티븐슨의 대승리를 예상했지만, 결과는 공화당 후보인 아이젠하워 원수가 442대 89로 스티븐슨을 눌러 대승하였다).

기초가 될 표본은 '임의추출(무작위 추출)'된 것이어야 한다. 즉 표본은 '모집단'으로부터 순전히 우연에 의해 추출되어야 한다. 모집단이란 통계적인 용어로 표본이 추출되는 전체를 말하는 것으로 표본은 모집단의 일부분이다. 임의추출인가 아닌가의 판정은 다음과 같다. 즉 모집단 안에 있는 개체들이 표본에 선택될 기회가 동일한가라는 질문을 해보는 것이다.



완벽하게 임의추출된 표본이어야만 통계적 이론에 의해 그 결론을 전폭적으로 신뢰할 수가 있지만, 완벽한 표본을 얻기가 매우 힘들 뿐만 아니라 비용이 너무 많이 들기 때문에 대부분의 경우 이를 실현할 수 없다. 때문에 여론조사라든가 시장조사 등과 같은 분야에서는 보다 경제적인 대안으로 '층별임의추출법'이라 불리는 표본을 사용한다. 이 층별 표본을 얻으려면 모집단을 이전에 알고 있는 신뢰할 만한 비율에 따라 몇 개의 그룹으로 나누어야 하는데, 이도 나누기가 쉽지 않다. 설사 이 모든 상황이 해결되었다 하더라도 어느 한 계층 안에서의 임의추출표본을 어떤 방식으로 만들 수 있는가 하는 문제가 생기게 마련이다.'평균'이란 단어는 의미가 매우 모호하여 대중의 의견을 좌우하거나 영업 행위를 위한 광고 면을 장식하기 위해 의도적으로 악용되기도 한다. 평균값이라 하더라도 그것이 어떤 종류의 평균값인지, 즉 산술평균값인지, 중앙값인지, 아니면 최빈값인지 이 중 어느 것을 말하는지 정확하게 알기 전에는 그 어떤 평균도 아무런 의미가 없다.



· 산술평균값 : 모든 숫자를 더하여 개수로 나눈 값

· 중앙값 : 크기 순서대로 나열하여 한가운데에 있는 값

· 최빈값 : 가장 많이 등장하는 값



올바르게 선택하지 않은 평균값은 실제로 아무런 의미를 지니지 못한다. 그런데 어느 경우에는 각각의 평균값이 큰 차이를 보이지 않아 사실상 이를 구별할 필요가 없는 경우도 있기 때문에 평균이란 개념에 혼란이 발생하게 된다.



사람의 키나 몸무게, 가슴둘레 등의 체위에 관한 자료들로부터 얻은 여러 종류의 평균값들은 거의 일치하고 있을 뿐 아니라 그 분포는 정규분포라 불리는 곡선에 가까운 아름다운 그림으로 나타난다. 즉 이 자료들을 곡선으로 나타내면 종 모양으로 그려지며, 산술평균값, 중앙값, 최빈값이 모두 같은 값으로 정해진다. 신장의 분포를 나타낼 때는 어떤 종류의 평균값을 쓰더라도 큰 차이는 없지만 소득의 분포를 나타낼 때는 그렇지 않다.



예컨대 어느 도시에 사는 모든 세대의 소득분포를 조사했다고 하자. 이런 조사에서 대부분은 대략 2억 원을 넘지 않는 소득을 올렸을 것이고, 예외적으로 몇몇 세대만이 이를 초과하는 고액의 소득을 올릴 것이다. 어쩌면 전체의 95% 이상의 세대가 올린 소득은 5천만 원 이하로 이를 곡선으로 나타내면 왼쪽으로 쏠린 모양으로 나타날 것이다. 이 경우의 산술평균값은 중앙값과 큰 차이를 보이게 된다. 따라서 이런 경우에는 어느 해의 '평균값(산술평균값)'과 다른 해의 '평균값(중앙값)'을 비교하는 것 자체가 아무런 의미가 없다.



회사의 사장님이나 중역들이 종업원 전체의 평균급여가 얼마라고 발표할 때 그 값에 커다란 의미를 부여할 수도 있지만 전혀 그렇지 않을 수 있는 것도 같은 이치이다. 만약 급여 평균값이 중앙값이라면 종업원의 절반은 그보다 높은 급여를 받고 나머지 절반의 급여는 그보다 낮다는 뜻이다. 그러나 만일 산술평균값이라면 그 값은 사장님의 급여 1억 8백만 원과 그보다 적은 나머지 종업원들의 급여들을 합한 평균값일 뿐이라는 것 외에는 아무 것도 알 수 없는 값이다. 따라서 '연간 평균 급여 1천 368만 원'이라고 할 때 이 숫자는 엄청나게 높은 금액의 사장님 급여와 480만 원이라는 종업원의 급여 그 어느 쪽도 해당되지 않는 터무니없이 황당한 수치이다. 그러므로 만일 당신이 평균급여라는 이름의 수치를 보았다면 항상 이런 질문부터 해야 한다. "어떤 종류의 평균값이오? 그 평균값을 계산할 때 누구까지 포함했나요?"



U.S스틸회사는 한때 종업원들의 평균주급이 1940년에서 1948년 사이에 107%나 증가했다고 발표한 적이 있었다. 물론 이는 사실이다. 그러나 1940년의 임금 계산에는 상당히 많은 수의 아르바이트와 같은 임시직의 급여까지 포함하였으니 이 거창한 증가도 실제로는 아무것도 아닌 것이다. 예컨대 당신이 어느 해에 임시직으로 1년 동안 오전 근무만 하고 다음 해에는 정식직원으로 상근하게 되었다면 당신의 급여는 당연히 2배로 늘어날 것이다. 그러나 그렇다고 하여 이 회사 전체의 임금 수준이 올라갔다고는 할 수 없다.두 개의 숫자, 미 합중국 목수의 주급과 로툰디아(이태리 북부의 공업도시)에 사는 목수의 주급을 나타내는 두 숫자를 비교해보자. 그 액수를 각각 60달러와 30달러라고 하고, 눈길을 끌기 위해 이것을 돈 자루로 표시해보자. 미국 목수가 로툰디아 목수보다 훨씬 더 부유하다는 것을 강조하고 싶다면, 30달러와 60달러의 차이를 될수록 과장해서 표시하라. 이제 미국 목수의 주급은 로툰디아 목수의 주급에 비해서 어마어마하게 크게 보일 것이다.



이것이 바로 속임수이다. 미국 목수의 돈 자루의 높이는 로툰디아 목수의 돈 자루 높이의 2배인 것은 사실이지만 동시에 그 폭도 2배이다. 따라서 그 넓이는 실제 2배가 아니라 4배이다. 숫자는 2대 1로 되어 있지만 시각적으로는 - 항상 시각적 인상이 모든 판단을 지배한다 - 4대 1이라는 느낌이 든다. 더욱 기가 막힌 것은 실제 그림이 3차원으로 나타나 있기 때문에 높이, 폭 뿐만 아니라 두께로 2대 1로 되어 있다. 기하학 책에도 나와 있듯이 서로 닮은 입체의 부피의 비는 대응하는 변의 길이의 비의 세제곱에 비례한다. 2의 세제곱은 8이므로 만약 작은 쪽 돈 자루에 30달러가 들어간다면 큰 쪽 돈 자루는 부피가 8배이므로 60달러가 아닌 240달러가 들어가 있어야만 한다. 기발한 독창성을 발휘한 도표는 바로 이를 노린 것이다. 말로는 그저 2배라고 얼버무리면서도 실제로는 8배라는 엄청난 인상을 심어놓는 것이다. 이 방법은 수많은 사람들이 써왔던 것으로 「뉴스위크」 지도 돈 자루로 이 기법을 써먹었다.



미국철강협회도 용광로 그림을 이용하여 이 수법을 써먹었다. 그들은 1930년부터 1940년 사이에 미국 철강산업의 제강 능력이 얼마나 커졌으며, 이는 정부의 원조를 하나도 받지 않고 산업계 단독의 힘으로 이룩하였다는 것을 보여주려고 한 시도이다. 이 경우에도 그림으로 표현하여 목적을 쉽게 달성할 수 있었다. 그림에서 1930년대에 이룩한 1,000만 톤의 생산능력을 갖는 용광로의 높이는 1940년대에 이룩한 1,425만 톤의 생산능력을 나타내는 용광로 높이의 3분의 2를 약간 상회한다. 그러나 눈으로 봤을 때 두 용광로의 크기는 한쪽이 다른 쪽의 거의 3배나 되어 보인다. 1.5배라고 말하면서 3배로 보여주는 것, 이를 평면 위에서 그림으로 나타내는 것이다.



이 그림에서 발견할 수 있는 몇 가지 재미있는 사실 중 하나는 큰 용광로는 수평 방향으로 정해진 비례보다 크게 그려져 있어 옆에 있는 작은 용광로보다 약간 더 뚱뚱해 보인다. 또 용해된 철을 나타내는 밑바닥의 까만 막대는 10년 전 것에 비하면 그 길이가 2.5배나 된다. 그 결과 실제로는 50%밖에 증가하지 않았는데도 그림에서는 150%나 증가한 것으로 되어 있기 때문에 계산이 틀리지 않는다면 전체 증가가 1,500%(2.5*2.5*2.5=15.625≒1563%)되는 것처럼 보인다. 환상적인 계산이다.

이 그림에서는 잘 보이지 않지만 위의 도표와 같은 쪽에는 밑 부분을 잘라 생략해버린 멋진 그래프가 화려한 색깔로 광택처리되어 있다. 밑 부분이 잘려져 있기 때문에 이 그래프는 1인당 제강 능력이 실제보다 훨씬 과장되어 증가한 것처럼 보인다. 지면도 절약하고 증가량도 배나 되어 보이니 일거양득이 된 셈이다.



언젠가 「뉴스위크」 지에는 '미국 노인들의 수명이 얼마나 연장되었을까?'라는 제목으로 두 사람의

전문 열람 제한

미가입 상태이므로 요약본의 일부만 제공됩니다.
더 깊이 있는 내일의 통찰력과 지식 에너지를
프리미엄 무제한 이용권으로 충전해 보세요!

멤버십 가입 / 결제하기