세상에서 가장 쉬운 통계학 입문

고지마 히로유키 지음 | 지상사

세상에서 가장 쉬운 통계학 입문

고지마 히로유키 지음

지상사 / 2009년 12월 / 240쪽 / 12,800원

제1부 표준편차부터 검정과 구간추정까지를 한번에

도수분포표와 히스토그램 : 데이터의 특징을 돋보이게 하는 도구

우리는 일상적으로 많든 적든 데이터를 다루고 있다. 그러나 데이터라는 것은 데이터 자체(단순한 숫자들의 나열)를 뚫어져라 본다고 해서 어떤 정보를 속 시원하게 알 수 있는 것은 아니다. 그래서 데이터 그 자체, 즉 '현실 그 자체'로부터 무엇인가 그 분포의 특징이나 반복되는 것을 이끌어 내기 위한 방법이 필요해졌는데, 이것이 '통계'라는 방법이다. 통계에서 사용되는 것은 '축약'이라는 방법인데, 축약은 '데이터로 나열되어 있는 숫자를 어떤 기준으로 정리정돈해서 의미 있는 정보만을 추출'하는 것을 의미하고, 다음과 같은 두 가지 방법이 있다. ① 그래프로 만들어서 그 특징을 파악할 수 있도록 한다. ② 숫자 하나로 특징을 대표하도록 하는데, 이 대표하는 숫자를 '통계량'이라고 한다.

가장 흔히 쓰이는 그래프는 '히스토그램(막대그래프)'이고, 이것을 만들기 위해서는 먼저 도수분포표라는 표를 만들어야 하는데, 만드는 방법은 다음과 같다. ① 데이터 중에서 수치가 가장 큰 것(최대값)과 가장 작은 것(최소값)을 찾는다. ② 최대값부터 최소값까지 포함되도록 하여 구간을 자르기 좋은 대강의 범위를 만들고, 그 범위 내에서 5~8개 정도의 작은 범위(작은 구간)들로 자른다. 이렇게 자른 작은 범위를 '계급'이라고 한다. ③ 각 계급을 대표하는 수치를 정한다. 일반적으로 가장 가운데 값을 선택하는 경우가 많은데, 이것을 '계급값'이라고 한다. ④ 각 계급에 들어가 있는 데이터의 총 개수를 센다. 이것을 '도수'라고 한다. ⑤ 각 계급의 도수가 전체에서 차지하는 비율을 계산한다. 이것을 '상대도수'라고 하는데, 상대도수는 합하면 1이 된다. ⑥ 어느 계급 '까지'의 도수를 합한다. 이것을 '누적도수'라고 하는데, 최종 누적도수는 데이터의 총 개수와 일치한다.

그런데 도수분포표를 만들면 잃어버리는 정보가 있다. 바로 '데이터에 나타나 있던 수치들 자체'다. 예를 들어, 도표1-2의 제4계급인 156부터 160까지의 범위를 보면, 도수를 통해 30기의 데이터가 있다는 것을 알 수 있지만, 그 30개의 데이터가 각각 어떤 수치였는지 세부적인 수치는 잃어버렸다. 하지만 중요한 것은 이런 희생을 감수하는 대신에 귀중한 정보를 얻을 수 있다는 점이다. 도수 칸을 보면 키가 작은 계급부터 차례대로 1, 6, 19, 30, 18. 6이란 수치가 나와 있는데, 이 수치로 다음과 같은 데이터의 특징을 발견할 수 있다. 특징① : 키(데이터)는 균등하게(모두 똑같이) 분포하지 않고, 어느 한 곳에(구체적으로는 156~160의 계급에) 집중되어 있다. 특징② : 또한 집중되어 있는 곳을 기점으로 삼으면, 이 기점으로부터 작은 편에 속하든지 큰 편에 속하는 추이를 보인다. 즉, 데이터의 분포에는 어느 한 곳을 축으로 좌우 대칭성이 있다는 말이다.

도수분포표가 이해됐다면 이제 이것을 막대그래프로 나타내보자. 방법은 다음과 같다. ① 가로축에 계급값(도수분포표 둘째 칸에 있는 수)을 같은 간격으로 둔다. ② 각 계급값 위에 막대를 세우는데, 막대 높이는 그 계급값에 속한 계급도수(도수분포표의 셋째 칸)로 한다(상대도수로 하는 경우도 있다). 이렇게 만든 막대그래프를 히스토그램이라고 하는데, 이 히스토그램을 보면 앞에서 도수분포표를 통해 알게 된 것, 즉 특징①과 특징②를 더욱 명확하게 알 수 있다.

평균값의 역할과 평균값을 이해하는 방법 : 평균값은 지렛대가 균형을 이루는 지점

도수분포표나 히스토그램은 자주 사용되고 있는 방법이다. 그러나 여기에는 몇 가지 단점이 있다. 첫째, 그래프를 보고 데이터의 특징을 생각할 때 사람에 따라서 받아들이는 인상이 제각각이라는 점이다. 둘째, 도수분포표로 나타내든지 히스토그램으로 나타내든지 상당히 많은 공간을 필요로 한다는 점이다. 그래서 이러한 표나 그래프가 가진 두 가지의 단점을 극복하기 위해서 또 하나의 '축약' 방법이 발명되었다. 바로 '통계량'인데, 통계량은 '데이터의 특징을 하나의 숫자로 요약'한 것이다. 그래서 '데이터의 어떤 비슷한 특징을 요약하고 싶은가'에 따라서 여러 가지 통계량이 개발되었는데, 이 책에서는 그중에서 아주 대표적인 '평균값', '분산', '표준편차'로 한정하여 소개하고자 한다.

평균값은 '데이터 합계를 데이터 총 개수로 나누기'해서 얻은 값이다. 예를 들어, 도표1-1에 있는 여대생 80명의 키 데이터 평균값은 {151+154+……+156+161} 80=157.575가 된다. 이제 도수분포표로 평균값을 계산해보자. 결론부터 이야기하면, (계급값 x 상대도수)를 계산해 합계를 구하면 평균값이 나온다. 도수분포표를 만드는 것은 앞 강의에서도 설명한 것처럼 데이터 자체가 갖고 있는 정보의 일부를 버리는 일이다. 그렇기 때문에 이 방법으로 계산한 평균값은 데이터 자체의 평균값과는 조금 차이가 있다. 그러나 '거의 같다'고 해도 지나치지 않다. 실제로 데이터 자체를 가지고 구한 평균값은 앞에서 계산한 것처럼 157.575이고, 도수분포표에서 얻은 것은 157.75이기 때문이다.

이제 평균값을 어떻게 이해해야 하는지 알아보자. 핵심은 '데이터는 수직적으로 널리 퍼져있지만, 그 널리 퍼져있는 것 중에 하나의 수를 모든 데이터를 대표하는 수로 뽑은 것'이 평균값이라는 것이다. 그런데 여기에서 한발 더 나아가보면 '데이터들은 평균값 주변에 분포되어 있다'는 말이 된다는 것을 알 수 있다. 그 다음으로 이해해야 할 것은 '많이 나타나는 데이터는 평균값에 주는 영향력이 크다'는 점이다. 또 한 가지 중요한 것은 '히스토그램이 좌우대칭일 경우, 평균값은 대칭이 되는 축에 자리한다'는 점인데, 이것은 지렛대가 균형을 이루는 지점을 상상하면 쉽게 이해될 것이다.

분산과 표준편차 : 흩어져 있는 데이터 상태를 추정하는 통계량

데이터가 흩어져 있거나 불규칙적인 상태를 아는 것이 매우 중요한데, 버스 운행 상황을 예로 들어보자. 두 버스가 있는데, 이 중에서 어느 버스를 이용할지 고민하고 있다고 해보자. A버스는 도착시간표보다 2분 늦거나 2분 빨리 오는 버스고, B버스는 10분 늦거나 10분 빨리 오는 버스다. 어느 버스든지 도착시간의 평균값만 봤을 때는 시간표대로(늦지 않고) 운행하는 버스라고 가정할 수 있다. 하지만 이 버스들이 도착하는 시간의 '평균값'만으로 버스를 이용할지 결정할 수 있을까? 즉 버스를 이용할지의 여부를 결정하는 데는 평균값보다 불규칙한 상태의 통계량을 아는 것이 중요하다는 것이다. 그러면 이 '제각각'이 어느 정도이고, 이것을 어떻게 측정하면 좋을까? 우선 효과적인 방법은 각 데이터에서 평균값을 빼는 것인데, 이것은 각 데이터가 평균값으로부터 어느 정도 큰가, 또는 작은가를 나타내게 된다. 즉 플러스일 때는 큰 것을, 마이너스일 때는 작은 것을 의미하는데, 이 수치를 통계학에서는 '편차(Deviation)'라고 한다. 그런데 단순히 산술평균으로 구하는 방법은 옳지 않다. 왜냐하면 플러스와 마이너스 수가 있는 상태 그대로 평균을 구하면 플러스와 마이너스가 상쇄되어 산술평균값이 작아질 것이 분명하기 때문이다. 그래서 이때는 '제곱평균'을 사용하면 된다.

'제곱평균'은 평균을 구하고 싶은 수치들을 각각 제곱하고 모두 합하여 총 개수로 나눈 뒤에 루트를 하는 방법으로, 이 단계에서 나온 통계량을 '분산'이라고 한다. 그러나 이 분산을 그냥 '흩어져 있는 상태 그대로 나타내는 것'에서 멈추면 두 가지 문제점이 생긴다. 첫째는 '흩어져 있는 상태를 나타내는 수치로는 너무 크다'는 점이고, 둘째는 '단위가 바뀐다'는 점을 들 수 있다. 즉 원래 데이터는 '분'이 단위였는데, 분산에서는 제곱을 했기 때문에 '분2'이라는 단위가 돼버린다는 것이다. 이 문제점은 분산에 루트를 씌어서 '제곱평균'을 구함으로써 해결할 수 있다. 이렇게 되면 편차들의 평균값으로 느낄 수 있고, 또한 단위도 확실히 '분'으로 돌아오게 되는데, 이 통계량을 '표준편차'라고 한다.

표준편차① : 데이터의 특수성을 평가

표준편차를 알면 데이터의 무엇을 알 수 있을까? 첫째, '한 데이터 세트 중에 있는 어떤 데이터 하나의 수가 갖는 의미'를 알 수 있다. 둘째, '여러 데이터 세트들을 서로 비교해서 나타나는 차이'를 알 수 있다. 그렇다면 이제 이 말들이 무엇을 뜻하는지 알아보도록 하자. 당신이 본 시험 결과가 75점으로, 평균점수인 60점보다 15점 높다고 하자. 이때 당신이 느끼는 기쁨은 어느 정도일까? 표준편차가 12점이라고 해보자. 그러면 당신이 받은 점수는 평균점수에서 '대략 표준편차만큼 더 높은 점수'라는 것을 알 수 있다. 이제 표준편차는 '평균값에서 떨어진 수만큼을 평균화한 값'이라는 것을 생각해보기 바란다. 그러면 당신의 점수는 평균점수보다 잘한 쪽에서 '보통'으로 떨어져 있는 점수가 된다. 이 말은 이 정도의 점수를 받은 사람이 많다는 뜻이기 때문에 뛸 듯이 기쁘지는 않다는 말이 된다.

반대로 표준편차가 8점이라고 해보자. 이때 당신은 아까보다 훨씬 기분이 좋을 것이다. 당신은 평균점수에서 표준편차의 2배 정도나 멀리 떨어져 있기 때문이다. 이 예를 통해서 알 수 있듯이, 한 데이터 세트 중에 있는 어떤 하나의 데이터가 가진 특수성은 평균에서 떨어진 정도를 나타내는 수치만으로는 계측할 수 없고, 표준편차를 기준으로 가정해야만 알 수 있다.

다음으로 '여러 데이터 세트를 비교할 경우'에 표준편차를 사용하는 방법을 알아보자. 예를 들어, X군은 10번 모의시험을 본 평균점수가 60점이고, 표준편차가 10점이라고 하자. 그리고 Y군은 모의시험을 10번 본 평균점수가 50점이고, 표준편차가 30점이라고 하자. 이것으로 무엇을 읽어 낼 수 있을까? 평균점수만 보면 X군이 Y군보다 공부를 잘하는 학생이지만, 이것만으로는 이 두 사람이 진짜 시험을 쳤을 때 얻을 점수를 예측할 수 없다. X군은 표준편차 1배 정도의 폭, 대략 50~70점 범위의 점수를 맞는 학생이라고 판단할 수 있다. 이에 비해 Y군은 20~80점 범위의 점수를 맞는 학생이라고 볼 수 있다. 다시 말해, X군은 '안정된 점수를 맞는' 학생이고, Y군은 시험을 볼 때마다 '점수 차가 큰' 학생이라고 할 수 있다. 이것으로써 두 사람을 '공부를 잘하는 것'만으로 평가할 수 없는 면이 있다는 것을 알 수 있다. 왜냐하면 X군은 50점을 맞으면 들어갈 수 있는 학교에는 합격하겠지만, 80점을 맞아야 들어갈 수 있는 학교에는 상당히 들어가기 힘들 것이기 때문이다. 반면, Y군은 40점이라면 들어갈 수 있는 학교에도 떨어질 가능성이 있지만, 80점을 맞아야 들어갈 수 있는 학교에도 합격할 수 있을 것이다. 이렇게 표준편차를 추가해서 생각한다면, X군과 Y군의 성적은 '공부를 잘하는 것'이라는 서열적인 평가가 아니라 '성질이 다른 것'으로 평가할 수 있다는 사실을 알 수 있다.

표준편차② : 주식리스크의 지표(주가변동성)로 활용

지금은 기관투자가가 아닌 많은 개인들이 컴퓨터나 휴대전화로 데이트레이드라고 불리는 주식거래에 열을 올리고 있다. 그런데 주식거래에서 이익을 남기기 위해서는 어떻게 해야 할까? 대략 2가지 방법이 있다. 첫째, 배당을 받고 이것을 수익으로 하는 것이다. 이렇게 배당으로 얻는 이익을 인컴 게인(Income Gain)이라고 한다. 배당이라는 형식말고도 수익을 남기는 방법이 있다. 어떤 주식을 '쌀 때 사서 비쌀 때 팔아 그 차액을 수익으로 남기는 것인데, 이런 수익을 캐피탈 게인(Capital Gain)이라고 한다. 이 캐피탈 게인을 목적으로 거래할 경우에 중요해지는 것이 주식의 '평균수익률'이라는 지표다.

한 기업 주식의 월평균수익률을 가지고 살펴보자. 도표 5-2는 어느 한 기업의 주식 월평균수익률이다. 1981년을 보면, 월평균수익률은 대략 2.5%다. 이것만을 보면, 그 해의 주식거래에서는 상당히 이익을 남겼을 것으로 보인다. 그러나 이런 사실만을 가지고 투자하면 안 된다. 왜냐하면 이것은 어디까지나 '평균'값이기 때문이다. 실제의 월별수익률을 표로 나타낸 것이 도표 5-3인데, 이것을 통해 실제 월별수익률이 아주 다양함을 알 수 있을 것이다. 그런데 이럴 때, 데이터의 실제 상황을 조금 더 자세히 파악할 수 있는 통계량, 그것이 바로 표준편차이다.

도표 5-4는 각 연도의 월별수익률 표준편차를 나타낸 것이다. 이것을 보면 어떤 해든지 월별수익률의 평균에 비해 표준편차가 크다는 것을 알 수 있을 것이다. 예로, 1981년은 월평균수익률이 약 2.5%인데 비해 표준편차는 9%를 넘는데, 앞에서 설명한 '표준편차 1배 정도 전후로 데이터가 나타나는 것은 평범하게 일어나는 것'을 적용하면, 1981년 월별수익률은 2.5 9.0%의 범위, 즉 (+11.5)~(-6.5) 범위의 수익률은 보통으로 관측된다고 생각해야 한다. 조금 더 구체적으로 말한다면, '월평균 2.5%의 수익을 올리는 주식을 살 때, 6.5%의 손실을 볼 수 있다는 점을 각오해야 한다'는 말이다.

이렇게 주식거래에서는 수익률의 평균값이 아니라 그 표준편차도 중요하다. 그렇기 때문에 이 표준편차를 뜻하는 특별한 전문용어가 있는데, 그것을 주가변동성(Volatility)이라고 한다. 즉, 평균값에서 어느 정도의 폭으로 변동이 생기는가를 의미하는 말이다. 그래서 주식 수익률의 표준편차인 주가변동성은 주식거래 리스크의 지표라고 생각할 수 있다. 왜냐하면, 수익으로 그 평균값을 예상해도 그 값에서부터 주가변동성만큼 떨어지는 경우도 충분히 염두에 두어야 하기 때문이다. 주가변동성은 바로 위험성을 나타내는 지표다. 이 설명을 듣고서 꼼꼼한 독자라면 다음과 같은 점을 눈치 챘을지도 모르겠다. 주가변동성이 9% 정도 평균값에서 떨어질 가능성이 있다는 말을 뒤집어보면, 9%만큼 올라갈 경우도 있다는 말이다. 정말 이 말 그대로다. 그런데 리스크를 나타내는 지표로 주가변동성을 사용하지만, 이것은 동시에 기회를 나타내는 지표이기도 하다. 그리고 앞에서 설명한 또 한 가지의 관점을 사용하면 주가변동성은 다음과 같이 긍정적인 기준으로 사용할 수 있다. '주가변동성이 9%라면 평균값에서 (표준편차 x 2=)18% 이상 떨어지는 일은(물론 올라가는 일도) 거의 없을 것이라고 생각해도 된다'는 의미다. 이와 같이 표준편차는 주식거래라는 실무의 세계에서도 상당히 중요한 지표다.

정규분포 : 키, 동전 던지기 등에서 흔히 볼 수 있는 분포

대부분의 현상은 '불확실성'의 구조를 갖고 있으며, 생겨나는 데이터는 제각각의 값이 되는 경우가 일반적인데, 이렇게 '데이터가 제각각인 수치로 나타나는 것'을 '데이터 분포'라 하는데, 데이터 분포에서 가장 대표적인 '정규분포'에 대해 정리하면 다음과 같다.

① 정규분포는 자연이나 사회에서 가장 흔히 볼 수 있는 분포다. 예를 들어, 키 데이터나 동전 던지기에서 앞면이 나올 개수의 데이터 등이 있다. ② 표준정규분포는 평균값=0이고, 표준편차=1이다. ③ 표준정규분포에서는 (+1) ~ (-1) 범위의 데이터(평균에서 표준편차 1배 이내의 범위에 있는 데이터)의 상대도수는 0.6826 (=약 70%)이고, (+2) ~ (-2) 범위의 데이터(평균에서 표준편차 2배 이내의 범위에 있는 데이터)의 상대도수는 0.9544(=약 95%)가 된다. ④ 일반정규분포의 데이터는 x (표준정규분포의 데이터)+ 로 구하고, 평균값= 이고, 표준편차= 이다. ⑤ 평균값이 이고, 표준편차가 인 정규분포를 표준정규분포로 다시 구하기 위해서는 z=(x- ) 라는 식을 적용하면 된다. ⑥ 평균값이 이고, 표준편차가 인 정규분포에서는 ( +1x ) ~ ( -1x )의 범위 데이터(평균에서 표준편차 1배 이내의 범위에 있는 데이터)의 상대도수는 0.6826(=약 70%)이다.

전문 열람 제한

미가입 상태이므로 요약본의 일부만 제공됩니다.
더 깊이 있는 내일의 통찰력과 지식 에너지를
프리미엄 무제한 이용권으로 충전해 보세요!