▧ 들어가며…
‘거짓말에는 세 가지 종류가 있다. 그냥 거짓말, 새빨간 거짓말, 그리고 통계.’ 통계의 허구성을 잘 지적하는 격언이다. 오늘은 통계수치 중 평균의 함정에 대해서 알아보기로 한다. 수학적 의미로 ‘평균값’은 무엇을 의미할까. 많은 양의 자료를 다룰 때, 전체적인 양상을 하나의 수로 나타내면 편리한 경우가 많다. 이때 흔히 사용하는 개념이 바로 평균인데, 구성원의 개별수치를 모두 더하여 구성원 수로 나누는 방법이다. 반평균을 내거나 평균키나 몸무게를 구할 때, 회사의 평균임금이나 국민의 평균소득을 구할 때 모두 산술평균을 이용한다. 그런데 전체의 추이를 보여주는 이 평균값은 여러 가지 문제를 가지고 있다. 그리고 이러한 통계의 문제점이 논술로도 심심찮게 다루어지고 있다.
2013 이화여대 수시 기출 : 평균값과 중앙값의 한계
2011 국민대 수시 기출 : 산술평균과 중앙값
2009 한국외대 수시 기출 : 대푯값으로서의 평균값의 문제점
2008 연세대 수시 기출 : 평균값을 통해 본 중용의 의미
2008 숭실대 예시 문제 : 평균값이 가지는 집단대표성 고찰
2008 한양대 모의 논술 : 평균값으로 본 집단의 속성
▧ 평균의 첫 번째 거짓말
우선 다음의 <한국외대 2009학년도 기출> 제시문을 읽어보자.
자료(data)의 평균값이란 여러 개의 자료 값들을 하나의 수치로 표현하는 대푯값 중 하나이며 자료 값을 x1, x2, …, xn이라고 표현했을 때, 평균값은 x=(x1+x2+…+xn)/n으로 정의한다. 이 값은 자료 분포의 중앙을 나타내기도 하지만, 앞으로 비슷한 환경이 발생할 경우 자료의 기대되는 값(기댓값: expected value)을 의미한다고 할 수 있다. 예를 들어, 남자의 평균 키가 173.4cm이고 여자의 평균 키가 165.3cm라고 했을 때, 우리는 모든 남자와 여자의 키를 서로 비교 대조하지 않아도 평균 키만을 비교함으로써 남자 키가 여자 키보다 크다는 추론을 쉽게 할 수 있게 된다. 또한 임의로 남자와 여자를 한 명씩 선택한다고 가정했을 때, 기존의 평균값을 가지고 우리는 선택된 남자와 여자의 키가 각각 173.4cm, 165.3cm가 될 것이라고 예측하게 된다.
그러나 위에서 보는 바와 달리 실제로 발생할 수 없는 평균값도 있다. 예를 들어, 주사위를 던져서 나오는 눈은 1, 2, 3, 4, 5, 6 가운데 하나이므로 수학적으로 평균값은 3.5라고 할 수 있다. 그러나 실제로 주사위를 던졌을 때 3.5가 나오는 경우란 있을 수 없다.
발표에 따르면 우리나라의 현재 여성 1인당 출산율은 1.3명이다. 1년간 총 출생아 수를 가임여성 인구 총수로 나누어 산출한 결과이다. 그러나 실제로 어느 여성도 1.3명의 아이를 낳는 일은 없다. 평균값이 이론적으로는 대푯값으로 문제가 없어 보이나, 실제 일어날 수 있는 개별적 현상에 있어서는 설명력이 떨어지는 것이 사실이다. 즉, 실제로 발생할 수 있는 상황과는 거리가 멀다는 점에서 한계를 가진다. 사실 이 한계는 평균값뿐만이 아니라 다른 대푯값에도 적용되는 문제이다. 집단의 대표값은 집단 구성원 각각이 가지고 있는 개별적 속성값과 구별되어야 한다.
▧ 평균의 두 번째 거짓말
위의 문제점이 평균값 자체에 내재한 한계라면 이번에는 평균값과 다른 대푯값과의 차이점에서 비롯된 문제라고 할 수 있다. 전체를 대표하는 대푯값에는 평균값 외에도 ‘중앙값’과 ‘최빈값’이 있다. 다음과 같은 9개의 수가 있다고 치자. 10, 9, 7, 6, 5, 5, 4, 4, 4 이 9개의 수의 평균값은 6(각 항의 합÷9)이다. 이 수들 가운데 가장 가운데인 다섯 번째 위치한 숫자는 5이다. 이 값을 중앙값이라고 한다. 그리고 이 수들 가운데 가장 빈번하게 등장하는 수를 최빈값이라고 한다. 이 경우에는 세 번 등장하는 4가 최빈값이 된다.
문제는 전체의 경향을 보여주는 많은 대푯값 가운데 어떤 것을 선택하느냐에 따라서 상황에 대한 결론이 완전히 달라진다는 점이다. <국민대 2011학년도 기출> 제시문을 통해 확인해보자.
A사는 매년 회사 전체 종업원의 평균 급여를 발표하고 있다. A사는 아래 종업원 급여 분포표를 바탕으로 올해 종업원 평균 급여가 $5700인 것으로 발표하였다. 이 종업원 급여 평균치는 종업원 전체 급여의 산술평균값(arithmetic mean)으로서, 회사는 이것이 업계 급여 평균 $4500을 크게 상회하는 것으로 홍보하였다.
그러나 유심히 들여다보면 $4500이라는 평균값은 $1만 이상의 높은 급여를 받는 서너 명의 사람들 때문에 나온 수치라는 것을 확인할 수 있다. 심지어 평균값의 10배 이상인 $4만5000을 받는 구성원도 존재한다. 그러나 전체 25명의 종업원 중 대부분은 $4500을 훨씬 밑도는 임금을 받고 있다. 가장 중간에 있는 사람이 받고 있는 중앙값은 $3000 정도밖에 되질 않는다.
이처럼 자신에게 유리한 방향으로 이끌기 위하여 평균값을 인용하는 이 같은 현상은 정부의 통계 발표에도 나타난다. 예를 들어 통계청이 발표한 ‘2분기 가계동향’에 따르면 가구당 월 평균 소득은 355만원으로 지난해 같은 기간 대비 7.7% 증가했다. 이 같은 증가율은 관련 통계를 작성하기 시작한 2003년 이후 가장 높다는 게 통계청의 설명이다. 그러나 주위를 둘러보자. 월 평균 355만원을 버는 가구가 흔한가 말이다. 오히려 우리 주위에는 최저임금을 받고 한 달에 고작 88만원을 버는 청년세대와 한 달 내내 하루 10시간을 일해도 100만원밖에 받지 못하는 고단한 도시근로자들이 훨씬 많다.
즉, 평균값은 극단적인 값들이 많이 관찰되는 경우에는 큰 의미가 없는데도 불구하고, 이를 이용해 문제상황을 왜곡하거나 정책의 성공여부를 홍보하는 일이 발생한다. 위의 경우에는 자료를 작은 값부터 큰 값까지 크기 순으로 나열하여 계산한 중앙값이나, 값들 중에서 가장 많이 발생한 값인 최빈값이 자료 전체의 속성을 보다 잘 대표할 수 있다.
▧ 중앙값이나 최빈값은 최선일까
그렇다면 평균값 대신에 중앙값이나 최빈값을 선택하는 것은 통계 해석방법으로 항상 타당한 결과를 가져다줄까. 다음 <국민대 2011 기출> 자료를 살펴보자.
우리나라 주요 도시의 황산화물 배출량을 보여주는 이 자료를 보고 정부는 중간값인 7835t(서울 수치)을 인용하며 오염도 평균치 수준이 낮다고 주장할 것이다. 이번에는 평균값이 아니라 중간값을 인용했으므로 정부의 주장은 옳은 것일까. 환경단체라면 어떤 수치를 대푯값으로 내놓을까. 전체의 수치를 더하여 도시 수 7로 나눈 산술평균값 1만8577t을 전제로 환경오염이 심각하다는 주장을 할 것이다. 즉, 어떤 목적으로 자료를 이용하느냐에 따라 인용하는 수치가 달라진다.
결론적으로 평균값뿐만 아니라 중앙값, 최빈값은 모두 일정한 한계를 가지는 불완전한 숫자이다. 집단의 속성들을 제대로 반영하지 못하거나 왜곡된 속성을 드러낼 수 있다는 점에서 그러하다. 어떤 문제에 대해서 어떤 측정법이 가장 적합한지를 결정해 주는 법칙은 없다. 따라서 결정은 주어진 경우와 관련된 모든 요소에 대한 지식과 기본 양심을 바탕으로 내려질 수밖에 없는 것이다. 여러 가지 대푯값을 ‘중용(中庸)’의 관점에서 고찰해 보라는 <연세대 2008년 수시 기출> 역시 이러한 문제점을 경고하는 내용이었다. 통계는 거짓말을 하지 않는다. 통계를 이용하는 사람들이 거짓말을 할 뿐.
이지나 S·논술 인문 대표강사 curitel2002@hanmail.net
‘거짓말에는 세 가지 종류가 있다. 그냥 거짓말, 새빨간 거짓말, 그리고 통계.’ 통계의 허구성을 잘 지적하는 격언이다. 오늘은 통계수치 중 평균의 함정에 대해서 알아보기로 한다. 수학적 의미로 ‘평균값’은 무엇을 의미할까. 많은 양의 자료를 다룰 때, 전체적인 양상을 하나의 수로 나타내면 편리한 경우가 많다. 이때 흔히 사용하는 개념이 바로 평균인데, 구성원의 개별수치를 모두 더하여 구성원 수로 나누는 방법이다. 반평균을 내거나 평균키나 몸무게를 구할 때, 회사의 평균임금이나 국민의 평균소득을 구할 때 모두 산술평균을 이용한다. 그런데 전체의 추이를 보여주는 이 평균값은 여러 가지 문제를 가지고 있다. 그리고 이러한 통계의 문제점이 논술로도 심심찮게 다루어지고 있다.
2013 이화여대 수시 기출 : 평균값과 중앙값의 한계
2011 국민대 수시 기출 : 산술평균과 중앙값
2009 한국외대 수시 기출 : 대푯값으로서의 평균값의 문제점
2008 연세대 수시 기출 : 평균값을 통해 본 중용의 의미
2008 숭실대 예시 문제 : 평균값이 가지는 집단대표성 고찰
2008 한양대 모의 논술 : 평균값으로 본 집단의 속성
▧ 평균의 첫 번째 거짓말
우선 다음의 <한국외대 2009학년도 기출> 제시문을 읽어보자.
자료(data)의 평균값이란 여러 개의 자료 값들을 하나의 수치로 표현하는 대푯값 중 하나이며 자료 값을 x1, x2, …, xn이라고 표현했을 때, 평균값은 x=(x1+x2+…+xn)/n으로 정의한다. 이 값은 자료 분포의 중앙을 나타내기도 하지만, 앞으로 비슷한 환경이 발생할 경우 자료의 기대되는 값(기댓값: expected value)을 의미한다고 할 수 있다. 예를 들어, 남자의 평균 키가 173.4cm이고 여자의 평균 키가 165.3cm라고 했을 때, 우리는 모든 남자와 여자의 키를 서로 비교 대조하지 않아도 평균 키만을 비교함으로써 남자 키가 여자 키보다 크다는 추론을 쉽게 할 수 있게 된다. 또한 임의로 남자와 여자를 한 명씩 선택한다고 가정했을 때, 기존의 평균값을 가지고 우리는 선택된 남자와 여자의 키가 각각 173.4cm, 165.3cm가 될 것이라고 예측하게 된다.
그러나 위에서 보는 바와 달리 실제로 발생할 수 없는 평균값도 있다. 예를 들어, 주사위를 던져서 나오는 눈은 1, 2, 3, 4, 5, 6 가운데 하나이므로 수학적으로 평균값은 3.5라고 할 수 있다. 그러나 실제로 주사위를 던졌을 때 3.5가 나오는 경우란 있을 수 없다.
발표에 따르면 우리나라의 현재 여성 1인당 출산율은 1.3명이다. 1년간 총 출생아 수를 가임여성 인구 총수로 나누어 산출한 결과이다. 그러나 실제로 어느 여성도 1.3명의 아이를 낳는 일은 없다. 평균값이 이론적으로는 대푯값으로 문제가 없어 보이나, 실제 일어날 수 있는 개별적 현상에 있어서는 설명력이 떨어지는 것이 사실이다. 즉, 실제로 발생할 수 있는 상황과는 거리가 멀다는 점에서 한계를 가진다. 사실 이 한계는 평균값뿐만이 아니라 다른 대푯값에도 적용되는 문제이다. 집단의 대표값은 집단 구성원 각각이 가지고 있는 개별적 속성값과 구별되어야 한다.
▧ 평균의 두 번째 거짓말
위의 문제점이 평균값 자체에 내재한 한계라면 이번에는 평균값과 다른 대푯값과의 차이점에서 비롯된 문제라고 할 수 있다. 전체를 대표하는 대푯값에는 평균값 외에도 ‘중앙값’과 ‘최빈값’이 있다. 다음과 같은 9개의 수가 있다고 치자. 10, 9, 7, 6, 5, 5, 4, 4, 4 이 9개의 수의 평균값은 6(각 항의 합÷9)이다. 이 수들 가운데 가장 가운데인 다섯 번째 위치한 숫자는 5이다. 이 값을 중앙값이라고 한다. 그리고 이 수들 가운데 가장 빈번하게 등장하는 수를 최빈값이라고 한다. 이 경우에는 세 번 등장하는 4가 최빈값이 된다.
문제는 전체의 경향을 보여주는 많은 대푯값 가운데 어떤 것을 선택하느냐에 따라서 상황에 대한 결론이 완전히 달라진다는 점이다. <국민대 2011학년도 기출> 제시문을 통해 확인해보자.
A사는 매년 회사 전체 종업원의 평균 급여를 발표하고 있다. A사는 아래 종업원 급여 분포표를 바탕으로 올해 종업원 평균 급여가 $5700인 것으로 발표하였다. 이 종업원 급여 평균치는 종업원 전체 급여의 산술평균값(arithmetic mean)으로서, 회사는 이것이 업계 급여 평균 $4500을 크게 상회하는 것으로 홍보하였다.
그러나 유심히 들여다보면 $4500이라는 평균값은 $1만 이상의 높은 급여를 받는 서너 명의 사람들 때문에 나온 수치라는 것을 확인할 수 있다. 심지어 평균값의 10배 이상인 $4만5000을 받는 구성원도 존재한다. 그러나 전체 25명의 종업원 중 대부분은 $4500을 훨씬 밑도는 임금을 받고 있다. 가장 중간에 있는 사람이 받고 있는 중앙값은 $3000 정도밖에 되질 않는다.
이처럼 자신에게 유리한 방향으로 이끌기 위하여 평균값을 인용하는 이 같은 현상은 정부의 통계 발표에도 나타난다. 예를 들어 통계청이 발표한 ‘2분기 가계동향’에 따르면 가구당 월 평균 소득은 355만원으로 지난해 같은 기간 대비 7.7% 증가했다. 이 같은 증가율은 관련 통계를 작성하기 시작한 2003년 이후 가장 높다는 게 통계청의 설명이다. 그러나 주위를 둘러보자. 월 평균 355만원을 버는 가구가 흔한가 말이다. 오히려 우리 주위에는 최저임금을 받고 한 달에 고작 88만원을 버는 청년세대와 한 달 내내 하루 10시간을 일해도 100만원밖에 받지 못하는 고단한 도시근로자들이 훨씬 많다.
즉, 평균값은 극단적인 값들이 많이 관찰되는 경우에는 큰 의미가 없는데도 불구하고, 이를 이용해 문제상황을 왜곡하거나 정책의 성공여부를 홍보하는 일이 발생한다. 위의 경우에는 자료를 작은 값부터 큰 값까지 크기 순으로 나열하여 계산한 중앙값이나, 값들 중에서 가장 많이 발생한 값인 최빈값이 자료 전체의 속성을 보다 잘 대표할 수 있다.
▧ 중앙값이나 최빈값은 최선일까
그렇다면 평균값 대신에 중앙값이나 최빈값을 선택하는 것은 통계 해석방법으로 항상 타당한 결과를 가져다줄까. 다음 <국민대 2011 기출> 자료를 살펴보자.
우리나라 주요 도시의 황산화물 배출량을 보여주는 이 자료를 보고 정부는 중간값인 7835t(서울 수치)을 인용하며 오염도 평균치 수준이 낮다고 주장할 것이다. 이번에는 평균값이 아니라 중간값을 인용했으므로 정부의 주장은 옳은 것일까. 환경단체라면 어떤 수치를 대푯값으로 내놓을까. 전체의 수치를 더하여 도시 수 7로 나눈 산술평균값 1만8577t을 전제로 환경오염이 심각하다는 주장을 할 것이다. 즉, 어떤 목적으로 자료를 이용하느냐에 따라 인용하는 수치가 달라진다.
결론적으로 평균값뿐만 아니라 중앙값, 최빈값은 모두 일정한 한계를 가지는 불완전한 숫자이다. 집단의 속성들을 제대로 반영하지 못하거나 왜곡된 속성을 드러낼 수 있다는 점에서 그러하다. 어떤 문제에 대해서 어떤 측정법이 가장 적합한지를 결정해 주는 법칙은 없다. 따라서 결정은 주어진 경우와 관련된 모든 요소에 대한 지식과 기본 양심을 바탕으로 내려질 수밖에 없는 것이다. 여러 가지 대푯값을 ‘중용(中庸)’의 관점에서 고찰해 보라는 <연세대 2008년 수시 기출> 역시 이러한 문제점을 경고하는 내용이었다. 통계는 거짓말을 하지 않는다. 통계를 이용하는 사람들이 거짓말을 할 뿐.
이지나 S·논술 인문 대표강사 curitel2002@hanmail.net