어느 고등학교 3학년 학생의 영어 성적이 있다고 하자.이 성적에서 우리가 제일 먼저 관심을 갖는 것은 학생들의 영어 성적이 어떤 점수를 중심으로 모여 있느냐는 것이다.
평균은 데이터의 모여 있는 특성을 나타내는 대표값이다.
평균소득,평균기온,평균키,평균강우량,평균가격 등과 같이 대부분의 데이터는 평균화돼 우리에게 주어진다.
그래서인지 사람들은 많은 숫자를 대할 때 우선 '평균이 얼마냐?'라고 자연스럽게 묻는다.
이처럼 사람들이 평균에 익숙하기는 하지만,평균이라는 용어에는 다양한 의미가 내포되어 있다는 사실을 모르는 경우가 많다.
문제는 평균에는 여러 가지 종류가 있고 경우에 따라서는 각 종류의 값이 다를 수가 있다는 것이다.
따라서 누구나 자기에게 유리한 평균값을 선택함으로써 얼마든지 자기 주장을 번지르르하게 왜곡시킬 수 있다.
여러 종류의 평균 중에서 우리가 주로 사용하는 것은 산술평균,중앙값,최빈수 세 가지이다.
산술평균은 가장 많이 쓰이는 개념으로 그냥 평균이라고 불리기도 한다.
산술평균은 모든 자료의 값을 다 더해서 전체 수로 나눈 것이다.
간단한 예를 들어보자.
사례 A:1 1 2 3 1 3 4
이 7개의 숫자들을 모두 더해서(15) 전체 수(7)로 나눈 (산술)평균은 2.1이며 이 값은 이 숫자들의 중심을 잘 나타내는 대표값이라 할 수 있다.
그러나 다음의 사례에서는 (산술)평균의 의미가 약해진다.
사례 B:1 1 2 3 1 3 17
사례 B는 사례 A 중에서 하나의 숫자만 바뀐 것으로 다른 숫자에 비해 비정상적으로 큰 숫자인 17이 포함되어 있다.
(산술)평균은 4이며 이 값은 다른 숫자에 비해 상대적으로 큰 17의 영향으로 높아진 것이다.
이런 경우에는 (산술)평균 4는 전체 숫자의 중심을 나타내는 대표값으로서의 역할을 하지 못한다.
상대적으로 큰 값에 영향을 받지 않는 중심의 측정치는 다음의 두 가지 방법으로 구할 수 있다.
첫 번째 방법은 숫자들을 작은 수부터 큰 수까지 순서대로 세운 뒤 가운데 위치하는 수,즉 중앙값을 중심으로 하는 방법이다.
둘째는 가장 빈번하게 나타나는 값,즉 최빈수를 중심으로 보는 것이다.
중앙값(median)은 문자 그대로 가운데에 위치한 수로서 숫자들을 크기의 순서로 배열했을 때 정 가운데에 위치하는 값을 말한다.
따라서 숫자의 반은 중앙값보다 작은 값을 갖고 다른 반은 큰 값을 갖게 된다.
위의 사례 A,B에서 중앙값을 사용한 평균은 모두 2이며 숫자들의 중심을 나타내는 대표값으로서 충분하다.
최빈수(mode)는 가장 흔하게 나타나는 수로서 위의 예에서 1이 가장 자주 나타나므로 최빈수를 사용한 평균은 1이 된다.
최빈수 1은 숫자들 중에서 대다수는 아니라도 가장 많이 일어나므로 중심의 대표값 역할을 하게 된다.
비유를 들면 3명의 대통령 후보 중에서 '가'후보가 34%,'나'후보가 33%,그리고 '다'후보가 33%를 득표했다고 한다면 과반수에는 미달하지만 34%를 얻은 '가'후보가 당선되는 것은 최빈수가 대표값으로서 충분하기 때문일 것이다.
어느 평균을 사용할 것인지 고민할 필요가 없는 경우도 많다.
영어 성적,몸무게,키 등과 같은 수치들은 대부분 좌우 대칭의 종 모양의 분포(정상분포 혹은 정규분포라 함)를 한다.
이런 경우에는 (산술)평균,중앙값,최빈수가 모두 일치한다.
그러나 모든 분포가 종모양을 이루지는 않으므로 평균의 종류에 따라 값이 다른 경우가 있게 된다.
평균에 따라 값이 다르면 자기에게 유리한 평균값을 선택함으로써 얼마든지 자기주장을 번지르르하게 할 수 있고 수맹인 사람들은 대부분 그 주장에 속게 된다.
종모양의 분포를 하지 않는 경우에는 평균이 그것이 어떤 종류의 평균인지 알기 전에는 별 의미가 없다.
종모양의 분포를 하지 않는 것 중에서 대표적인 것이 소득이다.
소득의 가상적인 예를 들어 보자.강원도 소양호 주변의 어느 후미진 곳에 50가구가 사는 작은 마을이 있다.
그 마을의 이장과 복덕방 영감은 각기 상반된 주장을 하고 다닌다.
마을 이장:"우리 마을의 가구당 평균 소득은 500만원이다."
복덕방 영감:"우리 마을의 가구당 평균 소득은 7000만원이다."
이장은 우리 마을이 가난하다고 하고 복덕방 영감은 부자마을이라고 하는 전혀 상반된 주장이지만 문제는 누가 틀렸다고 지적할 수 없다는 데 있다.
양쪽 모두 동일한 가구 수와 가구별 소득을 기초로 정당한 계산 결과 얻어진 평균이다.
내용을 알아보면 50여가구 중에서 25가구는 가난한 농가로서 소득이 500만원이고 다른 24가구는 500만원에서 2000만원 사이의 소득을 올리고 있다.
단 한 가구만이 서울의 한 사업인이 물 좋고 공기 좋은 곳에 내려와 사는 집이다.
이 한 사람의 연간 소득은 수십억원에 달한다.
저소득농민 지원정책에 따른 각종 정부지원을 기대하는 마을 이장은 최빈수를 사용하여 평균이 500만원밖에 안되는 마을이라고 하며 지원을 호소하는 것이다.
복덕방 영감은 은퇴하여 물 좋고 공기 좋은 곳에 와서 살려는 서울사람들을 유인하기 위하여 산술평균을 사용하여 평균소득이 7000만원인 부자마을 휴양지라고 선전하는 것이다.
이처럼 똑같은 자료로부터 계산된 평균이 크게 다를 수 있기 때문에 평균이면 그저 평균인 것으로 이해하는 많은 순진한(?) 사람들이 속기가 쉬운 것이다.
위의 예는 과장된 것이지만 실제로 노사문제를 겪고 있는 회사에서 사장이 주장하는 회사원들의 평균 임금이 매우 높은 반면 노조측이 주장하는 평균 임금이 낮은 경우가 있다.
사장은 보수가 높은 관리자들을 포함한 산술평균을 사용하고 노조측은 가장 많은 근로자들이 받는 봉급인 최빈수를 사용하기 때문이다.
종모양의 대칭적인 분포가 아닌 경우에는 평균에 대한 해석을 할 때 가장 좋은 방법은 세 가지 평균을 서로 밀접하게 연관시켜 해석하는 것이다.
비유적으로 표현하면 방안을 조사하는데 평균은 문의 열쇠구멍과 같다고 할 수 있다.
한쪽 문의 열쇠구멍으로 방에 대해서 알 수 있는 것은 일부분이므로 여러 방문의 열쇠구멍으로 들여다 본 결과를 종합할 때 방에 대해서 잘 알 수 있다.
마찬가지로 평균이 서로 다를 때라도 각 평균의 장점을 연관지어 함께 해석하면 무리가 없다.
김진호 jhkim@kndu.ac.kr
[ 약력 ]
△서울대 경영대 졸업
△미국 펜실베이니아대 와튼스쿨 경영학 석·박사
△(전)KBS 선거예측조사 자문위원
△(현)국방대 경영학과 교수