[재미있는 통계] 집단크기 따른 가중치 고려해 계산을

집단 A의 구성원이 3,4,5,8의 수치를 가졌고 집단 B는 5,6,7,8,10의 수치를 가졌을 때 두 집단의 평균은 각각 5와 8이 된다.


이 때 두 집단을 합친 전체집단의 평균을 (5+8)/2=6.5로 계산한다면 잘못이다.


이런 식으로 전체집단의 평균을 계산하면 각 집단의 크기가 다르다는 사실이 무시된다.


따라서 올바른 방법은 각 집단의 평균을 그 집단의 크기로 가중해서 평균을 구해야 하며 이를 가중평균이라고 한다.


집단 A의 가중치는 4/(4+5)가 되고 집단 B의 가중치는 5/(4+5)가 되므로 전체집단의 평균은 4/9x5+5/9x8=6.8이 된다.


비율에 대한 가중평균의 예를 들어 보자.상류층에서 애완견을 기르는 가구의 비율이 40%고 중산층 이하에서는 20%라고 할 때 전체 가구 가운데 애완견을 기르는 가구 비율은 (40+20)/2=30%가 아니다.


전체 가구에서 상류층과 중산층 이하 가구가 차지하는 크기로 가중평균을 내야 한다.


상류층의 비중이 15%고 중산층 이하가 85%라면 전체 가구 중 애완견을 기르는 가구의 비율은 0.15x40%+0.85x20%=23%가 된다.


심프슨의 역설(Simpson's paradox)은 동일하지 않은 가중치를 적용함에 따라 부분에 대한 분석 결과와 전체에 대한 분석 결과가 일치하지 않는 현상을 말한다.


다음의 어느 학과 입학사정 결과를 보면 남녀의 합격률은 각각 50%로 차이가 없다.(도표A 참조)


하지만 전체적으로는 합격률에 있어 남녀 간 차이가 있는 것처럼 보인다.(도표B 참조)


부분의 합과 전체의 결과가 일치하지 않는 이유는 남자들이 합격률이 높은 A학과에 여자보다 더 많이 지원했고,여자들은 합격률이 낮은 B학과에 남자보다 더 많이 지원했기 때문이다.


전체로 볼 때는 남녀 간 합격률이 다르게 나타난다.