Cover Story - 통계의 함정…숫자를 맹신하지 마라
[Cover Story] 여론조사 바로 읽기… 신뢰수준 95%, 오차 ±3.1%포인트?
“A조사기관에 따르면 이달 7~10일 전국 19세 이상 성인 남녀 1000명을 대상으로 한 설문조사 결과 B정당 ‘갑’ 후보자에 대한 지지율은 40%, C정당 ‘을’ 후보자의 지지율은 30%로 나타났다. 이번 조사는 신뢰수준 95%, 오차는 ±3.1%포인트다.” 선거철마다 단골로 등장하는 여론조사 결과다. 하지만 이 여론조사의 의미를 정확히 이해하는 사람은 의외로 적다.

위 여론조사는 전국 19세 이상 성인 남녀 1000명이라는 표본이 모집단(전체 성인)을 잘 대표한다는 가설 하에 통계를 진행하는 것이다. 하지만 표본조사는 모집단을 100% 대표할 수 없기 때문에 필연적으로 오차가 발생한다. 이 결과를 어느 정도 신뢰할 수 있는가를 나타내는 것이 신뢰수준과 표본오차다. 신뢰수준 95%는 해당 여론조사를 95% 믿을 수 있다는 뜻이 아니라 같은 조사를 100번 하면 오차범위 내 동일한 결과가 나올 횟수가 95번이라는 뜻이다. 다시 말해 5% 확률로 다른 결과가 나올 수 있다는 뜻이다. 같은 원리로 표본오차는 100명의 표본을 추출해 모수를 추정했다고 가정했을 때, 다시 새롭게 100명의 표본을 추출해 모수를 추정하면 처음 모수 추정의 결과와 두 번째 모수 추정의 결과는 똑같지 않다. 이처럼 모집단의 모수와 표본의 추정 결과(통계량)의 차이가 표본오차가 된다. 표본오차가 작을수록 더 정확한 예측이 가능하며 이를 위해서는 추출하는 표본 수를 늘려야 한다.

결과적으로 위의 여론조사 결과를 쉽게 설명한다면 전체 유권자 중 1000명을 샘플로 뽑아 통계를 100번 진행했을 때 ‘갑’ 후보자 지지율(모수 추정) 37~43%, ‘을’ 후보자 지지율 27~33%가 나올 확률이 95번이라는 얘기다.

박수욱 한국경제신문 인턴(세종대 경영학3) suwook2@gmail.com