Cover Story - 통계의 함정…숫자를 맹신하지 마라
위 여론조사는 전국 19세 이상 성인 남녀 1000명이라는 표본이 모집단(전체 성인)을 잘 대표한다는 가설 하에 통계를 진행하는 것이다. 하지만 표본조사는 모집단을 100% 대표할 수 없기 때문에 필연적으로 오차가 발생한다. 이 결과를 어느 정도 신뢰할 수 있는가를 나타내는 것이 신뢰수준과 표본오차다. 신뢰수준 95%는 해당 여론조사를 95% 믿을 수 있다는 뜻이 아니라 같은 조사를 100번 하면 오차범위 내 동일한 결과가 나올 횟수가 95번이라는 뜻이다. 다시 말해 5% 확률로 다른 결과가 나올 수 있다는 뜻이다. 같은 원리로 표본오차는 100명의 표본을 추출해 모수를 추정했다고 가정했을 때, 다시 새롭게 100명의 표본을 추출해 모수를 추정하면 처음 모수 추정의 결과와 두 번째 모수 추정의 결과는 똑같지 않다. 이처럼 모집단의 모수와 표본의 추정 결과(통계량)의 차이가 표본오차가 된다. 표본오차가 작을수록 더 정확한 예측이 가능하며 이를 위해서는 추출하는 표본 수를 늘려야 한다.
결과적으로 위의 여론조사 결과를 쉽게 설명한다면 전체 유권자 중 1000명을 샘플로 뽑아 통계를 100번 진행했을 때 ‘갑’ 후보자 지지율(모수 추정) 37~43%, ‘을’ 후보자 지지율 27~33%가 나올 확률이 95번이라는 얘기다.
박수욱 한국경제신문 인턴(세종대 경영학3) suwook2@gmail.com
!["내 인스타, 국가가 압수한다고?" 📱청소년 SNS 금지법, 보호일까 감시일까요 [커버스토리]](https://img.hankyung.com/photo/202604/AA.43983135.3.jpg)
![[커버스토리] 청소년 보호와 기본권 침해 사이 딜레마…국가가 '디지털 부모' 역할할 수 있을까?](https://img.hankyung.com/photo/202604/AA.43983150.3.jpg)
![감성카페 가고 싶은데 프랜차이즈 뿐이네…요즘 핫플들이 심상치 않다는데 [커버스토리]](https://img.hankyung.com/photo/202604/AA.43904902.3.jpg)