[재미있는 통계] 35. 표본조사의 오차

연휴를 전후해서 음주운전 단속이 거리 이곳저곳에서 행해진다.


만약 음주운전에서 적발돼 두 차례나 음주측정을 받았는데 이 수치가 크게 다르다면(면허 취소 기준을 넘었더라도) 이 수치를 믿을 수 있을까?


법원의 판결 결과는 '수치의 편차가 다르다면 이를 믿을 수 없다'는 것이다. 지난 2000년 서울행정법원의 사건담당 판사는 두 차례 음주운전 측정에서 혈중 알코올 농도가 각각 0.121%,0.146%로 나와 면허가 취소된 원고가 "이 처분을 취소해 달라"며 서울지방경찰청을 상대로 낸 소송에서 원고 승소판결을 내렸다. 이 원고는 음주측정에서 0.121%의 수치가 나오자 단속 경찰에게 이의를 제기해 다시 측정했으나 0.146%가 나와 면허가 취소되자 소송을 냈다.


판결의 내용은 두 차례의 음주측정 결과가 모두 운전면허 취소 기준을 넘어섰더라도 음주측정 수치의 편차가 심하다면 이를 근거로 면허를 취소하는 것은 부당하므로 면허를 취소할 수 없다는 것이다. 판결문에 따르면 "수치가 두 차례 모두 면허취소 기준인 0.1%를 넘었지만 2분 간격으로 이뤄진 측정치 사이에 호흡측정기 오차범위인 0.005%를 크게 초과하는 차이가 있었던 점에 비춰 당시 이씨의 혈중 알코올 농도가 0.121% 이상이었다고 단정할 수 없다"는 것이다.


이 판결 이전에 대법원에서도 음주측정기의 오차를 인정해 측정치가 오차범위 내에 있는 경우 처벌할 수 없다는 판결을 내렸다. 경찰청도 이를 감안해 면허정지나 면허취소 처분을 받았더라도 오차범위 내에 있는 3만6000명을 행정구제 한 바 있다. 이처럼 아무리 정교하고 첨단 기술이 담긴 기기라도 그 측정에는 오차가 있고,마찬가지로 표본조사에서도 오차가 있다. 조사결과를 해석할 때 반드시 오차를 고려해야 한다.


표본조사에서의 오차를 설명하기 위해 골프경기의 예를 들어보자. 골프경기의 TV중계를 보면 가끔 경기자가 공이 있는 곳에서 어느 지점까지 발걸음으로 거리를 재는 장면이 비춰진다. 경기를 하는 골프장의 각 홀마다 여러 지점에서 홀까지의 거리를 미리 표시해 놓는다. 따라서 공으로부터 홀까지의 거리는 공에서 가까이 표시된 지점과 공 사이의 거리만 재면 된다. 물론 눈으로 재도 되겠지만 골퍼가 정확한 측정을 위해 발걸음으로 재는 경우가 종종 있다. 보통 발걸음의 길이(보폭)가 76cm로 12걸음 정도면 10야드(9m) 정도 된다.


그러나 발걸음에는 약간의 오차가 있을 수 있으므로 거리를 계산할 때 이 오차를 감안해야 한다. 예를 들어 공과 어느 지점과의 거리가 12발걸음(10야드)이라고 할 때 골퍼는 실제 거리가 9야드에서 11야드 사이에 있다고 생각한다. 이것을 "거리 측정치 10야드에 허용오차가 ±1야드"라고 표현할 수 있는데 그 의미는 측정한 거리가 10야드이지만 자로 정확히 측정한다면 실제 거리가 9야드에서 11야드 사이에 있을 것이라는 의미다. 표본조사에서의 허용오차도 같은 의미를 갖는다.


표본조사 결과 어느 후보에 대한 지지도가 35%이고 오차의 허용한계가 ±3%포인트라고 하자. 이 말은 모집단 전체를 다 조사할 때 그 후보에 대한 지지도가 35-3%와 35+3%,즉 32%와 38% 사이에 '거의' 있을 것이라는 의미다. '거의'라는 표현을 구체적으로 설명하면 오차한계 사이에 있을 확률은 신뢰 수준으로 나타낸다.


본문의 예에서 지지도가 35%이고 신뢰수준 95%에서 오차의 한계가 ±3%포인트라면 전체를 다 조사했을 때 지지도는 32%에서 38% 사이에 있을 확률이 95%가 된다. 그러나 조사결과를 해석할 때 이 오차의 한계를 무시하면 잘못된 결론에 도달하기 쉽다.


구체적인 예를 들어보자. 참고로 오차의 한계는 반드시 %포인트로 나타내야 하는데 신문기사 등에서는 그냥 %(퍼센트)로 표시하는 경우가 많다. 이 점은 반드시 고쳐야 할 표기다.


"경북 구자춘-이의근-이판석 순."


□□일보(1995.5.29)의 경북지역 선거조사의 기사제목이다. 후보별 지지율은 구자춘(14.0%) 이의근(13.5%) 이판석(9.7%)이었다. 그러나 오차의 한계(4.3%)를 감안하면 세 후보 모두 지지율에서 차이가 없는 상황이다. 따라서 '경북지역,지지율 백중세'라는 제목을 붙이는 것이 결과를 올바로 해석한 것이다.


다음은 20대 유권자의 정당선호도에 대한 □□일보(1995.3.29) 기사제목이다.


"20대 24.6% 대 23.8% 민자 더 선호 '이변'."


20대의 민자당에 대한 지지도는 24.6%로 민주당의 23.8%에 비해 불과 0.8%포인트를 앞서고 있을 뿐이다. 따라서 오차의 한계를 고려할 때 정당지지도의 우열을 판단할 수 없는 조사결과인 데도 민자당을 더 선호하는 '이변'이라고 기사제목을 뽑았다. 표본오차의 개념을 이해하지 못하고 있거나 아니면 조사결과를 의도적으로 왜곡하려고 이런 제목을 붙인 듯하다.


여론조사기관이나 신문사가 발표하는 여론조사에서 '오차' 혹은 '오차의 한계'는 대부분 틀리게 발표되고 있다. 조사결과를 발표하는 기사에서 오차는 대개 ±3%,±5% 등과 같이 %로 발표한다. 그러나 이때 %는 잘못된 표현이다. 오차를 나타낼 때는 기준(표본의 크기)이 같으므로 %포인트로 표시해야 한다. 즉 오차는 ±3%포인트,±5%포인트 등으로 표시해야 한다.


예를 들어 설명해 보자. 한 여론조사에서 승용차의 10부제에 대한 찬성비율이 53%이고,오차는 ±5%포인트라고 발표했다. 이 말은 무슨 의미일까. 이 말은 표본조사에서 찬성률이 53%로 나타났지만,표본이 아닌 전체를 실제로 다 조사하는 경우에는 찬성률이 53-5%와 53+5% 사이에 있을 것이라는 의미다.


하지만 '찬성비율이 53%이고,오차는 ±5%'라고 오차를 그냥 %로만 표현하면 의미가 달라져서 찬성비율이 50.3~55.7% 사이에 있게 되는 것이다.


오차를 ±5%라고 할 때와 ±5%포인트라고 할 때의 실제 찬성비율이 존재할 구간은 ±5%라고 할 때가 훨씬 좁으므로 조사가 더욱 정확하다는 왜곡된 인상을 준다. 따라서 여론조사에서 '오차' 혹은 '오차의 한계'를 발표할 때는 반드시 ±3%포인트,±5%포인트 등과 같이 %포인트로 발표해야 한다.


김진호 교수 jhkim@kndu.ac.kr



[ 약력 ]


△서울대 경영대 졸업


△미국 펜실베이니아대 와튼스쿨 경영학 석·박사


△(전)KBS 선거예측조사 자문위원


△(현)국방대 경영학과 교수