[재미있는 통계] 23. 표본은 원형의 축소판돼야

표본조사의 효용과 활용에 대한 실제 예를 들어 보자.비행기표를 살 때는 한곳에서 최종 목적지까지 가는 표를 사고 요금을 지불한다.


예를 들어 비행기로 서울에서 미국의 마이애미까지 가는 표를 산다고 할 때,KAL영업소에 가면 아마도 서울에서 미국 애틀랜타까지는 KAL비행기표를,애틀랜타에서 마이애미까지는 외국항공사의 연결 티켓을 줄 것이다.


요금은 외국항공사에 지불해야 하는 몫까지 우선 KAL에 지불한다.


물론 KAL은 해당 항공사 몫을 나중에 돌려준다.


미국같이 큰 나라에서 항공기는 우리나라의 고속버스처럼 사람들의 이용이 흔하고 항공사의 수도 많다.


항공 수요가 급증한 1950년대 중반 이후 미국 항공사들은 항공요금을 각 항공사 몫으로 정확히 나누는 지루한 작업(비용도 당시로서는 큰 액수인 12만달러가 매년 지출됨)에 골머리를 앓고 있었다.


그래서 고안해 낸 것이 표본조사였다.


그 당시에는 전체 티켓의 12%의 표본을 과학적으로 뽑아 각 항공사의 몫을 정밀조사한 뒤 이를 근거로 전체에 대한 각 항공사의 몫을 추정하였다.


이러한 표본조사의 결과와 실제로 전수조사를 한(무려 4개월이 걸림) 금액과의 차이는 100만달러당 약 700달러로 근소했다.


표본에서 얻은 자료로부터 전체의 크기를 추정했던 놀라운 사례는 2차 대전 중에도 있었다.


미국과 영국의 연합군은 독일의 군수장비 생산량을 알아내기 위해 통계학자로 하여금 독일군으로부터 노획한 장비에 적혀 있는 일련번호를 이용해 각 장비의 생산량을 추정하도록 하였다.


그 과정은 1부터 일련번호가 적힌 구슬이 들어 있는 항아리에서 표본을 꺼내서,표본의 크기와 최고 높은 일련번호를 이용한 간단한 공식으로 전체 구슬의 수를 추정하는 것과 다름이 없었다.


전쟁이 끝난 뒤 확인해 보니 추정치의 대부분은 독일이 실제로 생산한 장비들의 수와 거의 일치할 정도로 정확했다.


더욱이 연합군의 추정치는 독일의 수치보다 훨씬 신속하게 계산되었다.


왜냐하면 연합군은 표본조사의 방법을 적용하였고 독일은 생산이 완전히 끝났을 때 수치를 집계하였기 때문이다.


예를 들어 전쟁이 끝날 때까지 계속 생산되었던 V-2 미사일의 경우 독일은 그 미사일의 전체 생산량을 몰랐지만,연합군은 미사일이 발사될 때마다 생산량을 추정할 수 있었다.


물론 추정된 미사일 숫자도 전후에 실시한 조사 결과 매우 정확한 것으로 입증되었다.


그러면 표본조사를 할 때 가장 중요한 것은 무엇일까? 바로 좋은 표본을 뽑는 것이며 좋은 표본이란 간단히 말해서 표본이 모집단의 축소판 닮은꼴이 되는 것이다.


다른 말로는 모집단을 대표할 수 있는 표본,즉 대표성을 갖는 표본을 뽑아야 한다.


그러면 대표성에 대해 이야기를 해 보자.


국이나 찌개의 간을 볼 때는 먼저 서너 번 휘휘 젓는다.


새로 담그는 김치의 간을 볼 때도 먼저 양념과 배추를 골고루 버무린다.


왜일까? 국 한 숟가락이,배춧잎 한 조각이 전체를 대표할 수 있어야 그 맛으로 전체의 간이 맞는가를 추정할 수 있기 때문이다.


함지박에 가득 담긴 딸기를 살 때 함지박 위에 있는 딸기 몇 개만을 조사한 뒤,딸기가 크고 잘 익어서 좋구나 하며 몇 근을 산다면 낭패를 보기 십상일 것이다.


함지박 위에 놓인 딸기들은 함지박 안에 있는 전체 딸기를 대표하지 못한다.


대개는 크고 좋은 딸기를 잘 보이도록 위에 올려놓고 속에는 그렇지 못한 딸기들로 가득 채워져 있기 때문이다.


표본이 모집단의 축소판 닮은꼴이 되지 못할 때 어떤 결과가 일어나는지를 가장 잘 나타내주는 속담이 있다.


바로 '장님 코끼리 만지기'라는 말이다.


표본이 축소판 닮은꼴이 되지 못했을 때 어떤 잘못이 일어날 수 있는지를 다음 사례가 보여 준다.


1936년의 미국 대통령선거는 공화당의 랜던(Alfred M Landon) 후보와 민주당의 루스벨트(Franklin D Roosevelt) 후보와의 대결이었다.


리터러리 다이제스트(Literary Digest)라는 잡지사는 1000만명의 유권자에게 설문지를 우송한 뒤 230만명으로부터 회수한 응답을 분석하였다.


그 결과에 따라 이 잡지사는 랜던이 루스벨트를 여유 있게 누르고 당선될 것이라고 예측하였다.


그러나 실제 선거 결과는 민주당의 루스벨트 후보가 압도적인 지지로 당선이 되었다.


무려 230만명이나 되는 유권자를 조사했는데도 이런 실수를 한 원인은 무엇일까? 바로 표본이 모집단을 대표하는 축소판 닮은꼴이 되지 못했기 때문이었다.


이 잡지사는 잡지의 정기구독자와 전화번호부를 근거로 1000만명을 선정하여 설문을 보냈다.


그 당시의 미국경제상황을 고려할 때 잡지의 정기구독자나 전화보유자는 소득이 높은 계층에 속하였다.


더욱이 그 해 선거에서는 유권자들의 후보(혹은 후보가 속한 당) 선택이 유권자의 소득수준과 밀접한 관련이 있었다.


즉 소득이 낮은 계층은 민주당을,높은 계층은 공화당을 특히 선호하였다.


따라서 리터러리 다이제스트가 뽑은 표본 속에는 루스벨트 후보 지지자가 상대적으로 적었기 때문에 조사결과가 틀렸던 것이다.


이 실수는 짧은 선거여론조사의 역사 속에서 가장 유명한 실수로 기록되고 있고 리터러리 다이제스트 잡지사는 그 후 폐간의 길로 접어들었다.


대표성이 없는 표본은 그 크기가 아무리 크더라도 모집단의 특성을 올바르게 예측할 수 없다.


이러한 실수는 1948년 미국의 대통령 선거에서 반복되었다.


갤럽이나 로퍼 등 유수한 여론조사기관이 모두 공화당 후보인 듀인(Dewey)의 승리를 예측했다.


그러나 실제 선거에서는 민주당 후보인 트루먼(Truman) 대통령이 당선되었으며,트루먼 당선자가 선거 직후 듀인의 승리를 보도한 '시카고 트리뷴'지를 머리 위에 들고 찍은 사진은 선거 여론조사에서 가장 유명한 사진으로 기억되고 있다.


역시 잘못된 예측의 원인은 대표성이 없는 표본,즉 고소득층의 유권자들이 표본에 너무 많이 포함되었기 때문이다.


1992년 영국 총선에서도 유수한 여론 조사 기관들이 모두 노동당이 근소한 표차로 우세할 것으로 예측했으나 결과는 보수당이 노동당을 따돌리며 승리했다.


영국의 여론 조사 역사에서 가장 기록적인 오보가 된 이 결과도 역시 대표성 없는 표본이 원인이었다.


영국의 여론 조사는 주로 가구 방문 조사를 통해서 이루어지는데 이때 응답 거부율이 약 45% 된다고 한다.


나중에 분석한 바에 따르면 응답을 거부한 사람들이 조사에 협조적인 사람에 비해서 보수당 지지율이 높다고 한다.


따라서 응답 거부자를 제외한 표본에서 노동당 승리가 예측되었지만 실제 선거에서는 보수당이 승리했던 것이다.


김진호 jhkim@kndu.ac.kr


[ 약력 ]


△서울대 경영대 졸업


△미국 펜실베이니아대 와튼스쿨 경영학 석·박사


△(전)KBS 선거예측조사 자문위원


△(현)국방대 경영학과 교수