표본의 크기,즉 몇 개의 표본을 뽑아야 모집단을 대표할 수 있는가는 매우 중요한 문제다.

표본의 수가 너무 적다면 모집단에 대한 잘못된 추정을 하기 쉽고,반대로 표본의 수가 필요 이상으로 많으면 시간과 비용을 쓸데없이 낭비하는 것이 된다.

그러면 적당한 표본의 크기를 좌우하는 요인은 무엇일까? 그 기준은 모집단이 얼마나 다양한가(variability)와 조사가 어느 정도의 정확도를 요구하는가에 달려 있다.

피검사의 예를 들어 보자.의사는 피검사에서 아주 소량의 피만 뽑아 검사한다.

왜일까? 피가 몸 안의 어느 곳에 있더라도 그 질(質)이 균등하다고 생각하기 때문일 것이다.

마찬가지로 사람들의 평균 몸무게를 조사한다면 수십 명으로도 충분하지만 다양한 의견이 있을 수 있는 여론조사에서는 그보다도 많은 사람이 필요하다.

좀 더 정확한 조사를 위해서는 표본 수를 증가시켜야 한다.

일반적으로 50명 미만의 표본 수는 적은 것이고,전체 모집단의 10% 이상이 되면 필요 이상으로 많은 것이다.

조사의 성격과 목적에 따라 표본의 수가 달라지므로 표본의 대표성을 갖추기 위해서는 조사자의 경험과 판단에 크게 의존할 수밖에 없다.

적은 표본으로부터 큰 결론을 내린 예를 몇 가지 들어 보자.


'강현욱 학생층-유종근 블루칼라' 강세


1995년의 6·27 지방선거 한 달여 전인 5월19일자 조선일보의 기사 제목이다.

전북 도지사 후보 중에 강현욱 후보는 학생층에서,유종근 후보는 블루칼라 층에서 강세를 보이고 있다고 여론조사 결과를 근거로 분석하고 있다.

그러나 내용을 살펴보면 강현욱 후보는 학생층 31명 중에서 10명으로부터 지지를,유종근 후보는 블루칼라 40명 중 15명에게서 지지를 얻은 것이다.

내용은 소표본에서 얻은 결과로 별 뜻이 없는데 기사제목은 확신있는 결과처럼 발표하고 있다.

그러나 이런 예가 예외적인 것이 아니라 우리들이 종종 마주하게 된다는데 문제가 있다.

표본의 수가 적은 조사나 실험에서는 별 의미도 없는 희한한 결과가 일어날 수 있다는 것이 통계학의 상식이다.

다시 말해 만일 표본의 수가 너무 적다면 모집단에 대한 잘못된 추정을 하기 쉽다는 것이다.

더욱이 표본의 수가 하나인 경우에는 말할 필요도 없다.

담배골초인 내 친구에게 건강을 생각해서 담배를 끊으라고 했더니 "담배는 건강에 좋아,왜냐하면 우리 할아버지는 진짜 골초이신데 90세까지 장수하시고 있어"라고 대답한다.

한 개의 표본으로부터 자기가 믿고 싶은 결과가 나왔으니 더 이상 표본의 수를 늘릴 필요가 없다는 것일까? 이렇게 적은 표본으로부터 얻은 결과를 침소봉대하는 현상은 어떤 고집스런 개인의 전유물이 아니라 우리 주위에서 종종 볼 수 있는 수문맹의 한 현상이다.

다음의 신문기사를 보자.


이집트 거지 시간당 100불 벌어
★공무원 평균 월급의 2배에 달해

최근 이집트에서 경찰에 체포된 여자 걸인 1명을 조사해 본 결과 체포 직전 구걸행위만으로 이집트 공무원 평균 월급의 두 배에 해당하는 시간당 100달러의 고액 소득을 올리고 있었던 사실이 드러났다.

이걸인은 기자 피라미드 인근 도로에서 구걸행위로 시간당 300 이집트 파운드를 벌어들인 것으로 조사됐는데 그녀는 체포된 직후 「절호의 기회」를 박탈당했다고 강력 비난. 이집트에서 구걸행위를 하다가 적발될 경우 최하 1개월에서 최고 1년까지 징역형에 처하도록 되어있다.

[ 카이로 = AP연합 ]


체포된 이집트 걸인 한명을 조사한 결과 공무원 평균월급의 두 배에 달하는 소득을 올린다는 사실이 드러났다고 국제통신사(AFP)가 법석을 떤다.

이 기사를 읽은 이집트 공무원 중에서 수문맹인 사람은 거지로 직업을 바꾸려고 할지도 모른다.

이 기사는 다음과 같이 해석하면 된다.

아침에 영업(?)을 시작한 이 거지는 그날 현진건의 단편소설과 같은 '운수좋은 날'을 맞이하게 된 것이다.

영업을 시작하자마자 아마도 환율을 착각한 어떤 외국인이 지폐 몇 장을 깡통 속에 넣길래 꺼내서 세어보니 무려 300 이집트 파운드였다.

난생 처음 만져보는 큰돈에 정신이 팔려 경찰이 오는 줄도 모르고 있다가 그만 경찰한테 잡히고 말았다.

경찰이 거지의 수입을 조사한 결과 한 시간 영업에 수입 300파운드.이 놀랄만한 뉴스는 훌륭한 기사 거리가 되어 국제통신망을 통해 다음 날 전 세계의 신문지면을 채우고 있었다.

그렇다고 표본의 수가 많다고 해서 조사 결과의 신뢰성이 반드시 높은 것은 아니다.

의학분야에서 실제로 수행된 조사의 예를 들어 보자.1954년에 미국 암 협회 소속의 두 과학자가 흡연과 폐암의 확실한 상관관계를 입증하는 인상적인 논문을 미국 의학협회지에 발표했다.

그들은 18만7766명의 남자들의 흡연습관을 조사했고,조사 후 20개월 동안 조사대상자 중에서 폐암으로 사망한 사람들을 파악했는데 그 결과는 비흡연자의 폐암 사망률은 0.03%, 흡연자의 폐암 사망률은 0.13% 였다.

조사 결과는 흡연자의 폐암 사망률이 비흡연자보다 4배나 높다.

따라서 흡연이 폐암 주범이라는 것을 많은 사람들을 실제로 조사한 결과로 입증한 것처럼 보인다.

그러나 한 통계학자는 이 조사는 조사대상자 선택에 문제가 있어서 그 결론이 의심스럽다고 지적했다.

그의 비판은 조사대상자의 선택과 관련된 두 가지 사항이었는데 그 내용을 요약하면 아래와 같다.

첫째는 조사에 참여한 흡연자나 비흡연자 집단 모두 미국 남자들의 폐암 사망률보다 훨씬 낮은 사망률을 나타냈다.

이러한 사실은 조사가 건강한 사람들만을 대상으로 실시됐다는 것을 나타낸다.

둘째는 조사대상자 중에서 흡연자의 비율이 다른 조사에서 나타난 흡연자의 비율보다 낮다는 것이다.

이 사실은 많은 흡연자들이 조사에 참여하기를 거부했음을 말해준다.

이어서 그 통계학자는 두 변수 사이에 아무런 관계가 없는 가상적인 자료를 만들었다.

그리고 이 자료에서 대표성이 없는 표본을 뽑았을 때 모집단에서 아무런 관계가 없는 것도 표본에서는 높은 상관을 나타낼 수 있다는 것을 입증했다.

김진호 jhkim@kndu.ac.kr


[ 약력 ]

△서울대 경영대 졸업

△미국 펜실베이니아대 와튼스쿨 경영학 석·박사

△(전)KBS 선거예측조사 자문위원

△(현)국방대 경영학과 교수