Cover Story 표본 추출이 관건… 자칫 잘못하면 신뢰 추락

여론조사는 맞기도 하고 틀리기도 한다. 원래 예측이란 것이 그런 것이다. 하지만 예측 결과가 미치는 파장은 크다. 예측을 제대로 한 곳은 우쭐대고, 제대로 못한 곳은 뭇매를 맞기도 한다. 여론조사 기관으로서 신뢰성에 큰 타격을 받는다. 맞으면 본전, 틀리면 망신이다.

세계 최대 여론조사 기관인 갤럽은 지난 6일 끝난 미국 대통령선거 예측에서 톡톡히 망신을 당했다. 갤럽의 조사 결과가 실제와 크게 달랐기 때문. 갤럽은 마지막 여론조사에서 공화당의 미트 롬니 후보가 민주당의 버락 오바마 대통령을 49% 대 48%로 앞선다는 결과를 발표했다.

#갤럽, 미국 대선 예측 꼴찌

갤럽은 뉴욕타임스가 대선 직전 3주간 5개 이상의 여론조사를 실시한 23개 기관의 정확도 분석에서도 꼴찌를 했다. 뉴욕타임스가 분석한 자료에 따르면 갤럽은 여론조사 결과와 실제 결과 간 격차가 가장 컸다. 갤럽이 3주 동안 진행한 11회의 조사 평균에서 롬니 후보의 지지율은 실제 득표보다 7.2%포인트나 높게 나타났다. 1위는 실제 양측 득표율 차이인 2.5%포인트와 0.1%포인트를 낸 TIPP가, 2위는 0.2%포인트 차이를 낸 구글이 각각 차지했다.

뉴욕타임스는 휴대폰을 조사 대상에 포함한 기관들의 오차는 평균 3.5%포인트로, 집전화만을 조사한 기관의 평균 오차 4.7%포인트보다 낮았다. 현대 미국인 중 3분의 1이 집전화 없이 휴대폰만 사용 중이며 이들 중 상당수가 민주당 지지층인 흑인이거나 중남미계인 히스패닉이기 때문이라는 분석이다. 이 점을 놓친 갤럽은 결국 세계 최대 여론조사 기관이라는 명성에 스스로 먹칠을 한 셈이 됐다.

#예측 잘못했다가'폐간'

갤럽은 망신을 당하는 데 그쳤지만 역사적으로 여론조사를 잘못해 망한 곳도 있었다. ‘리터러리 다이제스트(The Literary Digest)’라는 미국 잡지사는 1936년 미국 대통령선거에서 공화당의 알프레드 랜던이 민주당의 프랭클린 루스벨트를 누를 것이라고 예측해 대서특필했다. 하지만 결과는 정반대였다. 61% 대 37%로 뉴딜정책을 내건 루스벨트가 이겼다. 이 잡지는 2년 뒤인 1938년 폐간했다. 조사가 틀린 이유는 이렇게 분석됐다. “이 잡지가 자동차와 전화를 가진 구독자 1000만명에게 엽서를 보내 이 중 응답자 230만명의 엽서를 토대로 분석한 수고를 아끼지 않았지만 잡지를 구독하지 않는 대신 루스벨트의 뉴딜정책을 옹호한 저소득층의 표심을 제대로 반영하지 못했다.”

트루먼 대 듀이 간 미국 대통령선거 여론조사와 실제 결과는 충격 자체였다. 갤럽은 해리 트루먼(민주당) 대 토머스 듀이(공화당) 간 대통령선거에서 듀이의 승리를 예측했지만 트루먼이 당선돼 망신을 당했다. 부동층을 제대로 반영하지 않는 실수를 범했다.

한국의 방송 3사인 KBS MBC SBS도 선거 예측에서 잘 틀리는 것으로 악명이 높다. 국회의원을 뽑는 지난 15대 총선 이후 4차례 연속 예측에 실패했다. 16대 총선에서 민주당이 다수당이 될 것으로 예측했지만 정반대로 한나라당이 112석으로 제1당에 올랐다. 17대 총선에서도 당시 여당이던 열린우리당이 163~172석을 차지, 압승할 것으로 예측했지만 실제론 152석에 불과했다. 당시 빗나간 예측으로 KBS, MBC는 해명 방송을, SBS는 사과 방송을 내보내기도 했다. 지난 18대 총선에선 당시 여당이던 한나라당의 의석 수를 170석으로 예상했지만 최종 개표 결과 153석에 그쳤다. 지난 4·11 19대 총선에서도 3사는 여소야대를 예측했으나 당시 한나라당이 과반을 넘어서는 선전을 해 망신을 샀다.

#상황에 따라 결과 딴판

여론조사 결과가 틀리는 가장 큰 원인은 조사 비용과 조사 시간의 제약으로 통계 원칙이 제대로 적용되지 않기 때문이다. 가령 전화 조사를 할 때 대상자가 전화를 받지 않으면 몇 시간 후 다시 연락해야 하는데 조사자가 응답자를 채우기 위해 다른 사람으로 임의 교체한다.

이렇게 할 경우 낮시간에 전화를 받을 수 있는 가정주부나 노인들이 더 조사에 응할 가능성이 있고 결국 통계 왜곡으로 귀결된다. 표본이 많이 바뀌면 아예 조사계획을 포기해야 한다.

질문 내용도 오류를 발생시키는 원인이다. 기업이라는 단어 대신 재벌이나 경제권력이라는 부정적인 단어를 써 부정적인 답을 유도하는 것은 금물이다. 정치 지도자 조사의 경우 ‘누구가 될 것 같은가’와 ‘어떤 사람을 좋아하느냐’는 질문은 천양지차의 결과를 낸다. 누가 조사하느냐에 따라서도 달라진다. 정당 조사를 정당 소속 연구소가 한다면 자기 당에 유리한 질문과 결과를 내게 된다. 사회 상황도 영향을 미친다. 가령 잔인한 연쇄살인범이 잡힌 날 사형제 폐지를 묻는 조사를 하면 사형제 존속 여론이 우세하다. 반면 사형이 집행된 뒤 무죄로 밝혀진 날 사형제 폐지를 물으면 당연히 폐지 여론이 높게 나온다. 여론조사는 또 결과가 좋게 나타난 사람을 더 좋게 만드는 밴드왜건(bandwagon) 효과를, 혹은 열세자를 동정하는 언더도그(underdog) 효과를 낳기도 한다.

고기완 한국경제신문 연구위원 dadad@hankyung.com

< 논술 포인트 >

여론조사의 결과는 질문 내용, 질문서 문장구조, 조사 주체, 사회 상황 등에 따라 달라진다. 동일한 사안을 가지고 다른 결과를 만들어내는 조사를 교실에서 직접 해보자.

------------------------------------------------------------------------

신뢰 수준 95%, 오차범위 ±3.5%는 무슨 뜻?

여론조사 관련 전문용어

여론조사는 조사 목적을 정하는 것에서 시작된다. 조사 목적은 대통령선거 예측, 상품, 연예인, 국가정책 등 분야에 따라 다르다. 조사 목적이 정해지면 조사 대상으로 삼을 사람의 범위와 모집단을 설정한다. 이어 모집단에서 조사할 적당 수의 표본을 기준과 절차에 따라 추출한다. 이를 표본 추출이라고 한다. 표본 추출이 얼마나 잘 되느냐에 따라 결과의 정밀도가 달라진다.

조사 수단도 다양하다. 질문지를 만들어 부친 뒤 돌아온 회신지를 분석하는 우송법, 직접 만나 듣는 면접법, 전화나 문자 등을 이용하기도 한다. 모두 일장일단이 있다. 조사의 목적과 대상, 시간적 제약 등 여러 조건에 따라 방법을 선택하면 된다.

질문 방법은 명확하고 일정해야 한다. 비록 전화조사라고 하더라도 인쇄된 질문지를 써야 실수가 줄어든다. 질문지의 편집과 질문 배열, 질문 순서, 단어 사용 등에도 매우 신경써야 한다.

정확하게 알아둬야 할 용어도 있다. 먼저 응답률이다. 응답률 20%라는 말이 나오면 100명에 대해 조사를 시도했으나 80명은 거부하고 20명만 응답했다는 뜻으로 이해해야 한다. 조사로서 사실상 의미가 없는 것이다.

오차범위 ±3.5%라는 말은 지지율이 40%인 경우 지지율의 범위가 36.5~43.5% 사이라는 의미다. 최대 최소를 말한다고 보면 된다. 오차범위가 적을수록 정확하다는 뜻이기도 하다.

신뢰 수준 95%는 해당 여론조사를 95% 믿을 수 있다는 뜻이 아니다. 같은 조사를 100번 하면 오차범위 내 동일한 결과가 나올 횟수가 95번이라는 뜻이다. 이런 용어는 항상 여론조사 결과 발표 끝에 따라 붙는 것으로 조사의 신뢰성을 따져볼 수 있는 하나의 자료가 된다. 결국 오차범위가 크고 신뢰 수준이 낮으면 조사의 신빙성이 그만큼 떨어지는 셈이다.

생글생글

[Cover Story] 표본 추출이 관건… 자칫 잘못하면 신뢰 추락

[커버스토리] 관세협상 물꼬 튼…K-제조업의 힘

[커버스토리] 또 나온 빚탕감 정책…과연 정의로운가?

[커버스토리] 고물가에 집값 '들썩'…케인스는 뭐라고 할까