“세상에는 세 가지 거짓말이 있다. 그럴듯한 거짓말, 새빨간 거짓말, 그리고 통계다.”
영국 빅토리아 여왕(재위 1837~1901년) 시대 총리를 지낸 벤저민 디즈레일리의 말이다. 과학적 수치라고 알려진 통계가 사실은 쉽게 왜곡될 수 있다는 것을 강조한 표현이다. 정책이나 정치인에 대한 사람들의 의견을 묻는 여론 통계도 마찬가지다.
지난 4월13일 치러진 20대 총선에서 국내 조사기관들이 수집한 여론통계 역시 민심을 제대로 반영하지 못했다는 비판을 받고 있다. 막판 여론 수치는 집권 여당의 과반 의석을 점쳤지만 결과는 제1당마저도 야당에 내주는 완패였다. 왜 이러한 현상이 빚어지는 것일까. 무엇보다 조사기관이 통계조사의 ABC를 제대로 지키지 않았기 때문이다.
한국외국어대 김춘식 교수 연구에 따르면 조사하는 과정에서 표본추출에 문제가 있었고 이렇게 집계한 결과를 해석하는 과정에서 또한 문제가 있었다.
통계조사의 목적은 한 마디로 모집단을 파악하기 위한 것이다. 모집단(국민전체 또는 지역 주민 전체)을 모두 조사할 수 없으므로 그중 일부를 표본으로 축출해 조사한 후 그 결과를 보고 모집단을 추정하는 것이다. 따라서 통계가 정확하려면 무엇보다 표본이 모집단을 대표할 수 있어야 한다. 하지만 현실에서는 그렇지 못하는 경우가 종종 발생한다. 조사 의뢰기관의 예산 제약으로 표본을 너무 작게 선정했을 경우 추정의 신뢰성이 떨어질 수 있다. 표본이 충분히 크다고 하더라도 표본이 한쪽으로 몰려서는 안 된다. 일반적으로 표본은 아무리 작아도 500명 이상이어야 하고 연령·소득별로 편향되지 않도록 무작위로 뽑아야 한다.
통계의 왜곡은 조사 결과를 활용할 때도 나타난다. 2차 세계대전 당시 신병 모집을 위한 미국 해군 광고는 통계가 어떻게 사실을 왜곡하는지를 보여준다. ‘같은 기간 해군 전사자는 1000명당 9명인데 반해 뉴욕 시민 사망자는 1000명당 16명….’ 언뜻 해군 입대가 평범한 뉴욕 시민보다 더 안전하다는 생각을 들게 한다. 한데 이건 착각이다. 건강한 20대 장병들과 고령의 노인, 영유아들이 모두 포함된 시민을 단순 비교하는 것 자체가 모순이기 때문이다. 사람들이 통계 결과를 일부 인용함으로써 사실을 과장하기도 한다. 통계상 1명이 2명이 되면 증가율은 100%다. 하지만 증가 인원을 빼고 100% 늘었다고만 하면 엄청나게 증가한 것으로 사실을 왜곡할 수 있다. 상점이 ‘50+20% 할인’이라는 세일 문구를 내걸었다고 하자. 이 경우 할인율을 70%라고 생각하면 이 또한 착각이다. 이건 50% 할인 후에 추가로 20%를 깎아준다는 의미이기 때문에 실제 할인율은 60%다. 통계자료는 중요한 정책을 수립할 때 많이 활용된다. 통계자료를 잘못 생산하거나 잘못 활용하면 나라 정책이 잘못된 방향으로 나아갈 수 있다. 4, 5면에서 통계에서 일반적으로 범하기 쉬운 오류와 20대 총선 여론조사에서 나타난 문제점 등을 알아본다. 통계를 제대로 이해하자.
신동열 한국경제신문 연구위원 shins@hankung.com
영국 빅토리아 여왕(재위 1837~1901년) 시대 총리를 지낸 벤저민 디즈레일리의 말이다. 과학적 수치라고 알려진 통계가 사실은 쉽게 왜곡될 수 있다는 것을 강조한 표현이다. 정책이나 정치인에 대한 사람들의 의견을 묻는 여론 통계도 마찬가지다.
지난 4월13일 치러진 20대 총선에서 국내 조사기관들이 수집한 여론통계 역시 민심을 제대로 반영하지 못했다는 비판을 받고 있다. 막판 여론 수치는 집권 여당의 과반 의석을 점쳤지만 결과는 제1당마저도 야당에 내주는 완패였다. 왜 이러한 현상이 빚어지는 것일까. 무엇보다 조사기관이 통계조사의 ABC를 제대로 지키지 않았기 때문이다.
한국외국어대 김춘식 교수 연구에 따르면 조사하는 과정에서 표본추출에 문제가 있었고 이렇게 집계한 결과를 해석하는 과정에서 또한 문제가 있었다.
통계조사의 목적은 한 마디로 모집단을 파악하기 위한 것이다. 모집단(국민전체 또는 지역 주민 전체)을 모두 조사할 수 없으므로 그중 일부를 표본으로 축출해 조사한 후 그 결과를 보고 모집단을 추정하는 것이다. 따라서 통계가 정확하려면 무엇보다 표본이 모집단을 대표할 수 있어야 한다. 하지만 현실에서는 그렇지 못하는 경우가 종종 발생한다. 조사 의뢰기관의 예산 제약으로 표본을 너무 작게 선정했을 경우 추정의 신뢰성이 떨어질 수 있다. 표본이 충분히 크다고 하더라도 표본이 한쪽으로 몰려서는 안 된다. 일반적으로 표본은 아무리 작아도 500명 이상이어야 하고 연령·소득별로 편향되지 않도록 무작위로 뽑아야 한다.
통계의 왜곡은 조사 결과를 활용할 때도 나타난다. 2차 세계대전 당시 신병 모집을 위한 미국 해군 광고는 통계가 어떻게 사실을 왜곡하는지를 보여준다. ‘같은 기간 해군 전사자는 1000명당 9명인데 반해 뉴욕 시민 사망자는 1000명당 16명….’ 언뜻 해군 입대가 평범한 뉴욕 시민보다 더 안전하다는 생각을 들게 한다. 한데 이건 착각이다. 건강한 20대 장병들과 고령의 노인, 영유아들이 모두 포함된 시민을 단순 비교하는 것 자체가 모순이기 때문이다. 사람들이 통계 결과를 일부 인용함으로써 사실을 과장하기도 한다. 통계상 1명이 2명이 되면 증가율은 100%다. 하지만 증가 인원을 빼고 100% 늘었다고만 하면 엄청나게 증가한 것으로 사실을 왜곡할 수 있다. 상점이 ‘50+20% 할인’이라는 세일 문구를 내걸었다고 하자. 이 경우 할인율을 70%라고 생각하면 이 또한 착각이다. 이건 50% 할인 후에 추가로 20%를 깎아준다는 의미이기 때문에 실제 할인율은 60%다. 통계자료는 중요한 정책을 수립할 때 많이 활용된다. 통계자료를 잘못 생산하거나 잘못 활용하면 나라 정책이 잘못된 방향으로 나아갈 수 있다. 4, 5면에서 통계에서 일반적으로 범하기 쉬운 오류와 20대 총선 여론조사에서 나타난 문제점 등을 알아본다. 통계를 제대로 이해하자.
신동열 한국경제신문 연구위원 shins@hankung.com