"거짓말쟁이들은 숫자를 이용할 궁리를 한다"
사람들은 대개 말보다는 글을,글보다는 숫자를 더 신뢰한다. 특히 숫자를 소수점 아랫자리까지 쓰면 더욱 신빙성이 높은 것으로 받아들인다. 경제 규모가 커지고 정보화된 사회일수록 사회 현상을 숫자로 표현하는 통계를 중요하게 여긴다. 그래서 영국의 작가 H. G. 웰스는 이미 100년 전에 "통계적 사고는 언젠가는 읽기나 쓰기와 마찬가지로 유능한 시민이 되기 위해 꼭 필요하게 될 것이다"라고 예언했다.
하지만 의문이 생긴다. 숫자는 과학적이고 어떤 편견도 담기지 않은 진실인가? 숫자로 표현된 통계에는 왜곡이 전혀 없는 것일까? 아니다. 오히려 "거짓말에는 세 종류가 있다. 거짓말,새빨간 거짓말,그리고 통계"라는 비아냥도 있지 않은가. 숫자와 통계의 마법에 대해 살펴보자.
◆숫자의 주술에서 탈출하라
오늘날 현대인의 일상은 온통 숫자로 가득차 있다. 사람을 재는 기준이 IQ나 몸무게,키 같이 숫자로 나타난다. 건강을 나타내는 혈압,혈당,근력,비만도 등도 모두 수치로 표시된다. 하루 일과 역시 오늘 기온,불쾌지수,비올 확률 등으로 시작해 출퇴근·통학길에 버스 번호나 지하철 출구,각종 전화번호,주민등록번호에다 학교 성적,석차까지 숫자 아닌 것이 없다. 생활 수준도 연봉과 아파트 평수로 가늠할 정도다.
대화에서 숫자를 자주 인용하면 그럴싸해 보이고 심지어 과학적으로 들린다. 숫자에 빠져 사는 현대인들에게는 하나의 믿음이 있다. 숫자는 거짓말을 하지 않는다는 것이다. 하지만 "거짓말쟁이들은 숫자를 이용할 궁리를 한다"는 경구도 있다. 따라서 미국의 수학자 존 파울로스는 "현대의 문맹은 읽지 못하는 게 아니라 숫자에 두려움을 갖고 손쉽게 다루지 못하는,즉 수문맹(innumeracy)"이라고 지적했다.
◆퍼센트의 마법에서 깨어나기
통계의 기본적인 표현 수단은 퍼센트(%)다. 사회 현상의 추이와 변화 정도를 표현하는 데 유용하기 때문이다. 하지만 이런 퍼센트는 경우에 따라 착시를 수반한다.
예컨대 IT거품 시기에 S사 주가는 500원에서 30만원까지 치솟았다. 600배 올라 상승률은 무려 6만%에 달했다. 이 주식은 부도가 나 300원으로 폭락했다. 하락률은 99.9%다. 많이 오르고 덜 떨어진 것처럼 느껴진다. 상승(증가)률은 '0~무한대%'로 확장되지만,하락(감소)률은 '0~100%'에서 움직이기 때문이다.
또 기준이 되는 모집단이 작을 때도 착각을 일으키기 쉽다. 1960년대 미국의 한 대학에서 여학생 입학을 허용한 뒤에도 반대론자들은 여학생의 33.3%가 교수와 결혼했다며 단점을 강조했다. 무척 많은 여학생이 그런 것 같지만 실제로는 처음 입학한 여학생 세 명 중 단 한 명만 교수와 결혼한 것이었다.
오차 범위를 무시하면 엉뚱한 결과가 생길 수도 있다. 선거 출구조사에서 "A후보의 지지율이 51%이고 신뢰 수준 95%에서 오차 ±5%포인트"라면 A후보는 당선이 확실한가? 이는 A후보 지지도가 전체 유권자를 대상으로 조사했을 때 46~56%(51±5%포인트) 사이에 있을 확률이 95%라는 것을 보여준다. 과반수에 미달해 낙선할 수도 있다.
◆통계는 선진사회 인프라
GDP,물가,실업률 등의 경제통계는 한국은행 통계청 등 국가기관이 작성한다. 사회 현실을 정확히 반영하는 통계여야 정책을 올바로 세울 수 있어 통계의 공신력이 강조된다. 하지만 일부 통계에선 엉뚱한 수치를 내놓아 혼동하게 만들기도 한다.
대표적인 것이 작년 8월 건설교통부가 처음 공개한 전국 아파트 실거래값 통계다. 서울 강남 3구(강남·서초·송파구)의 아파트 평균 가격이 석달 새 14.4% 떨어졌다는 것이다. 이 통계는 작년 3월에 거래된 아파트와 6월에 거래된 아파트의 평균 가격 변화율을 구한 것이었다. 6월에 고가 아파트 거래가 줄면서 평균 가격이 내려갔을 뿐,실제로는 5.7% 올랐다고 한다. 같은 아파트의 3월과 6월 가격을 비교한 게 아니라 서로 다른 아파트의 가격을 비교했으니 이런 오류가 생긴 것이다.
전종우 서울대 교수(한국통계학회장)는 "정부 통계의 부실이나 왜곡은 곧바로 국가 정책의 왜곡으로 이어져 국민 생활 전반에 큰 피해를 줄 수 있다"고 지적했다. 통계는 정부나 기업의 중요한 의사 결정에 기초 자료가 된다. 따라서 한 나라의 통계 수준은 선진사회인지를 가늠하는 중요한 잣대가 된다.
오형규 한국경제신문 연구위원 ohk@hankyung.com
▶참고;김진호,'통계상식 백가지'(현암사)
------------------------------------------------------------
■확률에 대한 착각-도박사의 오류와 머피의 오류
논리학에 '도박사의 오류'(gambler's fallacy)라는 것이 있다. 유럽의 도박도시인 몬테카를로에 빗대 '몬테카를로의 오류'라고도 한다. 각 게임이 확률적으로 독립되어 있는데도 그렇지 않다고 착각해서 생기는 오류다. 예를 들면 앞서 동전 앞면이 10번 나왔으니 이번엔 뒷면이 나올 것으로 믿거나,카지노에서 슬롯머신을 붙잡고 앉아 여태껏 잭팟이 터지지 않았으니 터질 때가 왔다고 믿는 도박사의 환상을 빗댄 말이다.
수학적 확률이론에선 "모든 사건은 앞에서 일어난 사건과 독립돼 있다"고 전제한다. 이는 마치 지난 3년 동안 로또에 당첨되지 않았다고 해서 앞으로 당첨확률이 높아지진 않는 것과 같다. 동전던지기의 뒷면이 나올 확률은 수없이 많이 던져봐야 2분의 1로 수렴한다.
머피의 법칙도 확률에 대한 착각에서 비롯됐다. 머피의 법칙은 잘못될 일은 꼭 그렇게 된다는 의미다. 이를 테면 "전화 받다 메모지를 찾으면 꼭 없다. 메모지가 있으면 볼펜이 없다. 메모지와 볼펜이 있으면 적을 게 없다" "찾는 물건은 항상 마지막에 찾는 곳에서 나온다" "전화번호를 잘못 눌렀을 때 통화 중인 경우는 없다" 등과 같은 식이다.
대개 누구나 경험한 듯한 일들이고,"맞아 맞아!" 할 사람들도 많겠지만 이는 사람들이 흔히 범하는 오류다. 수많이 경험은 너무 평범해서 제대로 기억조차 나지 않는 대신,당황했던 경험은 뇌리 속에 오래 새겨지기 때문이다. 사람은 쉽게 기억나는 일일수록 확률을 높게 매기는 경향이 있다. 만약 전화번호를 잘못 눌렀을 때 통화 중이라면 그냥 생각없이 다시 누르겠지만,누군가 받았다면 미안하다고 하고 끊어야 하니 상대적으로 오래 기억에 남는다. 잘못 누른 전화가 통화 중일 확률이 낮은 게 아니라 통화가 된 사실이 낯설기 때문에 늘 그런 것처럼 착각하는 것이다. 따라서 머피의 법칙은 '머피의 오류'로 바꿔 부르는 게 맞다.
사람들은 대개 말보다는 글을,글보다는 숫자를 더 신뢰한다. 특히 숫자를 소수점 아랫자리까지 쓰면 더욱 신빙성이 높은 것으로 받아들인다. 경제 규모가 커지고 정보화된 사회일수록 사회 현상을 숫자로 표현하는 통계를 중요하게 여긴다. 그래서 영국의 작가 H. G. 웰스는 이미 100년 전에 "통계적 사고는 언젠가는 읽기나 쓰기와 마찬가지로 유능한 시민이 되기 위해 꼭 필요하게 될 것이다"라고 예언했다.
하지만 의문이 생긴다. 숫자는 과학적이고 어떤 편견도 담기지 않은 진실인가? 숫자로 표현된 통계에는 왜곡이 전혀 없는 것일까? 아니다. 오히려 "거짓말에는 세 종류가 있다. 거짓말,새빨간 거짓말,그리고 통계"라는 비아냥도 있지 않은가. 숫자와 통계의 마법에 대해 살펴보자.
◆숫자의 주술에서 탈출하라
오늘날 현대인의 일상은 온통 숫자로 가득차 있다. 사람을 재는 기준이 IQ나 몸무게,키 같이 숫자로 나타난다. 건강을 나타내는 혈압,혈당,근력,비만도 등도 모두 수치로 표시된다. 하루 일과 역시 오늘 기온,불쾌지수,비올 확률 등으로 시작해 출퇴근·통학길에 버스 번호나 지하철 출구,각종 전화번호,주민등록번호에다 학교 성적,석차까지 숫자 아닌 것이 없다. 생활 수준도 연봉과 아파트 평수로 가늠할 정도다.
대화에서 숫자를 자주 인용하면 그럴싸해 보이고 심지어 과학적으로 들린다. 숫자에 빠져 사는 현대인들에게는 하나의 믿음이 있다. 숫자는 거짓말을 하지 않는다는 것이다. 하지만 "거짓말쟁이들은 숫자를 이용할 궁리를 한다"는 경구도 있다. 따라서 미국의 수학자 존 파울로스는 "현대의 문맹은 읽지 못하는 게 아니라 숫자에 두려움을 갖고 손쉽게 다루지 못하는,즉 수문맹(innumeracy)"이라고 지적했다.
◆퍼센트의 마법에서 깨어나기
통계의 기본적인 표현 수단은 퍼센트(%)다. 사회 현상의 추이와 변화 정도를 표현하는 데 유용하기 때문이다. 하지만 이런 퍼센트는 경우에 따라 착시를 수반한다.
예컨대 IT거품 시기에 S사 주가는 500원에서 30만원까지 치솟았다. 600배 올라 상승률은 무려 6만%에 달했다. 이 주식은 부도가 나 300원으로 폭락했다. 하락률은 99.9%다. 많이 오르고 덜 떨어진 것처럼 느껴진다. 상승(증가)률은 '0~무한대%'로 확장되지만,하락(감소)률은 '0~100%'에서 움직이기 때문이다.
또 기준이 되는 모집단이 작을 때도 착각을 일으키기 쉽다. 1960년대 미국의 한 대학에서 여학생 입학을 허용한 뒤에도 반대론자들은 여학생의 33.3%가 교수와 결혼했다며 단점을 강조했다. 무척 많은 여학생이 그런 것 같지만 실제로는 처음 입학한 여학생 세 명 중 단 한 명만 교수와 결혼한 것이었다.
오차 범위를 무시하면 엉뚱한 결과가 생길 수도 있다. 선거 출구조사에서 "A후보의 지지율이 51%이고 신뢰 수준 95%에서 오차 ±5%포인트"라면 A후보는 당선이 확실한가? 이는 A후보 지지도가 전체 유권자를 대상으로 조사했을 때 46~56%(51±5%포인트) 사이에 있을 확률이 95%라는 것을 보여준다. 과반수에 미달해 낙선할 수도 있다.
◆통계는 선진사회 인프라
GDP,물가,실업률 등의 경제통계는 한국은행 통계청 등 국가기관이 작성한다. 사회 현실을 정확히 반영하는 통계여야 정책을 올바로 세울 수 있어 통계의 공신력이 강조된다. 하지만 일부 통계에선 엉뚱한 수치를 내놓아 혼동하게 만들기도 한다.
대표적인 것이 작년 8월 건설교통부가 처음 공개한 전국 아파트 실거래값 통계다. 서울 강남 3구(강남·서초·송파구)의 아파트 평균 가격이 석달 새 14.4% 떨어졌다는 것이다. 이 통계는 작년 3월에 거래된 아파트와 6월에 거래된 아파트의 평균 가격 변화율을 구한 것이었다. 6월에 고가 아파트 거래가 줄면서 평균 가격이 내려갔을 뿐,실제로는 5.7% 올랐다고 한다. 같은 아파트의 3월과 6월 가격을 비교한 게 아니라 서로 다른 아파트의 가격을 비교했으니 이런 오류가 생긴 것이다.
전종우 서울대 교수(한국통계학회장)는 "정부 통계의 부실이나 왜곡은 곧바로 국가 정책의 왜곡으로 이어져 국민 생활 전반에 큰 피해를 줄 수 있다"고 지적했다. 통계는 정부나 기업의 중요한 의사 결정에 기초 자료가 된다. 따라서 한 나라의 통계 수준은 선진사회인지를 가늠하는 중요한 잣대가 된다.
오형규 한국경제신문 연구위원 ohk@hankyung.com
▶참고;김진호,'통계상식 백가지'(현암사)
------------------------------------------------------------
■확률에 대한 착각-도박사의 오류와 머피의 오류
논리학에 '도박사의 오류'(gambler's fallacy)라는 것이 있다. 유럽의 도박도시인 몬테카를로에 빗대 '몬테카를로의 오류'라고도 한다. 각 게임이 확률적으로 독립되어 있는데도 그렇지 않다고 착각해서 생기는 오류다. 예를 들면 앞서 동전 앞면이 10번 나왔으니 이번엔 뒷면이 나올 것으로 믿거나,카지노에서 슬롯머신을 붙잡고 앉아 여태껏 잭팟이 터지지 않았으니 터질 때가 왔다고 믿는 도박사의 환상을 빗댄 말이다.
수학적 확률이론에선 "모든 사건은 앞에서 일어난 사건과 독립돼 있다"고 전제한다. 이는 마치 지난 3년 동안 로또에 당첨되지 않았다고 해서 앞으로 당첨확률이 높아지진 않는 것과 같다. 동전던지기의 뒷면이 나올 확률은 수없이 많이 던져봐야 2분의 1로 수렴한다.
머피의 법칙도 확률에 대한 착각에서 비롯됐다. 머피의 법칙은 잘못될 일은 꼭 그렇게 된다는 의미다. 이를 테면 "전화 받다 메모지를 찾으면 꼭 없다. 메모지가 있으면 볼펜이 없다. 메모지와 볼펜이 있으면 적을 게 없다" "찾는 물건은 항상 마지막에 찾는 곳에서 나온다" "전화번호를 잘못 눌렀을 때 통화 중인 경우는 없다" 등과 같은 식이다.
대개 누구나 경험한 듯한 일들이고,"맞아 맞아!" 할 사람들도 많겠지만 이는 사람들이 흔히 범하는 오류다. 수많이 경험은 너무 평범해서 제대로 기억조차 나지 않는 대신,당황했던 경험은 뇌리 속에 오래 새겨지기 때문이다. 사람은 쉽게 기억나는 일일수록 확률을 높게 매기는 경향이 있다. 만약 전화번호를 잘못 눌렀을 때 통화 중이라면 그냥 생각없이 다시 누르겠지만,누군가 받았다면 미안하다고 하고 끊어야 하니 상대적으로 오래 기억에 남는다. 잘못 누른 전화가 통화 중일 확률이 낮은 게 아니라 통화가 된 사실이 낯설기 때문에 늘 그런 것처럼 착각하는 것이다. 따라서 머피의 법칙은 '머피의 오류'로 바꿔 부르는 게 맞다.