Cover Story
통계의 모든 것

통계를 뜻하는 영어 Statistics
어원은 확률 또는 나라를 의미

정부·지자체·각종 협회 등 발표
국가승인통계만 1천여건 넘어

작성의 범위·기준 명확히 살펴보고
'같은 기간' 비교도 분석의 기본
어운선 통계청 경제동향통계심의관이 지난달 31일 정부세종청사에서 2021년 4월 산업활동동향을 브리핑하고 있다. 국가통계를 총괄하는 통계청은 인구 고용 산업 교육 물가 등 67개 주요 통계를 발표하고 있다.  연합뉴스
어운선 통계청 경제동향통계심의관이 지난달 31일 정부세종청사에서 2021년 4월 산업활동동향을 브리핑하고 있다. 국가통계를 총괄하는 통계청은 인구 고용 산업 교육 물가 등 67개 주요 통계를 발표하고 있다. 연합뉴스
통계(統計)를 뜻하는 영단어 Statistics는 확률 또는 상태를 의미하는 라틴어 Statistcus와 Statisticum, 혹은 나라를 의미하는 이탈리아어 Statista에서 유래했다는 이야기가 있습니다. 어원부터 국가의 운영과 관련이 있다는 것을 짐작할 수 있죠. 수천 년 전부터 국가는 세금을 걷기 위해 인구조사를 했을 것입니다. 현존하는 우리의 가장 오래된 기록인 통일신라시대의 민정문서를 보면 조세와 노동력 파악을 위해 서원경(지금의 청주지역) 4개 촌락의 노비를 포함한 남녀 인구수, 소·말의 숫자, 뽕나무 그루수 등이 자세히 적혀 있다고 합니다. 1239건의 국가승인통계오늘날에도 통계는 현상에 대한 이해와 국가 간 비교 등을 위해 국가 등 공신력 있는 곳에서 작성하고 있습니다. 우리의 경우 6월 현재 정부와 지방자치단체, 금융기관, 공기업, 각종 협회 등 427개 기관에서 1239건의 각종 ‘국가승인통계’를 작성해 발표하고 있습니다. 가장 큰 인구주택총조사통계는 5년마다 발표됩니다. 국가통계포털에 들어가면 각종 통계자료를 다 볼 수 있어요.

공공부문 이외에 민간에서도 필요에 따라 통계를 작성합니다. 예컨대 제빵업체에서는 날씨 통계와 제품 판매량을 토대로 27도 이상의 맑은 날씨에는 샌드위치가 가장 잘 팔리고, 비가 오는 20도 안팎 날씨에는 소시지빵 등 고명을 올린 조리빵이 잘 팔린다는 등 분석을 해서 생산계획에 반영한다네요.

통계는 수량적 자료들을 있는 그대로 다 모으는 기술통계와 모집단에서 일부 표본을 추출해 조사한 뒤 모집단 전체의 특성을 추정하는 추리통계로 나뉘기도 하고 조사시기에 따라 월이하, 분기, 반기, 연간, 1년 이상으로 세분하거나 작성방법에 따라 각종 수치를 그대로 확인하는 조사, 행정신고 등을 취합하는 보고, 주어진 자료(1차 자료)를 목적에 맞게 편집하는 가공 등으로 분류하기도 합니다.
자료:통계청
자료:통계청
범위와 기준 등을 잘 살펴야소설 《톰 소여의 모험》으로 유명한 미국 작가 마크 트웨인은 “세상에는 세 가지 종류의 거짓말이 있다. 거짓말, 새빨간 거짓말, 그리고 통계”라고 말했다고 합니다. 통계는 누가 무슨 목적으로 어떻게 작성했느냐에 따라 달라질 수 있어서 그처럼 말한 모양입니다. 통계 작성의 범위와 기준은 어떻게 되는지, 표본 추출을 할 때 모집단을 대표할 만한 표본을 뽑았는지, 설문조사를 할 때 응답자가 제대로 답변했는지에 따라 통계자료는 믿을 만할 수도 있고 그렇지 않을 수도 있습니다. 이 때문에 통계를 비교해 볼 때는 몇 가지 지표를 주의해서 봐야 합니다.

가장 기본적으로는 범위가 어디까지냐입니다. 예컨대 나랏빚이 얼마냐를 따질 때 국가채무(D1)는 정부와 지방자치단체의 빚만 얘기하지만 일반정부부채(D2)는 근로복지공단 등 비영리 공공기관의 빚까지 포함합니다. 광의의 국가부채(D3)는 거기에 한국전력 등 비금융 공기업 빚까지 포괄하죠. 국제통화기금(IMF)이나 경제협력개발기구(OECD)는 국제비교를 위해 일반정부부채(D2)를 사용합니다.

시계열 분석의 기본은 ‘같은 기간’입니다. 예를 들어 농업을 분기별로 분석한다고 합시다. 1분기는 겨울이 포함돼 농작물 출하량이 적고 2분기는 봄과 초여름이어서 출하량이 많을 텐데 1, 2분기를 비교해 ‘2분기 농업이 호전됐다’고 해석하면 잘못된 분석일 것입니다. 올해 2분기가 지난해 2분기보다 출하량이 많았냐 적었냐를 따져야 올해 상황에 대한 바른 판단일 것입니다. 보통 ‘전년 동기 대비’ 즉 ‘지난해 같은 기간에 비해’로 대조해야 합니다. 하지만 국내총생산(GDP) 증가율 등은 ‘전년 동기 대비’뿐 아니라 ‘전 분기 대비’도 발표합니다. 3개월 전후의 상황을 비교함으로써 단기간의 경제 변화를 파악하는 데 유용하기 때문이죠. 물론 이때에도 농산물 수확, 설이나 추석 연휴에 따른 영업일수 차이 등 변수를 제거하는 계절조정(seasonal adjustment)을 한 데이터를 사용합니다.

기준도 잘 살펴야 합니다. 소득 5분위 배율처럼 통계를 비교하기 위해서는 기준이 동일해야 합니다. 통계기법의 발달에 따라 기준이 달라질 수는 있는데, 이때에도 달라진 기준에 따른 과거 통계수치도 함께 표시해야 합니다.

통계에서 흔히 쓰는 평균값에 대해서도 주의해야 합니다. 평균(mean)은 각 개체의 수치 합을 개체수로 나눈 값입니다. 그런데 예를 들어 직원이 100명인 회사에서 직원 연봉 평균은 5000만원인데 사장의 연봉이 100억원이면 회사 전체의 연봉 평균은 1억4851만원이 됩니다. 이런 극단적인 경우를 보정하기 위해 모든 데이터의 가장 가운데에 있는 중앙값(median)으로 전체를 가늠하기도 합니다.

통계는 4차 산업혁명 시대를 맞아 더욱 중시되고 있습니다. 빅데이터와 인공지능을 활용해 더욱 정확한 분석이 가능하기 때문이죠. 예를 들어 휴대전화에 생년월일을 입력하는 속도가 빠르면 개인의 신용도를 높게 평가하는 등 데이터가 많을수록 정교한 알고리즘을 만들 수 있다고 합니다.

정태웅 한경 경제교육연구소 연구위원 NIE 포인트① 우리나라가 통계 관련 법률을 통해 국가승인통계를 작성할 수 있는 기관과 시기를 규정한 이유는 무엇일까.

② 비교의 적합성을 위해 통계기준은 항상 고정해야 할까 아니면 경제사회 변화에 맞춰 기준도 조사할 때마다 조정해야 할까.

③ 인공지능(AI) 의사 왓슨은 각종 통계를 활용해 의사보다 더 정확한 진단을 한다는데, 데이터의 활용은 앞으로 얼마나 더 발전할까.