#통계
-
학습 길잡이 기타
거인의 키에 속지 않는 지혜, 통계로 배우죠 [재미있는 수학]
2025년, 한국의 유튜브 채널 ‘김프로(KIMPRO·사진)’가 연간 조회수 약 775억 회로 전 세계 1위에 올랐다는 뉴스가 소개되며 화제가 되었습니다. 추정 연 수입만 약 1700억원대로, 이를 보면 누구나 ‘나도 유튜버나 해볼까?’라는 생각을 갖게 합니다. 하지만 유튜브의 세상이 정말 모두에게 장밋빛일까요?유튜브의 전체 수익 데이터는 외부에서 정확하게 파악하기 어렵습니다. 구글은 개별 유튜버의 정확한 정산 내역을 공개하지 않으며, 광고 단가가 시청 국가, 영상의 길이, 광고 유형(숏츠 vs 롱폼), 시청 연령대 등에 따라 천차만별이기 때문입니다. 다만 국내의 경우 국세청 자료를 살펴보면 대략 파악이 가능합니다. 1인 미디어, 유튜브 창작자 소득은 0.1%의 1인당 평균 수입이 49.3억원, 상위 1%는 13억 원 수준이고, 상위 10%가 전체 수입의 약 절반을 가져가는 쏠림 구조를 나타냅니다. 따라서 우리가 보는 추정치는 대개 ‘김프로’ 같은 초고소득자를 기준으로 계산된 평균의 그림자일 수 있습니다.다른 사례를 살펴보겠습니다. 1980년대 중반, 미국 노스캐롤라이나 대학교(UNC)의 전공별 졸업생 초임 연봉 조사에서 놀라운 결과가 나왔습니다. 의대나 법대 같은 전통적인 고소득학과를 제치고 지리학과가 압도적 차이로 평균 연봉 1위를 차지한 것입니다. 당시 지리학과 졸업생들의 평균 연봉은 무려 25만 달러(현재 가치로 수십억 원 수준)를 상회한 것으로 집계되었습니다.왜 이런 현상이 나타났을까요? 알고 보니 그 졸업생 명단에 NBA의 농구 황제 마이클 조던이 포함돼 있었기 때문입니다. 조던은 1981년 노스캐롤라이나대에 입학해 문화지리학(Cultural Geography)을 전공했습니다. 조던은 NBA
-
학습 길잡이 기타
"99% 정확"…이 말엔 어떤 조건이 숨어있을까요?
복권 광고나 기사를 보면 이런 문구를 자주 보게 됩니다. “1등 당첨금 약 20억 원!”이라든가 “1등 예상 당첨금 20억 원!” 같은 말들입니다. 고등학교에서 확률과통계를 배우다 보면, 수업 시간에도 비슷한 표현이 슬며시 따라 나옵니다. “그 정도면 한 번 시도에 5만 원쯤 나오는 걸로 기대하면 되는 거죠?” 같은 말들입니다.언어적으로는 너무 자연스럽습니다. 선생님 입장에서도 고개가 끄덕여집니다. 그런데 수학의 입장에서 엄밀히 보자면 살짝 고개를 갸웃해야 만드는 표현이기도 합니다. 이 ‘자연스러운 말’과 ‘수학의 말’ 사이에 있는 간극을, 특히 확률과 통계에서 몇 가지 골라 살펴보려 합니다.고등학교 선택과목인 확률과통계에서 배우는 기댓값은 한 번의 결과를 말하는 것이 아닙니다. 동전을 던져서 앞면이 나오면 1000원, 뒷면이 나오면 500원을 받는 게임을 생각해봅시다. 앞면과 뒷면이 나올 확률은 각각 2분의 1이므로, 이 게임의 기댓값은 1000원 × 1/2, 500원 × 1/2을 더한 750원이 됩니다. 언어적으로 받아들이면 자연스럽게 이렇게 말하고 싶어집니다. “이 게임은 750원을 기대할 수 있는 게임이다.”그런데 실제로 이 게임을 해보면 750원을 받는 경우는 단 한 번도 없습니다. 받을 수 있는 돈은 언제나 1000원이나 500원뿐입니다. 수학에서 말하는 기댓값은 “아주 많이 반복했을 때, 한 번당 평균적으로 얼마쯤이 되는가”를 나타내는 값이라고 볼 수 있습니다. 한 번의 시행에서 “이번에 나에게 나올 값”이 아니라, 아주 여러 번 반복해서 얻은 값을 모두 더한 뒤 시행 횟수로 나누었을 때 가까워지는 평균값을 뜻하는 셈입니다. 그
-
생글기자
통계 속임수에 넘어가지 않으려면?
우리는 수많은 정보를 접하며 살아간다. 하지만 모든 정보가 신뢰할 만한 것은 아니다. 겉보기에 정확해 보이는 정보에도 통계적 속임수가 숨어 있을 수 있다. 이러한 속임수에 넘어가지 않고 올바른 판단을 내리려면 어떻게 해야 할까?흔히 사용하는 속임수 중 하나는 작은 표본을 활용하는 것이다. 100명 중 2명이 약품의 효과를 봤다면 2%이지만, 10명 중 2명이 효과를 봤다면 20%가 된다. 표본이 작을수록 우연에 의한 변동성이 커져 효과가 과장될 가능성이 높다. 의도적으로 작은 표본을 사용해 효과를 부풀리는 기업들이 있다. 따라서 소비자는 표본 크기에 유의해야 한다.통계에서 중요한 개념이 유의 수준이다. 유의 수준이 5%라면 신뢰 수준은 95%이다. 유의 수준이 낮을수록 해당 통계의 신뢰도가 높다고 보면 된다. 많은 광고나 기사에서 유의 수준을 명확히 제시하지 않는다. 소비자는 통계를 접할 때 반드시 유의 수준이 얼마인지를 확인할 필요가 있다.통계를 볼 때는 평균뿐 아니라 분포 범위(편차)도 봐야 한다. 대표적 사례가 ‘게젤의 준거’ 연구다. 이 연구는 아기가 생후 몇 개월에 혼자 앉을 수 있는지를 조사한 것이다. 연구 결과를 보도하는 과정에서 편차가 생략됐다. 이에 많은 부모가 “우리 아이가 평균보다 늦다”라며 불필요한 고민에 빠졌다.통계는 유용한 도구지만, 잘못 활용하면 왜곡된 판단을 내리게 한다. 통계를 비판적으로 해석하는 태도를 기른다면 좀 더 현명한 소비자가 될 수 있다.조승민 생글기자(세종국제고 2학년)
-
학습 길잡이 기타
정확한 예측 위해서는 표본 선정을 잘 해야
2024년 4월 10일, 제22대 국회의원 선거가 실시됩니다. 선거일 현재 18세 이상의 국민이 선거권을 지닌 만큼 고등학생 중 일부 학생은 이번에 첫 투표를 하게 될 것입니다. 선거일이 다가올수록 TV나 신문 등 언론매체에서 각종 여론조사 결과를 발표하고 있습니다. 이 여론조사 결과를 보면 사회집단 구성원 속 여론의 동향을 알아볼 수 있기 때문에 정치인이나 유권자가 서로를 이해하는 데 도움을 줍니다. 그런데 여론조사에서는 전체 구성원의 의견을 묻는 것이 아닌 일부만 뽑아서 표본조사를 합니다. 이에 대해 한번 알아봅시다.통계조사에서 조사 대상이 되는 집단 전체를 조사하는 것을 ‘전수조사’라고 합니다. 그런데 전수조사는 많은 시간과 비용이 필요할 뿐 아니라 전수조사 자체가 불가능한 경우도 있습니다. 이 때문에 조사 대상이 되는 집단 전체에서 일부분만 뽑아 조사하는 표본조사를 실시합니다.표본조사에서 조사 대상이 되는 집단 전체를 ‘모집단’이라 하고, 모집단에서 뽑은 일부분을 ‘표본’이라고 합니다. 또 모집단에서 표본을 뽑는 것을 ‘추출’이라고 합니다.표본조사의 목적은 표본에서 얻은 정보를 바탕으로 모집단의 특성을 추측하는 데 있습니다. 따라서 모집단의 특성이 잘 반영되도록 표본을 택하는 것이 중요합니다. 이를 위해서는 추출되는 표본이 모집단의 어느 한 부분에 편중되지 않아야 한다. 표본추출이 잘못된 한 가지 사례를 소개합니다.미국에서는 오래전부터 선거 여론조사를 통해 선거 결과를 예측해 보도했습니다. 미국의 대중 잡지 <리터러리 다이제스트>는 전화번호부와 자동차 등록부를 이용해 선정된 조사 응답자를 대상으
-
경제 기타
통계와 놀아볼까
초·중학생용 경제·논술신문 ‘주니어 생글생글’의 이번 주 커버스토리 주제는 통계입니다. ‘우리 가족의 몸무게 변화’ ‘집안일에 따른 용돈 체계’ 등 주변에서 쉽게 만날 수 있는 숫자들을 정리하면 그것 자체로 통계가 된다는 점을 설명해 친숙하게 받아들이도록 했습니다. 주니어 생글생글 기자들도 주변에서 통계로 작성할 만한 사례를 찾아 기사로 보내왔습니다.추석 연휴로 생글생글 9월 12일자는 쉽니다.
-
커버스토리
남녀 인구, 소와 말의 숫자 기록…통일신라때도 통계 작성
통계(統計)를 뜻하는 영단어 Statistics는 확률 또는 상태를 의미하는 라틴어 Statistcus와 Statisticum, 혹은 나라를 의미하는 이탈리아어 Statista에서 유래했다는 이야기가 있습니다. 어원부터 국가의 운영과 관련이 있다는 것을 짐작할 수 있죠. 수천 년 전부터 국가는 세금을 걷기 위해 인구조사를 했을 것입니다. 현존하는 우리의 가장 오래된 기록인 통일신라시대의 민정문서를 보면 조세와 노동력 파악을 위해 서원경(지금의 청주지역) 4개 촌락의 노비를 포함한 남녀 인구수, 소·말의 숫자, 뽕나무 그루수 등이 자세히 적혀 있다고 합니다. 1239건의 국가승인통계오늘날에도 통계는 현상에 대한 이해와 국가 간 비교 등을 위해 국가 등 공신력 있는 곳에서 작성하고 있습니다. 우리의 경우 6월 현재 정부와 지방자치단체, 금융기관, 공기업, 각종 협회 등 427개 기관에서 1239건의 각종 ‘국가승인통계’를 작성해 발표하고 있습니다. 가장 큰 인구주택총조사통계는 5년마다 발표됩니다. 국가통계포털에 들어가면 각종 통계자료를 다 볼 수 있어요.공공부문 이외에 민간에서도 필요에 따라 통계를 작성합니다. 예컨대 제빵업체에서는 날씨 통계와 제품 판매량을 토대로 27도 이상의 맑은 날씨에는 샌드위치가 가장 잘 팔리고, 비가 오는 20도 안팎 날씨에는 소시지빵 등 고명을 올린 조리빵이 잘 팔린다는 등 분석을 해서 생산계획에 반영한다네요.통계는 수량적 자료들을 있는 그대로 다 모으는 기술통계와 모집단에서 일부 표본을 추출해 조사한 뒤 모집단 전체의 특성을 추정하는 추리통계로 나뉘기도 하고 조사시기에 따라 월이하, 분기, 반기, 연간, 1년 이상으로 세분하거나 작성방법에 따라 각종 수
-
커버스토리
통계, 숫자에 담긴 함정을 피하려면…
홍남기 부총리 겸 기획재정부 장관은 지난달 20일 “1분기 소득 분배 상황이 크게 개선돼 코로나19 이전보다 크게 나아졌다”고 발표했습니다. 통계청이 매 분기 발표하는 가계동향조사에서 소득 불평등 정도를 가늠하는 ‘5분위 배율’이 좋아졌다는 근거에서입니다. 소득 상위 20%의 평균 소득을 하위 20%의 평균 소득으로 나눈 5분위 배율은 수치가 높을수록 불평등이 악화하고 낮을수록 완화했음을 의미합니다.올해 1분기 5분위 배율은 6.30배인데 올해 처음으로 1인 가구를 포함해 계산한 수치입니다. 지난해까지는 2인 이상 가구만 대상으로 조사했는데, 1인 가구까지 포함했다고 가정하면 지난해 1분기 6.89배에서 올해 수치가 낮아졌다는 논리입니다. 하지만 지난해 1분기 공식 발표된 5분위 배율은 5.41배입니다. 공식 발표 수치만 비교해 보면 불평등이 악화한 것이죠. 정치권과 야당에서는 정부에서 불평등 정도가 개선됐다고 홍보하기 위해 2인 가구 이상에서 1인 가구 포함까지 기준을 달리 해 통계를 왜곡했다고 비판하고 있습니다.통계는 자연·사회 현상을 숫자로 계량화한 정보입니다. 통계를 내는 것은 시간과 공간 등 여러 기준에 따른 비교와 대조를 통해 자연·사회 현상을 정확히 이해하기 위해서입니다. 또 통계상으로 나타나는 흐름을 토대로 미래를 예측하거나, 표본조사를 통해 전체적인 윤곽을 그리기도 합니다. 그러한 이해를 바탕으로 정책을 펴거나 새로운 제도를 도입해 우리 사회를 더 나은 방향으로 이끌어가려는 것입니다. 실제로 ‘백의의 천사’로 알려진 나이팅게일은 1853년 크림전쟁 당시 야전병원의 입원, 부상, 사망원인 등에 관한 내역을 통계로 작
-
커버스토리
100% 늘어난 상어 공격?…실제론 2→4건으로 증가
통계는 숫자로 표현된 과거입니다. 미래에 대한 통계가 있을 수 없는 이유죠. 통계가 중요한 이유는 통계를 통해 과거의 패턴을 살펴보고 모형화해서 미래를 짐작해볼 수 있기 때문입니다. 통계는 있는 그대로 산출돼야 합니다. 예를 들어 당국이 경제성장률이나 실업률 통계를 낼 때 관련된 숫자를 편의에 따라 부풀리거나 줄인다면, 우리는 그 통계를 믿지 못합니다. 잘못된 통계는 잘못된 해결책을 내게 되고 결국, 통계 하나가 국가의 자원을 불필요하게 소모하게 만들고 맙니다.우리가 각종 통계를 정확하게 보기 위해선 기본적인 식견이 있어야 합니다. 통계를 제대로 보는 데 방해를 일으키는 요소는 많습니다. 편견은 대표적인 장애물입니다. 편견을 가지면 보고 싶은 것만 보고 자기가 옳다고 생각하는 것만 믿는 확증편향에 빠집니다. 잘못된 지식과 정보도 통계를 잘못 읽게 합니다. 퍼센트(%)와 퍼센트포인트(%p)를 구분하지 못하면 오류에 빠집니다. 책 두 권을 소개하겠습니다. 《통계의 함정》이라는 책과 《팩트풀니스》입니다. 여름 방학 때 사서 꼭 읽어보세요.통계를 볼 때 절대치와 상대치를 제대로 구분할 줄 알아야 합니다. 예를 들어 5년 전보다 바다 상어 공격 피해가 두 배 증가했다는 통계 기사가 있다고 칩시다. 여러분은 아마 바다에서 수영하기 싫을 겁니다. 두 배는 위험의 상대수치입니다. 실상은 2건에서 4건으로 늘어난 것인데, 과장을 좋아하는 언론은 두 배 늘었다고 표현합니다. 5년간 겨우 2건이 늘었을 뿐이죠.이런 절대치와 상대치 바꿔치기는 의외로 많이 나옵니다. 관심을 끌려 할 때 이런 수법이 동원됩니다. 바다로 놀러 가는 수많은 사람 중 사고가 4건밖에 발생하지 않았