본문 바로가기
  • 디지털 이코노미

    '구글 독감 트렌드' 빅데이터 마법 같았지만…

    ‘데이터가 충분하면 스스로 말한다.’ 2008년 <와이어드(Wired)>에 실린 도발적인 기사다. 이는 데이터가 전체 모집단에 가까워진다면, 오랜 통계적 표본 추출 기법은 아무 쓸모가 없다는 주장이다. 과학적 모형도 필요없다는 주장마저 담겼다. 해당 결과가 맞는지 그렇지 않은지에 대한 이론을 개발할 이유도, 검증할 필요도 없다는 것이다.구글 엔지니어들은 ‘구글 독감 트렌드(Google Flu Trends)’를 만들면서 어떤 검색어가 독감 전파와 관련있는지에 대해 가설을 세우지 않았다. ‘김동영’보다 ‘독감 증상’ ‘근처 약국’ 같은 검색어가 독감 발생과 밀접하다는 상식적인 추론이 가능하지만 구글팀은 전혀 고려하지 않았다. 단지 상위 5000만 개의 검색어를 입력하고 알고리즘이 파악하도록 했다. 한때 구글의 독감 트렌드는 빅데이터와 알고리즘이 만들어 낸 새로운 세상의 상징이었다. 구글 독감 트렌드는 5000만 개의 검색어를 분석하는 패턴 인식 알고리즘이다. 이를 통해 추가 독감 발생 사례에 관한 질병통제예방센터 발표와 일치하는 검색어를 찾는다. 실제 여러 해 겨울에 독감 발생 현황을 안정적으로 알려줬지만 이들의 추정은 과장됐음이 입증됐다. 느리지만 꾸준히 업데이트되는 질병통제예방센터의 데이터는 이들 추정이 실제보다 두 배만큼 과장된 경우가 있음을 찾아냈다. 문제는 2009년에도 발생했다. 여름 독감이 발생하자 구글 독감 트렌드는 아무런 힘을 쓸 수 없었다. 겨울의 징후에만 반응하도록 설계된 탓이었다. 이번에는 실제 발병 사례가 구글의 추정보다 네 배나 높게 나왔다. 연구진은 구글 독감 트렌드를 특별한 이유 없이 폐기해버렸다. 빅데

  • 과학과 놀자

    수천억 개 은하의 정보로 수치 알고리즘 만들어 추론해

    모닥불 주변에 둘러앉아 치열했던 사냥을 회상하고 '불멍'을 즐기기 시작했을 즈음. 아마도 그때부터 원시 인류는 고개를 들어 밤하늘이 무엇인지 궁금해하기 시작했을 것이다. 만져지지 않는 밤하늘의 정체를 설명하고자 인류는 갖은 상상력을 펼쳐왔다. 상상의 흔적은 대상을 일컫는 이름에서도 찾아볼 수 있는데, 밤하늘을 가로지르는 무수한 별들의 무리를 가리켜 한자 문화권에서는 은빛 강물이라는 뜻의 은하수(銀河水), 영미권에서는 우윳빛 길이라는 뜻으로 'galaxy' 혹은 'milky way'라 불러왔다.인류의 지식체계가 견고해짐에 따라, 은빛 강물이나 우윳빛 길처럼 보이는 것은 인류가 거주하고 있는 ‘우리은하’의 단면에 해당한다는 것을 알게 됐다. 은하도 진화한다우리은하에는 태양처럼 스스로 빛을 내는 별이 대략 100억 개 존재하고 있는 것으로 알려져 있다. 각각의 별은 그 크기에 따라 다양한 수의 행성을 거느리고 있는데, 우리 지구도 평범한 별에 딸린 행성 중 하나다. 별들 사이의 공간은 새로운 별이 만들어지는 데 쓰일 가스구름으로 채워져 있다. 우리은하는 별과 행성, 가스구름 등으로 이뤄진 거대한 생태계라고 볼 수 있다. 100억 년에 달하는 시간 동안 서서히 지금의 형태를 갖추게 된 우리은하는 지금 이 순간에도 변화하고 있다. 천문학자는 이렇게 영겁의 세월을 거쳐 살아 있는 생명체처럼 변화하는 우리은하의 모습을 두고 줄곧 ‘진화한다’고 표현한다. 별들의 섬, 은하로 우주를 이해하기관측 가능한 우주에는 우리은하와 같은 은하가 수천억 개 존재하고 있을 것으로 추정된다. 일반적인 은하의 크기는 10만 광년(빛이 10만 년 동안 이동하

  • 디지털 이코노미

    디지털 시대 평판은 플랫폼 비즈니스의 핵심요소

    2015년 아마존은 1114개의 입점 기업을 고소했다. 별 다섯 개짜리 가짜 리뷰를 인터넷 홍보 업체를 활용해 올렸기 때문이다. 다음해 가짜 리뷰를 구매하는 기업은 더 많아졌다. 아마존은 이들 역시 고소했다. 평판은 수요자와 공급자 모두를 머물게 하는 아마존 플랫폼 사업의 핵심 요소이기 때문이다. 평판이 중요한 분야는 전자상거래뿐만이 아니다. 채용 과정에서 지원자가 SNS에 올린 글이나 영상정보, 친구나 친척이 남긴 부적절한 언급, 전 직장 동료나 고객을 비판한 언급 등 디지털 측면의 인적사항이 탈락 여부에 영향을 미치는 요인이 된다. 평판의 특성평판은 사람들이 나에 대해 갖는 의견의 총합이다. 행동과 성격이 평판을 형성한다. 다양한 주체와 함께 살아가는 사회에서 평판은 일종의 가격이고 화폐다. 다른 사람이 누군가에게 시간을 쓰고, 거래할 때, 그리고 보상을 제공할 때 판단 기준이 된다는 의미다. 평판을 쌓는데는 시간이 필요하지만 한순간에 무너질 수도 있다. 한편 평판은 한 사람의 성격과 언행의 가치가 담긴 사회적 정보다. 평판이 정보라는 점은 혼자 정직한 것만으로 긍정적 명성을 얻을 수 없음을 의미한다. 혼자 정직한 것은 충분하지 않다. 다른 사람의 눈에도 정직한 사람으로 보여야 한다. 좋은 평판이 성공으로 이어지는 이유이다. 순위와 평판평판이 사회적 존재로서 나의 가치를 결정하다 보니 평판을 객관화하려는 노력들이 많은 분야에서 존재한다. 유권자가 정치인에 대해 갖는 평판이나, 소비자가 기업에 갖는 평판을 측정하려는 노력이 대표적이다. 존 F. 케네디의 선거전략을 담당했던 루 해리스는 ‘평판지수’를 통해 기업의 평판을 체계화했다. 문

  • 디지털 이코노미

    두 얼굴의 알고리즘…감사 통한 투명성 확보 필요

    인공지능(AI)의 본질은 알고리즘이다. 많은 경우 인공지능은 이를 구현하는 하드웨어 혹은 기계적 측면과 동의어로 사용된다. 로봇공학, 머신러닝, 지능기계, 사이보그, 봇, 로봇 등이 대표적이다. 하지만 인공지능은 수많은 코드로 구성된 알고리즘이다. 코드를 구성하고, 엮어 알고리즘을 만드는 일은 인간 개발자의 몫이다. 그리고 그 과정에서 개발자의 목표와 이념이 알고리즘에 반영되기 마련이다. 알고리즘이 결코 객관적일 수 없는 이유이다. 나쁜 알고리즘의 조건수학자 캐시 오닐은 나쁜 알고리즘의 조건으로 ‘불투명성’과 ‘불공정성’ 그리고 ‘확장성’을 이야기한다. 불투명성이란 어떤 알고리즘에 자신이 포함되는 것을 당사자가 알고 있다고 하더라도 모형이 비공개인 경우를 의미한다. 선착순으로 입장하는 콘서트장에 일찍 도착했는데도, 안내원이 맨 앞자리부터 열 번째 줄까지는 앉을 수 없다고 한다면 불합리하다고 느낄 수 있지만, 휠체어를 탄 장애인들을 위한 자리라는 설명을 들으면 납득하게 된다. 투명성의 중요성을 알 수 있는 동시에 영업비밀을 이유로 알고리즘이 보호해야 할 지식재산권임을 주장하는 플랫폼 기업들의 행태를 되돌아보게 하는 대목이다.불공정성은 파괴적인 피드백 루프를 의미한다. 파괴적 피드백 루프란 서로 물리고 물리는 관계를 통해 상황이 악화되는 경우를 의미한다. 가난한 사람들은 신용 상태가 나쁘고, 범죄 발생률이 높은 동네에 살 가능성이 높다는 가정을 알고리즘이 반영할 경우 이들은 대출심사에서 거부되거나 높은 금리를 적용받을 확률이 높아지고, 작은 범죄에도 체포될 확률뿐만 아니라 더 긴 형량을 받게 될 확