#데이터
-
시사 이슈 찬반토론
'데이터 거래·유통' 새 법, 산업발전·개인정보에 필요한가
데이터 보호에 관한 내용을 담은 ‘부정경쟁 방지 및 영업비밀 보호에 관한 법률’(부정경쟁방지법)이 발효(4월 20일)됐다. 데이터를 이용해 새로운 서비스를 준비하는 입장에서는 법 개정으로 데이터 보호의 길이 열렸다고 평가하고 있다. 개정법은 ‘데이터’에 대해 ‘업(業)으로써 특정인 또는 특정 다수에게 제공되는 것’으로 규정했다. 그러면서 ‘거래·유통을 위한 데이터’만을 보호 대상으로 했다. 보호 대상이 되는 데이터를 ‘불특정 다수’가 아니라 ‘특정 다수’에게 제공되는 데이터로 제한한 것이다. 데이터 유통의 활성화를 꾀하되 규제 대상은 최소화했다는 평가다. 그럼에도 개인 생활과 관련된 데이터의 수집·가공으로 상업적 활용을 넓힌 것에 불안해하는 시각도 없지 않다. 개인정보의 악용과 유출에 대한 소비자의 민감도는 그만큼 높다. 데이터 거래와 보호를 함께 도모한다는 법, 타당한가. [찬성] 데이터 '소유'보다 '부당 유용' 막는 장치 데이터산업 발전에 기여개정된 부정경쟁방지법은 데이터 유통 등과 관련해 ‘부정한 행위’를 규제하며 데이터를 보호한다. 시대적 흐름이 된 빅데이터는 무수히 많은 개별 데이터를 포함하고 있다. 따라서 ‘소유권’ 개념 부여로 보호하면 문제가 생긴다. 소유권 분쟁이라는 단점을 피하고, 자유로운 데이터 거래·활용의 위축도 막으면서 빅데이터 활용도를 높였다고 할 수 있다. 바람직한 방향이다.개정된 법은 데이터를 수집하는 데 들인 투자와 노력에 누군가 무임승차하려는 행위를 제재하게 된다. 이 또한 데이터 보호책이다. 예를 들면 개정법은 데이터의
-
디지털 이코노미
평균의 개념, 디지털 경제에선 개인 맞춤형 중시
19세기 초, 평균의 개념이 등장했다. 당시 여러 국가가 대규모 관료체제와 군대를 갖추면서 월별 출생아 및 사망자 수, 연간 수감되는 범죄자 수, 도시별 발병자 수 등 막대한 규모의 데이터를 만들어 발표했다. 하지만 현대 자료 수집의 초창기였던 당시 그 누구도 이런 자료를 적절히 해석하지 못했다. 인간 관련 자료는 워낙 뒤죽박죽 엉켜 있어 분석이 불가능하다고 여겼던 탓이다.평균의 개념이 공감받기 시작한 것이 이때쯤이다. 학자들은 평균을 통해 오류를 최소화할 수 있다고 믿었다. 각 측정값은 모두 예외 없이 어느 정도의 오류가 있지만, 일단 개별 측정값 전반에 걸쳐 축적된 전체 오류값은 평균을 통해 최소화할 수 있다고 생각했다. 인간의 행태에 평균 개념이 도입되자 평균적 인간은 ‘참 인간’이라는 개념으로 이어졌다. 기대 가능한 오류가 가장 작은 인간으로 해석됐기 때문이다. 이런 시각은 모든 분야로 확산됐다. 평균 체중, 평균 결혼 연령, 연간 평균 범죄 건수, 평균 교육 수준 등 참 인간을 찾아내기 위한 시도가 이어졌다.한편 이상적인 인간을 의미하던 평균은 평범함을 구분 짓는 기준으로 변하기 시작했다. 찰스 다윈의 사촌이자 성공한 상인이었던 프랜시스 골턴은 평균을 최대한 향상시키는 것이 인류의 의무라고 주장했다. 그는 평균을 이상으로 평가해 평균에서 벗어나는 것을 기형이라고 평가한 아돌프 케틀레 의견에 빅토리아 여왕과 뉴턴 같은 사례를 거론하며 평균을 훌쩍 뛰어넘는 것은 ‘우월층’에 해당한다고 주장했다. 동시에 평균에 미치지 못하는 사람들을 ‘저능층’이라고 칭했다. 평균에서 벗어난 개개인을 ‘오류’라고 여겼던 케틀
-
디지털 이코노미
빅테크의 불공정 논란, 데이터 격차서 비롯
알고리즘 공개에 대한 요구가 거세다. 미국과 유럽에서는 적극적인 규제 움직임마저 나타난다. 유럽연합(EU)은 플랫폼 기업이 알고리즘을 활용해 자사 서비스를 우대하지 못하도록 디지털시장법 및 디지털서비스법을 마련 중이며 미국 하원에서도 플랫폼에 대한 반독점 법안 5개가 법제사법위원회를 통과했다. 모두 불공정 경쟁의 중심에 알고리즘이 있다는 관점이다.알고리즘 공개로 불공정 여부를 확인할 수 있다 해도 시장을 경쟁 상태로 되돌리는 것은 다른 이야기다. 플랫폼 기업의 불공정행위는 데이터로 인해 가능해지기 때문이다. 프로그램만 있다고 해서 특정 기업이 경쟁우위를 가질 수 없다. 데이터가 있어야 우위를 획득할 수 있다. 그것도 빅데이터를 보유해야 한다. 구글이 개발한 인공지능 알고리즘의 일부는 공유하면서도, 데이터는 공개하지 않는 이유다. 데이터는 결핍이 아니라 편중이 문제다. 할 베리언 구글 수석 이코노미스트는 데이터를 칼로리에 비유해 “과거 데이터가 많이 결핍됐지만 지금은 데이터 비만이 문제”라고 표현한다. 일부 기업은 데이터 과잉 상태지만, 대부분의 기업은 ‘데이터 영양실조’ 상태라는 것이다. 많은 빅테크 기업이 클라우드 분야에 진출하는 이유도 데이터 때문이다. 클라우드 서비스를 이용하는 기업들은 자체 데이터 기반시설을 구축하고 서버를 두지 않아도 아마존웹서비스나 구글클라우드 플랫폼, 마이크로소프트의 애저 클라우드를 통해 데이터를 업로드하고 안정적으로 관리할 수 있다. 하지만 데이터가 클라우드에 한번 업로드되고 나면 클라우드 주인은 해당 데이터에 마음대로 접근할 수 있다. 데이터를 보기 위해 따로 정리할
-
디지털 이코노미
다양한 시장 선점한 아마존의 성공 열쇠는 데이터
아마존의 욕심은 끝이 없어 보인다. 1994년 제프 베이조스의 사비 1만달러를 털어 마련한 작은 사무실에서 시작된 온라인 서점 아마존은 3년 뒤 3500억원 규모의 기업공개에 성공한다. 이후 2004년에는 전자상거래 시장 매출 1위를 달성했으며, 2006년에는 클라우드와 인공지능 분야의 유망함을 깨닫고 오늘날 막대한 수입원이 된 ‘아마존웹서비스’도 시작했다.다양한 분야에서 혁신적인 서비스를 선보이며 시장을 선점하는 아마존의 노력은 계속됐다. 2017년 신선매장인 홀푸드를 인수하고, 2018년에는 인공지능 무인편의점을 오픈했으며, 헬스케어산업에도 진출했다. 이 모든 행보는 세세한 고객 데이터 수집으로 이어져 서비스 개선으로 나타났다. 데이터는 아마존의 성장모델로 유명한 ‘플라이휠’ 작동 방식의 핵심이다. 고객 경험 개선이 플라이휠의 핵심으로 알려져 있지만, 그 이면에는 데이터가 있다. 플라이휠은 두 개의 선순환 바퀴로 구성된다. 많은 제품은 더 높은 고객 경험을 이끌고, 이는 더 많은 방문자를 유인하며, 더 많은 판매자 수를 끌어들여 다시 더 많은 제품이 아마존 플랫폼에 모여들어 회사가 성장한다. 이것이 첫 번째 바퀴다. 두 번째 바퀴는 성장으로 가능해진 낮은 비용 구조가 가격 인하로 이어져 고객 경험이 개선되는 선순환을 의미한다. 데이터 확보와 경쟁의 둔화《아마존 미래전략 2022》의 저자 다나카 미치아키는 아마존이 홀푸드나 아마존고 같은 오프라인 사업에 진출하는 이유가 오프라인에서의 구매 데이터를 통해 고객의 위치정보를 수집하는 데 더 큰 목적이 있다고 주장했다. 고객의 행동 범위, 시간대별 데이터 정보가 수집되면 보다 정교한 프로파
-
시사 이슈 찬반토론
미공개 정보 악용 의혹 공기업…블라인드 글 조사해야 하나
[찬성] 공직자 품격손상 글은 징계해야…오죽하면 총리가 나섰겠나LH 직원들의 부적절한 처신으로 인해 LH뿐 아니라 공기업과 공공기관 전체가 많은 국민으로부터 비판을 받고 있다. 막말로 욕먹고 비난 듣는 것으로 보자면, 감독 부처인 국토교통부를 비롯해 대통령과 청와대까지 공직 전체가 심판대에 오른 것 같은 상황이다.안 그래도 직전 LH 사장이었던 변창흠 국토부 장관이 “신도시 개발이 안 될 것으로 알고 취득했는데, 갑자기 (신도시로) 지정된 것이 아닌가 생각된다”고 언론에 해명하면서 적지 않은 물의를 빚었다. 본인이 사장으로 있던 시기에 발생한 문제에 대해 제대로 사과하기는커녕 해명 수준도 못 되는 변명을 하면서 혹을 붙인 것이다. 그런데 비록 인터넷의 블라인드 게시판이라고는 하지만 ‘(LH) 내부에서는 신경도 안 씀’이라는 제목으로 국민적 공분을 자극할 만한 글을 올리는 게 말이 되나. 당연히 조사든 수사든 밝혀내고 처벌 조항을 찾아 책임을 물어야 할 일이다. 내용도 “시간이 지나면 기억에서 잊혀진다” “LH 직원이라고 투자하지 말라는 법 있나요” “아니꼬우면 이직하라”는 등 극히 비상식적인 조롱 성격의 글이다.이번 사태로 인한 여론의 분노를 보라. 다수 국민의 공분은 기본적으로 ‘정의’와 ‘공정’ 등 현 정부가 내세운 가치가 밑바탕부터 의심스럽다는 것이었다. 비단 LH 직원 몇 명의 일탈의 문제가 아니라는 지적도 맞다. 아무리 책임 없는 인터넷 게시판이라고 하지만 정도의 문제라는 게 있다. 정세균 국무총리가 정례 언론브리핑에 나서 직접 기자들에게 조사 방침을 설명한 것도 국민적 공분을 산
-
시네마노믹스
기술혁신이 지배하는 미래사회, 인간다움은 무얼 의미할까
가까운 미래 인간의 노동력을 대체하기 위해 만들어진 인간형 로봇 리플리컨트를 다룬 영화 ‘블레이드러너 2049’. 구형 리플리컨트 제품을 ‘퇴직’시키는 업무를 맡은 특수경찰 K(라이언 고슬링 분) 또한 리플리컨트다. 우연히 한 구형 리플리컨트 유골에서 출산 흔적을 발견하고 상사의 지시에 따라 이 생식 기술로 태어난 아이를 찾아 나선 K는 아이가 겪은 일들이 자신의 오랜 기억과 일치하자 감정의 동요를 느낀다. 리플리컨트 독점 제조기업인 월레스는 신기술 확보를 위해 이 ‘기적의 아이’를 추적한다.월레스 회장(제러드 레토 분)이 생식이라는 신기술을 확보하기 위해 총력을 다하는 것은 기존 리플리컨트 제품의 한계를 느꼈기 때문이다. 하지만 사회 혼란을 우려한 정부가 월레스를 막아선다. 월레스의 직원은 정부를 향해 답답한 듯 외친다. “위대한 혁신이 뭐가 두려워서? 빗자루 따위로 거센 파도를 막진 못해.” K의 선택은아이의 아버지를 수소문하던 K는 결국 데커드(해리슨 포드 분)를 찾아낸다. 데커드는 과거 리플리컨트와의 사랑을 통해 ‘기적의 아이’를 생산했다. 하지만 정부와 기업으로부터 자식을 보호하겠다는 목적 아래 자식을 버리고 잠적했다. K는 자신이 당신의 아들일 수 있다는 사실을 데커드에게 차마 전하지 못한다.혼란스러운 K 앞에 한 무리의 리플리컨트들이 나타난다. 데커드와 함께 인간들을 향한 반란을 준비하고 있었던 세력이다. 이들과의 대화에서 K는 제 것이라고 여겼던 기억이 사실은 자신이 실제 겪었던 게 아니라는 것을 알게 된다. 리플리컨트 제작 과정에서 삽입된 가짜였다. K는 ‘기적의 아이’도 ‘혁신의
-
디지털 이코노미
제품 개선하는 피드백 효과, 시장 집중화도 초래
상업 항공기의 사고율은 매우 낮다. 사망사고의 경우 2020년 100만 편당 0.27명에 불과하다. 이는 강력한 컴퓨터와 숙련된 파일럿의 시너지 덕분이다. 이들은 정교한 피드백 시스템하에서 서로를 보완한다. 비행기에 달린 수십 개의 센서로부터 얻은 데이터를 처리해 안정적인 궤도를 유지하고, 파일럿은 컴퓨터의 판단이 옳은지 모니터링하며 비행기의 위치와 궤적을 끊임없이 관찰한다. 비행기의 안전을 위협할 경우 컴퓨터는 파일럿의 명령을 무시할 수 있고, 파일럿 역시 필요하다면 자동항법장치를 끌 수 있다. 알고리즘의 피드백 루프컴퓨터와 파일럿은 서로를 보완하지만 항상 완전한 것은 아니다. 2009년 6월 브라질 리우데자네이루 국제공항에서 프랑스 파리로 출발한 에어프랑스 447편 사고가 대표적인 사례이다. 비행속도 센서인 피토관(pitot tube)이 얼어 오류가 발생하자 컴퓨터는 운항을 부분적으로 파일럿에게 넘겼다. 수동운항 이후 기체는 이미 최대 고도에 가까워진 상태였지만 부조종사는 센서 오류 탓으로 기체가 점점 땅을 향해 가고 있다고 판단해 기수를 더욱 상승시켰다. 기체는 결국 최대 고도에 도달해 상승력을 잃고 땅으로 추락하기 시작했다. 컴퓨터가 경고를 보내자 조종사들은 기수를 더욱 올렸다. 기수를 올리자 경고음이 꺼졌다. 하지만 이는 극단적인 고도 데이터가 입력되자 컴퓨터가 스스로 데이터를 분석할 수 없는 상황이라고 판단해 운항을 조종사에게 넘겼기 때문이었다. 치명적인 피드백 루프 상황이 발생한 것이다. 기계는 데이터가 신뢰할 만하다고 판단한 범위 내에서 경고를 했고, 인간은 경고에 반응했다. 결국 비행기는 대서양에 추락해 탑승자 216명 전원이 사망
-
과학과 놀자
측정값 어떻게 정의하는지 봐야 과학적 데이터로 신뢰 가능
이제는 '과학적 데이터'가 더 이상 과학자 사이에서만 소통되는 수치가 아니다. TV 건강 프로그램에서 식품 속의 영양 성분 양을 과학적 수치로 제시하거나, 뉴스에서 각종 경제 지표를 수치나 그래프로 제시하는 것을 일상에서 접하고 있다. 이렇게 과학적 수치 또는 데이터를 언급하면서 이를 근거로 주장하면 시청자나 독자는 근거가 있다고 생각하므로 주장의 신뢰성을 높이는 데 효과적이다.그런데 가끔 동일한 현상을 놓고 서로 반대되는 주장을 지지하는 ‘과학적 데이터’가 등장하고, 우리는 주장하는 사람의 논리에 이러저리 이끌려다니고 있음을 뒤늦게 느낄 때가 있다. 왜 이런 상황을 겪고 있으며, 어떻게 우리 스스로 중심을 잡고 ‘과학적 데이터’를 이해할 수 있을까? 어떻게 정의됐는지 알아야자연과학적 대상이든 사회과학적 대상이든 무엇인가를 측정할 때는 그 측정값에 이름을 정해주고, 그 의미를 수학적으로 정확하게 정의한다. 일반적으로 그 정의는 수치로 표현할 수 있다. 그런데, 이 측정값이 방송이나 신문과 같이 대중적인 글에 인용될 때 그 정의와 표현 방법까지 엄격하게 제시되지는 않을 때가 많다.예를 들어 살펴보자. 삼투압이라는 용어는 과학적으로 정의된 전문적인 개념이지만, 일상생활에서 편하게 통용되는 용어이기도 하다. 삼투압은 물은 잘 통과하지만 물속의 다른 물질은 잘 통과하지 않는 반투과성 막을 경계로 물이 한쪽으로 이동하는 현상의 결과로 나타나는 수압을 나타낸다. 삼투압의 정의를 <그림>으로 나타내면 다음과 같다. ‘시작 단계’는 왼쪽에 순수한 물이 있고 오른쪽에는 포도당 수용액(농도: Cο)이 있고 두