데이터 과학자는 정제되지 않은 데이터를 정제하고
그곳에서 의미를 찾아내서 회사, 혹은 고객에게
해결책을 제시하는 직업이다.
현재 구글, 링크드인을 포함한 다양한 회사가 데이터 과학자를 고용하고 있다.
[생글기자 코너] 데이터 프로그래밍 언어 'R'을 배워보자
2012년, 하버드 비즈니스 리뷰는 어느 직업을 21세기에 가장 섹시한 직업이라고 적었다. 과연 어느 직업이었을까? 정답은 바로 ‘데이터 과학자’이다. 도대체 무슨 이유에서 생소한 직업인 데이터 과학자가 가장 섹시한 직업으로 꼽힌 것일까?

이들의 중요성은 현재 다양한 이유로 인하여 강조되고 있으며, 이것을 뒷받침하듯이 여기에 더해 현재 데이터 과학자 공급은 아직까지 수요에 미치지 못한다. 즉, 매우 전망이 밝은 직업이고 이런 이유에서 가장 섹시한 직업으로 꼽힌 것이다.

그렇다면 데이터 과학자들은 어떻게 데이터를 정제할까? 데이터 과학자들은 컴퓨터를 이용하여 데이터를 정제한다. 이 데이터 정제에는 다양한 컴퓨터 언어나 프로그램이 사용되지만, 가장 널리 쓰이는 방법을 꼽자면 프로그래밍 언어, R이 꼽힐 것이다. R은 1993년 오클랜드대에서 개발한 통계에 특화된 프로그래밍 언어이다. 1993년 소개된 이후로 꾸준한 발전을 거듭하여 왔으며, 강력한 패키지(추가 기능) 등을 포함해 다양한 강점을 지니고 있다.

이런 데이터 과학자의 도구 R을 공부하려면 보통 사람들은 전문 지식이 필요한 것이라고 생각할 것이다. 그러나 이 생각은 틀렸다. R은 전문적인 지식이 그렇게 요구되지도 않고, 또한 어렵지도 않다. 간단한 예시를 들어보겠다. “example <- c(‘a’ = 1)” 이 예시를 그대로 R 콘솔 창에 치면 여러분은 example이라는 데이터의 집합(벡터)을 생성한 것이다. 생각보다 쉽지 않은가?

또한 R에 대한 정보를 얻기도 쉽다. Udacity, Edx와 같은 MOOC 사이트들에서 비록 영어이기는 하지만 R에 대한 강의들을 제공하고 있고, 여러분 집 근처의 컴퓨터 관련 도서가 있는 서점 어디를 가도 R에 대한 책이 꽂혀 있을 것이다. 이처럼 R은 중학생, 고등학생이 공부하지 못할 정도로 어렵지도 않고, 또한 관련 정보도 손쉽게 구할 수 있다. 그러므로 21세기 가장 섹시한 직업, 데이터 과학자가 다루는 R을 공부해 보자. 여러분에게 잠재되어 있던 데이터 과학자로서의 재능이 발휘될지도 모른다.

김기현 생글기자(홈스쿨) kimkihyunoff@gmail.com