빅데이터 인문학: 진격의 서막

[서평] 연세조아치과의원 조남억 원장

요즈음 콜택시의 이용객 수는 줄어드는데 카카오 택시는 점점 늘어난다고 한다. 그 이유는 기사에게 유리한 조건 때문인데, 콜비같은 수수료가 없고 탑승객의 목적지를 확인할 수 있어 기사가 유리한 상황을 고를 수 있기 때문이다. 그렇다면 카카오 측은 이런 서비스를 하면서 수수료를 받지 않고 무료로 하고 있다는 말인데, 왜 이런 서비스를 할까?

그 이유는 바로 빅데이터 수집에 있었다. 승객들이 택시를 사용하는 ‘요일’ ‘시간대’ ‘이동경로’ 등의 데이터가 그들에게 필요한 것이다. 이런 빅데이터를 가지고 있으면 추후 그 데이터를 이용해 다른 수익사업을 할 수 있다는 말이었다.

또 하나의 예를 들어보자. 몇 주 전 한 TV 프로그램의 100회 특집으로 빅데이터를 이용한 프로그램 인기도를 조사한 발표를 보았다. SNS 상에서 그 프로그램의 이름과 관련 내용이 언급되는 횟수를 계산해 그 데이터를 분석하는 내용이었는데, 그 논리정연함과 설명력이 대단하다고 생각했다.

이번에 읽은 책 ‘빅데이터 인문학:진격의 서막’은 이러한 빅데이터에 대한 이야기다. 갈릴레오가 망원경을 개발한 덕분에 목성과 토성의 위성까지도 보게 되고, 화성과 목성 같은 행성들의 위치가 가까웠다가 멀어졌다가 하는 등의 관찰이 가능해졌다. 사람들은 멀리 있는 물체를 가깝게 볼 수 있게 되었고, 나아가 지구가 우주의 중심이 아님을 확신하게 되었다.

즉, 인간이 사용할 수 있는 관찰도구가 개발되면 인간이 그동안 보지 못했던 진리를 더 쉽게 알게 되는 일들이 우리의 역사에서 계속 반복된다.

빅데이터 아이디어 실행에 대한 미국 사례

책에는 이번에 구글에서 개발된 도서 빅데이터 검색엔진 ‘엔그램(ngrams)’ 또한 인문학적 관찰도구가 될 것이라는 내용이 담겨 있다. 개발과정에서의 에피소드를 자세하게 풀어놓은 책이어서 저자-엔그램의 개발자이기도 하다-의 아이디어와 그 생각의 흐름을 볼 수 있다. 또 그러한 아이디어들을 실행할 수 있는 환경이 미국에 있다는 사실에 주목하게 된다.

1996년 스탠퍼드에서는 두 대학원생이 ‘스탠퍼드 디지털 도서관 테크놀로지 프로젝트’를 진행 중이었다. 두 사람의 목표는 월드와이드웹으로 책들의 세계를 통합하는 미래의 도서관을 구상하는 일이었다. 그러나 디지털 형식으로 제작된 책 수가 적어 이를 현실화하기 어려웠다.

결국, 두 사람은 월드와이드웹의 빅데이터 행렬에 동참해 여러 아이디어와 테크놀로지를 작은 검색엔진으로 전환하고 이를 ‘구글’이라 부르게 된다. 구글 설립자인 세르게이 브린과 래리 페이지의 창업 스토리다.

구글이 어느 정도 안정괘도에 오른 후, 래리 페이지는 자신이 예전에 생각했던 꿈을 이뤄야겠다고 마음먹는다. 그에게는 이미 프로젝트를 현실화할 수 있는 돈이 있었다. 구글은 책을 스캔하고 디지털화하는 사업에 뛰어든다.

결국, 구글은 2013년에 3000만 권 이상의 책을 디지털화했다. 이 수치는 일반 대학 도서관보다 많고 미국 의회도서관(3,300만 권)보다 약간 작은 수치였지만, 지금은 아마도 이를 추월했을 터다. 이제 우리는 검색을 통하여 짧은 시간에 3000만 권 이상의 책들을 훑어보는 것은 물론, 특정 단어를 검색하면 디지털화한 책들의 빅데이터를 바탕으로 연도별 단어사용 빈도까지 볼 수 있다.

빅데이터로 추측 가능한 사실들

이 책 내용 중 영어를 잘 못하는 내 이목을 끈 이야기가 있다. ‘왜 drive의 과거형을 drived가 아니라 drove라고 할까?’

정답을 먼저 이야기하자면, 그 단어의 사용 빈도수와 관련이 있었다. 사용빈도가 높으면 사람들이 계속 사용하기에 원시영어의 형태가 계속 유지되는 한편, 사용 빈도수가 적은 단어일수록 사람들이 그 불규칙 형태를 사용하지 않고, ‘-ed’를 붙이는 규칙 동사화 된다.

이 법칙을 활용해 모든 문헌에 쓰인 단어를 바탕으로, 단어 10억 개 당 그 단어가 몇 번 사용되는지만 세어보면 그 불규칙 동사가 언제 규칙동사로 변할 지 여부까지 계산해준다. 문자화된 빅데이터 세계에서 새로운 관찰 도구가 만들어진 것이다.

이 책에서는 이 도구를 사용해 사람들에게 많이 언급되는 주제에 대한 '유명한 정도'를 보여준다. 또한 검열과 억압으로 가득했던 히틀러와 스탈린 시대의 특징을 보여주기도 한다. 힘 있는 독재자의 시절에는 자신의 입맛에 맞지 않는 출판물들은 삭제하고 불태워버리기 때문에, 특정인의 이름이나 특정 단어들의 검색빈도가 이상하리만큼 줄어든다.

나중에 한글책과 잡지들도 디지털화된다면, 지금 시기의 검열과 억압된 단어들이 무엇이었을지 쉽게 찾아볼 수 있다.

한국의 영어이름인 chosun, corea, korea가 시간별로 어떤 빈도로 사용되었는지가 궁금하다면? 지금 구글 엔그램(클릭)에 저 단어들을 입력해보시라. 몇 년도를 기점으로 어느 단어의 사용이 급격하게 증가했는지 명확하게 보게 될 것이다.

조남억 다른기사 보기

부역발트하임 2018-08-02 08:07:58

삭제하기

좋은 정보 고맙습니다.