preLoad Image preLoad Image
검색 바로가기
주메뉴 바로가기
주요 기사 바로가기
다른 기사, 광고영역 바로가기
중앙일보 사이트맵 바로가기

[배영대의 지성과 산책] "신이 된 빅데이터…데이터를 네트워크로 연결하는 것이 4차 산업혁명의 본질"

‘데이터 과학’ 전문가 정하웅 KAIST 교수
시대의 트렌드를 읽는 힘은 전통적으로 전문가의 몫이었다. 요즘은 상당 부분 인터넷이 대신한다. 구글링(Googling)이란 말은 사전에도 등록됐는데, 세계적 포털사이트 구글에 들어가 검색을 통해 필요한 정보를 얻는 행위를 가리킨다. 컴퓨터 용량이 커지고 처리속도가 빨라지면서 엄청난 분량의 데이터를 축적할 수 있게 되었고, 그런 빅데이터를 기반으로 하여 ‘데이터 과학’이란 새로운 학문 장르도 생겨났다.
‘데이터 과학’ 전문가 정하웅 KAIST 교수. 빅데이터와 사회학·경제학·문화예술 등의 융합 연구를 시도하고 있다. [사진 우상조 기자]

‘데이터 과학’ 전문가 정하웅 KAIST 교수. 빅데이터와 사회학·경제학·문화예술 등의 융합 연구를 시도하고 있다. [사진 우상조 기자]

‘데이터 과학’ 분야에서 손꼽히는 정하웅(48) KAIST 교수는 구글을 ‘신’이라고 부른다. 『구글 신은 모든 것을 알고 있다』(사이언스북스)의 저자인 그는 ‘구글 앤 그램 뷰어’ 사이트에 들어가 ‘신’과 ‘데이터’라는 말을 입력해 보면 그 이유를 알 수 있다고 했다. 옛날에 데이터라는 말 자체가 없었기에 신이 압도적으로 많이 쓰였다. 하지만 어느 시점이후로는 데이터라는 단어가 책 속에 더 많이 나온다. ‘구글 앤 그램 뷰어’ 사이트는 구글이 1500년도에서 2008년까지 전세계에서 출간된 책 3000만 권 가량을 스캔해 만든 빅데이터 프로그램이다. 이 사이트에서 트렌드를 알고 싶은 키워드들을 입력하면 그 용어의 시대별 등장횟수를 통해 당시의 이슈가 무엇이었는지 알 수 있게 한다. 이처럼 빅데이터를 통해 과거 어느 시점의 문화나 사회 트렌드를 수치로 알아내는 방식을 ‘컬처노믹스’(Culturenomics)라고 부른다. 이 분야에는 새로운 용어들이 넘친다. 과거와 현재의 트렌드를 알고 가까운 미래의 변화까지 예상할 수 있다면 데이터의 집적체인 구글을 신이라 불러도 되지 않겠느냐는 것이 정 교수의 얘기다.
인간 고유의 영역으로 간주되어온 인문학과 예술까지 빅데이터에 종속될 것인가. 아직은 산업인터넷 분야에서 주로 활용되고 있지만 그 진화의 속도는 누구도 점칠 수 없다. 빅데이터와 사회학ㆍ경제학, 자연과학, 공학 및 예술 등의 융합 연구를 지향하는 정 교수의 이야기를 들어봤다.
컬처노믹스의 사례를 하나 들어봐 달라.
“구글 앤 그램 프로그램에서 ‘노예’(slavery)란 단어를 입력해보면 1861~65년 사이에 많이 나오다 줄어들고 다시 조금 많이 나오다 줄어들고 하는 패턴을 보인다. 많이 언급될 때는 남북전쟁 당시였다. 그런 시대상을 반영해서 노예란 말이 책에 많이 나온 것이다. 또 한 번의 상승기는 시민운동이 활발했던 때이다. 이러한 수치의 변화 트렌드를 통해 과거 특정 시기 사람들의 관심사와 이슈가 무엇이었는지를 알 수 있는 것이다.”
흥미롭기는 한데 새로운 정보를 더해주는 것은 아니지 않은가.
“색채의 마술사로 불리는 화가 마르크 샤갈을 입력해 보자. 영어책에 나오는 빈도수와 독일어책에 나오는 빈도수가 다르다. 영어책에서 샤갈의 빈도수는 시기별로 계속 증가한다. 그런데 독일어책에서는 잘나가다가 갑자기 그 수치가 떨어졌다가 다시 올라가는 식으로 불규칙하다. 독일어책 빈도수에서 갑자기 하강 곡선을 그리는 시점은 나치 정권하였다. 히틀러가 아방가르드 경향의 예술을 싫어했도 또 샤갈이 유태인인 탓에 정권으로부터 탄압을 받은 것이다. 그러니 당시 책에서 언급조차 잘 되지 않았던 것이다. 이렇게 빅데이터 분석을 통해 잘 드러나지 않는 시대별 ‘침묵의 역사’도 읽어낼 수 있다.”
컬처노믹스 관련 정 교수가 요즘 특별히 관심 갖고 있는 분야는.
“제가 연구하는 것이 워낙 뚱딴지 같은 것이 많다. 물리학 같아보이지 않은 것을 연구하는데, 요즘은 『조선왕조실록』 『승정원일기』 등 역사문헌 데이터 분석을 하고 있다. 디지털로 복원되어있는 모든 자료를 가져다가 데이터 과학의 입장에서 분석을 하려고 한다. 예를 들면 등장인물관계를 네트워크의 관점에서 살펴보는 것이다. 점과 선으로 추적을 하면 어떻게 변화하는지, 누가 각 분야의 중심인물이었는지를 찾아낼 수 있을 것이다. 또한 정치·경제·사회·문화 분야별 중요지역의 이동도 추적해볼 수 있을 것이다.”
우리가 알고 있는 조선시대 역사와 다른 내용을 밝혀낼 수 있다는 얘긴가.
“그런 것은 아니다. 데이터 분석을 하면 대개 뻔한 사람이 나온다. 예컨대 정도전 같은. 사람들이 빅데이터 분석이라고 하면 정말 새로운 것을 기대하는데, 항상 그런 것은 아니다. 지금까지 역사학자들이 해놓은 연구 성과를 수치로 확인한다는 의미가 있는 것이다. 데이터 분석을 통해 좀더 정밀한 결과를 얻어낸다는 얘기다. 정량적으로 수치화된 역사를 볼 수 있을 텐데, 그러다 보면 가끔 안보였던 것이 보일 수도 있고, 그것이 큰 의미가 될 수도 있는 것이다.”
그걸 혼자서 하는가.
“융합연구다. 해당자료나 역사 전문가와 함께 작업한다. 역사적 내용을 잘 모르면 해석이 안 되기 때문에 역사학자의 인사이트가 필요하다. 빅데이터 분석만으로는 한계가 있는 것이다.” 
빅데이터 시대에 인문학은 설자리가 좁아지는가.
“학문의 보조적 수단이 더 생기는 것으로 본다. 빅데이터가 전통 인문학 영역을 위협하는 것은 아니다. 무작정 컴퓨터 분석하는 것만으로는 중요한 의미를 찾기 어렵다. 예컨대 대상이 정해지지 않은 ‘빅데이터 학과’라는 말은 위험하다. 기존의 연구가 진행된 자료를 가져다가 대규모 분석을 하는 일이 추가되는 것이고, 그 과정에서 분석의 결과를 놓고 해석하는 일이 중요한데, 결국은 그 분야의 전문가가 의미있는 해석을 하는 것이다. 자기의 학문 분야에 가치 중점을 두어야 하고, 그런 다음에 도구로 빅데이터를 써야 한다는 얘기다.”
학문의 개념이 바뀌지 않을까.
“바뀐다기보다는 조금 더 엄밀해 질 수 있다. 사회는 결국 사람들의 네트워크이기 때문에 옛날 사회학 분야에서 사람들의 네트워크를 많이 연구했는데, 단점이 데이터가 적었다. 이젠 SNS를 통해 어마어마한 사람들의 네트워크와 데이터가 축적돼 있다. 예전에 막연했던 이론들을 빅데이터가 뒷받침할 수 있는 것이다. 학문에 그런 식으로 기여를 할 수 있다. 학문의 각 장르에 엄밀성을 더하면서 새롭게 발전시킬 수 있겠다. 기존의 인문학이 없어지는 것이 아니라, 좀더 확인되고 재발견될 수 있다.”
빅데이터의 힘 자체가 모든 학문을 넘어서는 무소불위는 아니라는 얘기인가.
“어떤 데이터냐에 따라 다르다. 프라이버시를 무시한 개인정보를 모두 활용할 수 있다면 경제 관련 빅데이터는 어마어마한 일을 해낼 수 있다. 개별소비자에 특화된 구매력의 비밀을 알아내는 것이니까. 이렇듯 정보를 비즈니스 마인드로 접근한다면 새로운 가능성이 열리게 된다. 하지만 내가 관심있는 것은 돈 버는 것보다 학문과 문화예술의 영역에 관한 데이터 과학, 그 자체이다.”
빅데이터가 문화예술에는 어떻게 활용되나.
“중세부터 사실주의까지 약 1000년에 걸쳐 서양화 1만 여 점의 빅데이터를 분석해 서양미술의 변천사를 밝혀낸 일이 있다. 예전에는 서양 미술사 전반을 아우르는 대규모 데이터가 충분하지 않았었기에 할 수 없는 일이었으나, 요즘 온라인 갤러리가 많이 활성화되어 있다. 미술관에 가야 볼 수 있던 그림 작품들을 고해상도로 잘 찍어 웹에 올려놓은 덕분에 가능했다. 우리팀은 헝가리 부다페스트 온라인 갤러리를 활용했다. 1만 여 점의 서양화 빅데이터를 분석한 결과 시간이 흐를수록 색상의 다양성과 명암대비 효과가 점점 높아지는 경향이 있다는 사실을 밝혀냈다. 서양 미술사에서 알려져 있던 사실을 수치적으로 엄밀히 재발견한 셈이다.”
예술의 감성적 측면을 과학의 수치로 느끼고 이해할 수 있을까.
“조금 조심스러운 예가 될 텐데 미국 현대 화가 잭슨 폴락의 작품을 분석한 적이 있다. 폴락은 허리에 페인트통을 매달고 뛰어다니거나 페인트를 붓으로 찍어서 선을 크게 그어 대는 식으로 그림을 그리는 화가다. 그림의 거칠기를 측정하고 색상의 다양성을 조사해보려고 했다. 그런데 폴락의 그림은 보통의 그림과 아주 다른 결과가 나왔다. 그렇다고 해서 폴락의 그림이 예술이 아니라고 말한다면 그건 현대미술을 모르는 얘기일 것이다. 이렇듯 과학이 모든 걸 다 설명할 수 있는 것은 아니다. 물리학자가 예술을 수치화하는 것은 어디까지나 정량적인 분석일 뿐이다. 다시 말하지만 가장 중요한 문제인 해석에 관해서는 해당 전문가의 조언이 반드시 필요하다.”
다른 예술 장르는 어떻게 분석하나.
“문학작품의 경우에는 어떤 작가만의 스타일이 존재한다. 예컨대 셰익스피어가 즐겨 구사하는 표현들이 통계적으로 유의미하기 때문에 그런 것들을 살펴보면 작가 이름을 보지 않아도 ‘아 이건 셰익스피어 작품이네’라고 알아낼 수 있을 것이다. 음악도 마찬가지다. 바흐나 모차르트의 작품들을 분석하면 뭔가 비슷한 특징들이 있다. 그래서 이걸 잘 발전시키면 바흐의 특징들을 뽑아내 지금도 바흐처럼 작곡을 할 수 있게 된다. 컴퓨터가 바흐의 특징을 살려 작곡을 해주는 것이다. 이렇게 스타일을 측정해(metry) 수치화하는 분야를 ‘양식측정학’(Stylometry)라고 한다. 양식측정학은 모든 예술에 적용할 수 있다. 양식측정학을 통해 위작을 판별하는데 이용할 수도 있고, 거꾸로 예술 문외한이 그럴듯한 작품을 만들어낼 수도 있다.”
그런데 정 교수의 연구실 이름이 '복잡계 및 통계물리 연구실'이다. 빅데이터와 복잡계와는 어떤 연관이 있나.
“사실 복잡계는 세상의 모든 어려운 문제를 총칭한다고 보면 된다. 빅데이터도 어려운 문제이므로 복잡계의 연구대상이 된다. 사실 빅데이터 이전에 제 연구분야는 '네트워크 과학'이다. 이해하기 복잡한 문제의 대표적인 예들인 사회, 인터넷, 뇌, 생명현상 등은 잘 살펴보면 각각의 구성성분들이 상호작용을 통해 복잡하게 얽혀있는 네트워크로 볼 수 있다. 뇌를 예로 들면 뉴우런들이 시냅스를 통해 연결된 신경연결망(neural network)로 볼 수 있다는 말이다. 따라서 복잡한 문제를 풀기 위해서는 문제를 구성하고 있는 기초 연결뼈대인 네트워크를 먼저 연구하는 것이 순서이고, 일련의 연구를 통해 월드와이드웹(WWW), 인터넷, 신진대사연결망, 단백질 연결망 등이 마치 항공망처럼 연결이 많은 허브구조를 가지고 있다는 것을 밝힌 바가 있다. 그 이후로 다양한 네트워크들을 연구하였는데 자연스럽게 많은 데이터를 접하게 되었고, 그런 과정에 빅데이터에도 관심을 가지게 되었다.”
빅데이터는 요즘 유행하는 제4차 산업혁명의 핵심으로 일컬어진다.
“사실 이 부분이 저도 최근 많은 관심을 가지고 있는 분야인데, 4차 산업혁명으로 각광받는 분야는 빅데이터 이외에도 사물인터넷(IoT), 인공지능, 로봇, 미래자동차, 미래에너지, 차세대바이오, 3D 프린팅 등이 있다. 그런데 묘하게도 이런 주제들을 살펴보면 모두 저희 연구분야인 빅데이터와 네트워크를 결합하는 것으로 볼 수 있다. 사물인터넷은 모든 사물들이 서로의 데이터를 통신하며 네트워크로 연결된 것을 말한다. 인공지능은 빅데이터를 딥러닝으로 대표되는 기계학습을 통해 컴퓨터에 인공신경망을 구현하여 원하는 어려운 문제를 잘 푸는 것을 말하는데 바꾸어 말하면, 빅데이터를 인공신경망이라는 네트워크를 통해 가중치로 잘 묶어내는 작업으로 볼 수 있다. 또 로봇과 미래자동차도 결국 주어진 환경데이터를 기계학습 등을 통해 잘 연결시켜서 효율적으로 운영되기를 바라는 것이며, 미래에너지 분야도 다양한 곳에서 신재생 에너지 등 여러 방법으로 만들어진 여분의 에너지를 스마트 그리드라는 네트워크를 통해 수요와 공급을 연결해주는 것으로 해석할 수 있다. 차세대 바이오 및 3D 프린팅도 필요한 개개인의 정보를 종합, 연결하여 맞춤 신약개발이나 원하는 제품을 개별 프린팅하는 산업으로 이해할 수 있다. 결국 4차 산업혁명의 거의 모든 것은 데이터와 네트워크의 연결에 방점을 두고 있다고 할 수 있다. 다시 말해 데이터의 연결에서 새로운 가치가 생긴다는 것이다."
구체적인 예를 든다면.
"쉬운 사례로 작년에 저희 연구실에서 지금까지 225년간 미국의 모든 특허를 분석한 결과, 78%의 특허가 새로운 특허가 아닌 기존의 특허를 인용 또는 연결한 결합특허라는 것을 알 수 있었다. 정말 새로운 특허는 1880년대 이후 점차 줄고 있었다. 'Nature Physics'지에 “혁신의 둔화(Innovation Slowdown)”로 소개되기도 했다. 최근 특허의 경향은 새로운 혁신보다는 기존 특허의 연결에서 그 대부분의 가치를 만들어내고 있는 것이다. 결국 마크 트웨인이 “하늘 아래 새로운 아이디어는 없다, 단지 새로운 조합만이 있을 뿐이다”라고 말했듯이 데이터를 네트워크로 연결하는 것이 4차 산업혁명의 본질이라고 생각할 수 있다. 아직은 문제점도 지적되지만 최근 다양한 활용가능성 때문에 주목을 받고 있는 비트코인 같은 가상화폐, 블록체인 기술도 결국 거래 데이터들을 공개적으로 P2P 네트워크에 분산하여 관리하는 것으로, 데이터의 연결을 통해 이루어진 새로운 IT 기술로 이해할 수 있다.”
 
빅데이터와 네트워크에 너무 의존하다 보면 결국 인간의 모든 판단을 대신하게 되는 것 아닌가.
“아직까지는 대신하는 것이 아니라 적절한 도움을 주는 것이다. 학문의 보조적인 도구로 사용된다고 말씀드린 것처럼 아직까지는 위험한 수준은 아니다. 이세돌도 알파고에 한판을 이겼듯이, 아직은 인간이 잘하는 영역과 기계가 잘하는 영역이 차이가 있다. 물론 스스로 모든 생각이 가능한 강한 인공지능이 나오는 특이점이 지나면 상황이 달라질 수도 있겠으나, 아직까지는 개인별 맞춤화 등 편리하게 잘 활용하면 되는 도구로 인식하면 된다. 좋은 예는 아니지만 이번 미국 대선에서 트럼프가 승리할 것이라는 것이 구글의 검색 데이터에서 확인된 바도 있다. 아직도 구글 신은 위대한 것 같다. 물론 엄밀하게 분석된 결과는 아니므로 너무 심각하게 받아들이지는 않았으면 한다.”
그렇다면 그러한 빅데이터를 활용할 때 주의할 점은 무엇인가.
“데이터가 보여주는 상관관계와 인과관계를 혼동해선 안 된다. 예컨대 ‘빚’이란 단어로 검색 트렌드를 조사한다고 치자. 빚이라는 검색이 늘어났다고 경기가 나빠져서 주식이 떨어질 것이라고 섣불리 예단할 수는 없다. 마찬가지로 ‘프로포즈용 반지’라는 검색이 는다고 경기가 좋아져서 주식투자를 해도 좋다고 결정해서는 안 된다. 검색 데이터는 단지 상관관계를 보여주는 것이지 과학적인 인과관계를 증명해주는 것이 아니기 때문이다. 이렇듯 검색어 하나로 사회적 경향을 판단하는 것은 위험하다. 그럼에도 불구하고 굳이 활용하고 싶다면 적어도 몇 가지 키워드를 묶어서 봐야 한다. 데이터는 연결할수록 의미가 정확해지기 때문이다. 이러한 의미에서 또 다른 빅데터의 함정은 장기예측이 불가능하다는 점이다. 빅데이터는 계속 변화하므로 단기적인 예측만 가능하다. 100년 정도의 기간을 갖는 데이터에서 향후 10년 정도를 예측하는 것은 의미가 있을 수 있겠지만, 1년짜리 데이터로 향후 10년을 예측한다는 것은 말도 안 되는 일이다. 빅데이터는 시야가 그리 넓지 않다는 것을 유념해야 한다. 엄밀한 예측에는 반드시 과학적인 인과관계의 증명이 필수적이다."
사생활 보호 문제는 어떤가.
"빅데이터가 가진 함정과 함께 반드시 고민해야할 점은 개인의 프라이버시 문제이다. 어디까지 허용해야 하는가의 문제는 동전의 양면과 같아서, 개인정보가 많이 사용될수록 더 정확한 정보를 제공할 수 있는 장점이 있지만, 무분별하게 남용된다면 커다란 사회적 문제가 생기는 것은 뻔한 이치이다. 가까운 장래에는 법이나 제도적으로 보완을 할 수도 있겠으나 한계가 있고, 궁극적으로는 기술적으로 해결을 해야한다고 본다. 학문적으로도 개인정보를 보호하면서도 필요한 정보를 얻어내는 암호화 알고리즘에 대한 연구도 진행되고 있고, 데이터의 흐름을 추적이 가능하게 하는 새로운 인터넷 통신방식도 생각해 볼 필요가 있다고 본다.”
앞으로 꼭 해보고 싶은 일이 있다면.
“학문적으로는 세상의 모든 데이터를 연결해서 연구해보고 싶다. 터미네이터 영화에 나오는 스카이넷이 떠오르기도 하지만, 아직은 강한 인공지능이 나오기 전이니 안전하지 않을까 하는…. 그밖에 뜬금없지만 우주여행이 해보고 싶다. 원래 어렸을 때부터 별을 보고 우주를 좋아했고, 과학자가 되고 싶은 이유도 우주선을 타보고 싶어서였다. 그래서 기회가 된다면 우주여행을 꼭 해보고 싶다. 우주에서 보면 지구의 데이터가 어떻게 연결되었는지 새롭게 보일 수도 있지 않을까.”

글=배영대 문화선임기자 balance@joongang.co.kr
사진=우상조 기자
AD
온라인 구독신청 지면 구독신청

PHOTO & VIDEO

shpping&life