
브로드스키 IBM 빅데이터 연구원
“단순히 많은 양의 데이터를 뜻하는 게 아니다. 3V 측면에서 봐야 한다. 규모(Volume)·다양성(Variety)·속도(Velocity)의 세 가지 특성 중 두 가지 이상을 충족하면 빅데이터로 볼 수 있다. 왓슨은 책 100만 권 분량의 정보와 각종 미디어·소셜네트워크서비스(SNS) 정보, 인간의 자연어에 관한 엄청난 양의 데이터를 저장하고 있다. 그럼에도 문제를 듣고 몇 초 안에 답을 맞혔다.”
-왜 빅데이터가 주목받는 건가.
“기술의 발전 때문이다. 다양한 형태의 대규모 데이터를 짧은 시간 안에 분석해낼 수 있는 기술이 가능해졌다. 기술의 발전은 과거엔 분석할 수 없던 데이터까지 분석의 범주 안에 포함시켰다. 위치 기반 데이터 혹은 생산 공정에서 발생하는 실시간 데이터 같은 것이 대표적이다. 이런 정보는 예전에는 증발해 버리는 데이터였다.”
-빅데이터는 어떻게 활용되나.
“캐나다 온타리오대 병원 미숙아 병동의 예를 보자. 미숙아의 신체기관이 내보내는 신호를 데이터화해 실시간으로 처리하면서 눈에 보이는 증상이 나타나기 24시간 전에 문제를 인식할 수 있게 됐다. 세계 최대 풍력발전장치 생산업체인 덴마크의 베스타스는 발전기를 어디에 세울지를 결정하는 데 빅데이터를 활용했다. 전 세계 기후 정보를 활용해 발전효율이 가장 높은 장소를 선택하는 것이다. 빅데이터를 활용하면 기업은 더 정확한 의사결정을 할 수 있다.”
-과거에도 할 수 있었던 일 아닌가.
“맞다. 하지만 엄청난 시간이 걸렸다. 예를 들어 1페타바이트(1024테라바이트·1테라바이트는 1000기가바이트)의 데이터를 스캔하는 데 과거엔 20일이 넘게 걸렸지만 이제 한 시간이 채 안 걸린다. 데이터의 양이 늘어나면서 처리속도가 더욱 중요해졌다. 또한 서로 다른 형태의 데이터를 통합해 분석하는 문제도 생겼다.”
-빅데이터가 주로 활용되는 산업 분야는.
“의료산업에서 출발했지만 이제 제조업·물류업·통신업 등 적용되지 않는 곳이 없다. 안보 및 범죄예방 시스템, 교통관리 시스템 등 정부에서도 사용된다. 산업에 따라 적용되는 지점이 다를 뿐 과거엔 풀지 못했거나 직관의 영역이었던 문제를 해결할 수 있게 됐다는 점은 동일하다.”