preLoad Image preLoad Image
검색 바로가기
주메뉴 바로가기
주요 기사 바로가기
다른 기사, 광고영역 바로가기
중앙일보 사이트맵 바로가기
닫기
닫기

[트랜D]네가 어디 갔는지 다 알고 있다,그런데 네가 누군진 모른다

 
영상 인식·분석 분야를 공부하다 보면, 객체를 어떻게 탐지하느냐를 넘어서서 이것을 어떻게 모을지에 대한 고민을 하게 된다. 기업 입장에서는 고객의 행동 데이터가 필요할 수 있고, 코로나19와 같은 보건 차원에서는 전염력을 가진 사람들의 움직임을 예의주시할 필요가 있다. 하지만 개인정보나 초상권 문제가 걸려있기 때문에, 정보에 대한 비식별화를 통해 아주 예민하게 접근해야 한다.  

사생활 침해 안하면서 개인 행동 정보 얻으려면
유재연의 ‘인사이드 트랜D’

 

더존비즈온의 비지니스 플랫폼 '위하고'

밀도에 접근하는 방법: 로그 데이터, 또는 부분을 통한 예측

집회가 있을 때마다 경찰과 주최 측 추산에는 차이가 난다. 그래서 제대로 사람 수를 알아내기 위하여 집회장소 인근의 지하철역 이용자 수와 휴대전화 사용 로그를 활용하는 방법이 논의됐다. 영상 분야에서는 아예 주변 CCTV 데이터를 수집해 얼굴 수를 세는 방법을 쓴다. 다만 카메라의 촬영 각도나 어둠 및 그림자 등의 이슈로 늘 도전받는 분야이기도 했다.  
 
지난해 말 한국에서 열린 세계적인 컴퓨터 비전 학회(ICCV 2019)에서도 관련 논문을 꽤 볼 수 있었다. 흥미롭게도 영상 속에서  ‘군집 내 사람 수 세기’ 방법을 낸 논문이 예닐곱 편 있었는데, 대부분이 중국(계) 연구진이 낸 것이었다. 중국에서는 원래부터 기계의 영상 인식 관련 논문을 많이 내는 편이고, 공교롭게도 그해 초에는 홍콩에서 반정부 집회가 잦았다.  
 
연구진의 셈법은 사람의 얼굴에 대해, 아주 작은 부분이라도 찍혔다면, 그것이 한 사람으로 인지되도록 한 것이었다. 당시엔 대다수 얼굴 인식 프로그램이 눈·코·입 등 주요 부위가 온전히 검출되지 않으면 얼굴로 인식이 되지 않았기에, 더욱 눈길을 끄는 연구였다. 키가 작은 사람이나 어린이는 집계가 힘들다는 한계점을 극복하기 위해, 사람 한 명당 평균적으로 차지하는 공간을 계산해 이를 토대로 밀도를 계산하는 연구 또한 소개되기도 했다.  
 
군집뿐 아니라, 사람 개개인의 움직임을 예측하는 연구도 굉장히 활발하게 진행되고 있다. 일명 ‘보행자 예측’이라는 연구 섹터가 따로 있는데, 자율주행 차 기술에서 특히 필요한 연구다. 기계에 다량의 보행자 데이터를 학습시켜 ‘사람’을 먼저 인지하게 하고, 그 다음에 벌어지는 일들(사람이 길을 건널 것인가, 말 것인가)을 기계 스스로 패턴으로써 익히도록 하는 것이다. 
 
캐나다 요크대 연구진의 경우 사람의 의도를 판단하는 것은 굉장히 주관적인 작업인 만큼, 사람들의 집단지성도 필요하다고 판단했다. 따라서 보행자 샘플에 대해 클라우드 워크 플랫폼(MTurk)을 활용해 사람들의 의견을 수집했고, 이를 기계 학습에 반영했다. 그뿐만 아니라 보행자 주변의 환경적인 요인도 모두 모아 보행 예측에 활용했다. 예를 들어 사람 앞에 택시가 있으면, 길을 건너기보단 택시를 탈 것이라고 예측하도록 한 것이다.  
〈그림1〉 기계가 인식한보행자의 행동 예측 결과. 길을 건널 의도가 있는 사람은 초록색으로,의도가 없는 사람은 붉은 색으로 표기됐다. Rasouli et al.(2019) 발췌.

〈그림1〉 기계가 인식한보행자의 행동 예측 결과. 길을 건널 의도가 있는 사람은 초록색으로,의도가 없는 사람은 붉은 색으로 표기됐다. Rasouli et al.(2019) 발췌.

세부적으로 사람의 움직임을 알려거든 ‘뼈대’를 떠올려라

움직임보다 어쩌면 더 작은 단위, 즉 사람 한 명 한 명의 ‘행동’을 데이터로 수집하는 방법도 지속해서 나오고 있다. 이 경우 ‘관절 그래프’가 많이 쓰인다. 쉽게 말해 머리는 동그라미로 그리고, 다른 몸은 한 줄짜리 선(뼈대)으로 표현하는 것이다. 이 경우의 매우 큰 장점은 사람의 행동 데이터를 수집하는 데 있어 철저하게 ‘비식별화’가 된다는 것이다. 사람의 몸 사이즈(키나 부피) 정도에 따라 선의 길이가 미묘하게 다를 수는 있지만, 대부분의 경우 누군지 알 수 없게 표현이 된다. 표현법이 간편해진 만큼, 기계학습에도 용이하다.  
 
최근 아마존웹서비스(AWS) 연구진이 발표한 논문에서는 여러 사람이 뒤섞인 비디오에서 그들의 포즈를 추출하고 이를 트래킹하는 연구가 나왔다. 방법론적으로는  ‘가정’-‘연결’-‘예측’ 파이프라인이 돋보인다. 화면상 사람1에게 가려서 보이지 않는 사람2의 신체 부위 일부를 ‘왼쪽 무릎일 것’이라고 가정해서 사람의 존재 여부를 판단하고, 무릎(관절)으로부터 이어지는 뼈대를 예측하여 “비디오 속 가려진 사람은 농구 게임에서 디펜스를 하는 중”이라는 식으로 해석해낸다고 한다.
〈그림2〉 사람이 여럿 있어도, 각각의 사람들을 인지하고 그들의 행동을 각자 추출해내는 딥러닝 모델이다. 이전기술들과 달리 겹쳐져있는 사람들에 대해서도 행동을 추측해낼 수 있도록 구성됐다. Wang et al.(2020)발췌.

〈그림2〉 사람이 여럿 있어도, 각각의 사람들을 인지하고 그들의 행동을 각자 추출해내는 딥러닝 모델이다. 이전기술들과 달리 겹쳐져있는 사람들에 대해서도 행동을 추측해낼 수 있도록 구성됐다. Wang et al.(2020)발췌.

 
공간 내부의 사람들 협업 행동을 파악하는 연구도 있다. 오토데스크(Autodesk)의 연구진은 사무실 곳곳에 캠을 설치한 뒤, 책상의 위치나 크기에 따라 사람들이 어떻게 뭉치고 흩어지는지, 커뮤니케이션 스타일은 어떻게 달라지는지를 연구한 바 있다. 공간을 사람 중심적(human-centered)으로 구성하기 위해서, 본질적으로 사람들의 협업 패턴을 찾아본 것이다. 이때에도 마찬가지로 관절을 잇는 그래프 타입으로 사람을 인지하는 모델링을 썼다. 자칫 근태 감시가 되지 않도록, 구성원들을 철저히 비식별화한 것이다.  
 
포스트 코로나 시대라 해도 사람 간 물리적 거리는 영원히 2m일 수 없다. 사람 대 사람으로 뒤엉키는 일 또한 사라질 수 없다. 바이러스는 여전히 우리의 옆에 있고, 그렇기 때문에 우리의 행동 하나하나가 굉장히 예민하고 조심스러운 데이터가 될 것이다. 이를 관찰하는 사람들(연구진이나, 기업 내 인사 담당자 등) 입장에서는 어떻게 하면 개개인의 사생활을 침해하지 않으면서 위험 발생률을 낮출지, 혹은 어떻게 하면 더 나은 ‘세미-언택트’ 일터를 만들 수 있을지 고민해야 할 것이다. 개인을 비식별 해 분석하는 이러한 방법과 시도들은, 요즘 같은 때 특히 돋보이는 배려 중 하나일 것이다.
 
유재연 객원기자

유재연 객원기자

 중앙일보와 JTBC 기자로 일했고, 이후 서울대 융합과학기술대학원 박사과정을 밟고 있다. 이미지 빅데이터분석, 로봇저널리즘, 감성 컴퓨팅을 활용한 미디어 분석에 관심이 많다.

관련기사

온라인 구독신청 지면 구독신청

PHOTO & VIDEO

shpping&life