preLoad Image preLoad Image
검색 바로가기
주메뉴 바로가기
주요 기사 바로가기
다른 기사, 광고영역 바로가기
중앙일보 사이트맵 바로가기
닫기
닫기

[비즈 칼럼] AI 학습용 데이터 사업에 대한 3가지 오해

문용식 한국정보화진흥원장

문용식 한국정보화진흥원장

국가적 역량을 모아 추진 중인 디지털 뉴딜의 대표사업이 데이터댐 사업이고, 그 중 간판이 ‘인공지능(AI) 학습용 데이터 구축’ 사업이다. AI 데이터 사업에는 올해 추경 예산만 2925억원이 투입돼 10개 분야 150종의 AI 학습용 데이터를 만든다. 앞으로 2025년까지 약 2조5000억원이 투입돼 대한민국을 인공지능 선도국가로 거듭나게 하는 것을 목표로 한다.  
 
예산 규모가 전에 없이 크다 보니, 시장의 반응도 폭발적이다. 하반기에 진행된 사업자 공모에 무려 1900여 기업·기관이 지원했고, 4.2대 1이라는 경쟁률을 뚫고 72개 컨소시엄, 548개 참여 기관이 선정돼 사업에 본격적인 시동을 걸었다.  
 
벌써 시장에서는 유의미한 변화가 일어나고 있다. 뉴딜 사업을 계기로 생태계가 취약한 소프트웨어 기업, 시스템통합(SI) 기업들이 AI 데이터 사업에 본격적으로 뛰어들고 있다. 이번 사업의 특징이 크라우드소싱 방식으로 데이터를 구축해 가급적 많은 일자리를 창출하는 것이다. 불과 1년 전만 해도 10여 개에 불과하던 크라우드소싱 플랫폼 기업은 어느새 200개 가까이로 증가했다. 또한 의료·제조·농축수산 등 기존 전통산업의 주요 기업들이 적극적으로 참여했다. 헬스케어 분야의 AI 데이터 구축 과제에는 대한민국의 내로라하는 대형병원이 대부분 참여했다. 의료기관이 자체적으로 고유의 AI 모델 개발을 위해 AI 사업에 본격적으로 진출하는 전환점이 된 셈이다.  
 
사업 규모가 크고, 뉴딜의 대표 사업으로 관심이 집중되다 보니 크고 작은 비판이 있는 것도 사실이다. 대표적으로 다음 세 가지를 꼽을 수 있다.  
 
첫째, AI 데이터 구축 사업이 단기 알바성의 질 낮은 일자리만 양산하는 것 아니냐는, 소위 ‘디지털 인형 눈알 붙이기 사업’이라는 비판이다. 데이터 가공 업무는 데이터 라벨러, 데이터 품질 관리자, 데이터 분석가 등 초중고급 각 단계별로 다양한 경험을 보유한 인력이 필요하다. 처음엔 단순한 데이터 가공 업무로 데이터의 세계에 입문했다가 점차 전문인력으로 성장해간다. 사다리 첫 계단을 밟지 않고 맨 윗칸으로 건너뛸 수는 없는 법이다. 일자리 각 단계마다 적절한 교육과 인턴십 프로그램을 제공하도록 일자리 사다리를 잘 설계하는 것이 중요하다.  
 
둘째, 구체적 목표 없이 데이터를 구축한다는 주장이다. 수요자가 원하는 것이 아닌 공급자 위주의 데이터 구축 사업이라는 비판이다. 기술 발전 트렌드와 시장 분석 없이 국가적 사업을 추진할 수는 없다. 이미 과제를 선정하는 단계에서부터  AI 기업·기관·전문가·학계의 수요를 바탕으로 범용성 있는 주제를 선정했다. 또 학습용 데이터 셋뿐만이 아니라 원천 데이터, 저작도구, AI 모델까지 일괄 개방하도록 해서 데이터 셋의 활용도를 높였다.  
 
이를 바탕으로 AI 개발자라면 누구나 목표 정밀도의 90% 수준까지 AI 모델을 개발할 수 있다. 등산으로 비유하면 9부 능선까지 힘들이지 않고 올라가는 셈이다. 스타트업들은 나머지 10%만 추가 데이터를 구축해 AI 모델의 정밀도를 높이면 된다. 정부의 마중물이 AI 사업의 진입 비용을 획기적으로 낮추는 역할을 하는 것이다.  
 
셋째, 데이터는 무엇보다 품질이 중요한데 질 낮은 데이터만 양산하는 것 아니냐는 비판이다. 지속적인 품질 관리가 안 될 것이라는 비관적인 예측이다. AI 산업이 고속 성장할수록 AI 학습용 데이터의 품질도 빠르게 향상되고 있다. 본 사업에서는 AI 산업의 생애 주기에 맞춰 지속적으로 데이터를 수정·보완해 시장에 바로 적용 가능한 데이터로 정교화할 계획이다. 최근 AI 전문가와 AI 기업을 중심으로 분야별 품질 자문위원회를 구성했다. 세계 최초로 AI 데이터 품질 기준을 설정하고 표준 등록을 추진해 글로벌 최고 수준의 품질관리를 할 예정이다.
 
AI는 데이터로 시작하고 데이터로 성숙한다. AI 모델의 정밀도를 향상하는 데는 알고리즘 원천기술 개발보다 정확한 데이터를 풍부히 학습하는 것이 더 효과적이다. AI 학습용 데이터 구축 사업은 대한민국이 본격적으로 AI 산업 선도국가로 발돋움하는 거대한 마중물이 될 것이다. 이미 시장은 발 빠르게 반응하고 있다.
 
 
문용식 한국정보화진흥원장

AD
온라인 구독신청 지면 구독신청

PHOTO & VIDEO

shpping&life

많이 본 기사

댓글 많은 기사