preLoad Image preLoad Image
검색 바로가기
주메뉴 바로가기
주요 기사 바로가기
다른 기사, 광고영역 바로가기
중앙일보 사이트맵 바로가기

'21세기 세종계획' 전문가 심층진단…국어정보화 위한 '집현전' 필요

한글날을 눈앞에 둔 지난 6일 정부는 눈길끄는 구상 하나를 발표했다.

이름하여 '21세기 세종계획' .정보화사회에서 국어정보처리기술 수준의 획기적 향상을 위한 국어정보화 중장기사업이다.

골자는 이렇다.

내년부터 10년 동안 문화체육부.정보통신부.과학기술처등이 주축이 돼 우리말과 글로 된 정보를 쉽고 편리하게 검색.가공.활용할 수 있는 정보화 여건을 조성한다는 것. 그러기 위해 98년 10억원을 비롯, 10년 동안 총 1백50여억원을 투입한다.

세종계획은 이 기간동안 국어학 연구및 실용적인 자동번역과 통역, 음성대화시스템 등의 기반구축을 위해 ▶기초 언어자료 베이스 확보 ▶기본어휘.전문용어등의 전자사전 개발 ▶남북한.해외 한국어등을 포괄하는 한민족 언어정보화 ▶한글자형및 기호등의 표준화등을 3단계로 추진하게 된다.

그 중요성에 비추어 긴급 전문가 진단을 해본다.

컴퓨터의 발전 가능성이 조금씩 밝혀지던 1960년대 초에 몇몇 전문가들이 컴퓨터를 이용해 낱말의 빈도수를 조사하려 시도했다.

그러나 많은 연구비와 시간을 투자했지만 이 계획은 실패로 끝났다.

당시의 컴퓨터 성능과 프로그래밍 기법으로는 '먹다, 먹고, 먹으니, 먹으면…' 과 같은 어절들이 '먹다' 라는 한 동사의 활용형이라는 것을 컴퓨터에게 가르칠 수 없었기 때문이다.

당시 학자들은 컴퓨터로 인간 언어를 처리한다는 것은 불가능하다고 단정 지었다.

한 세대가 지난 지금, 우리는 컴퓨터가 10년 안에 인간 언어를 이해하게 되리라는 것을 의심하지 않는다.

빌 게이츠는 최근 강연에서 2011년까지는 컴퓨터가 인간의 말을 이해하게 될 것이라고 했다.

그러나 그의 말에는 함정이 있다.

미래에 컴퓨터가 알아듣는 말은 물론 영어를 두고 하는 말이다.

10년 안에 영어만 알아듣고 우리말은 전혀 이해 못하는 컴퓨터가 나온다는 이야기다.

그렇게 되면 우리는 컴퓨터가 아니라 영어를 몰라서 일을 못하게 된다.

우리말과 글의 위기가 닥쳐오고 있다.

마이크로소프트사의 홈페이지를 보면 더 걱정스럽다.

컴퓨터 처리를 위해 몇몇 주요 언어를 동시에 연구하고 있는데 이중에 한국어도 들어 있다.

마이크로소프트사뿐이 아니다.

인간 언어 처리를 연구하는 세계 우수 연구진에는 꼭 한국 학자가 끼어 있다.

이대로 가다간 우리의 언어까지도 외국산 상품을 사 쓰게 될지도 모른다.

이런 사정을 아는 사람들의 걱정은 컸다.

이런 위기 앞에 범국가적으로 대처해야 하는 줄은 알면서도 적절한 방법을 찾지 못했었다.

세종 탄신 6백돌을 맞아 문화체육부에서 발표한 '21세기 세종 계획' 은 이런 점에서 훌륭한 착상이다.

좀 늦은 감은 있지만 다행스러운 정책 결정이다.

지금까지 국어 정보화 관련 사업이 없었던 것은 아니다.

과학기술처에는 94년부터 'STEP 2000 (Software Program)' 의 일환으로 한글 정보 처리에 대한 연구개발을 하고 있고 정보통신부도 97년부터 '우리말 정보처리 기술 개발' 사업을 추진하고 있다.

그러나 이들 선행 사업은 이공계 중심으로 운영되어 정작 국어 정보화의 주역이 되어야 할 국어학자나 언어학자의 참여가 미미했다.

'21세기 세종 계획' 을 마련한 것은 이런 문제점을 바로잡기 위한 것이다.

이 계획은 98년에 10억원으로 시작해서 2007년까지 10년에 걸쳐 1백55억원을 투입해 국어 정보화를 이룬다는 계획이다.

그러나 이 액수는 거대한 목표에 비해 터무니없이 적은 듯하다.

외국에서도 우리말의 연구가 상당히 진행되고 있다는 점을 생각하면 우리에게 시간이 그리 많은 것이 아니다.

따라서 국어 정보화에는 짧은 시간 안에 집중적인 투자가 필요하다.

물론 없는 살림에 해야 할 일은 많아 한 사업에 많은 투자를 할 수 없는 고충도 이해할 수 있다.

그렇다면 외국처럼 민간기업의 참여를 적극 유치해서라도 문제를 풀어야 한다.

86년부터 9년에 걸쳐 이루어진 일본의 EDR (Japan Electronic Dictionary Research) 프로젝트의 경우 미츠비시.NEC.도시바 등 8개 기업이 공동 출자해 참여했다.

또 영국의 BNC (British National Corpus) 프로젝트에도 롱맨 (Longman).라루스 (Larousse ) 출판사, 옥스퍼드 대학 출판사와 같은 기업이 출자하여 91년부터 94년까지 영어 말뭉치 1조 어절을 모았다.

국어정보화는 민족의 장래와 국가 경쟁력이 달린 중대한 사업이다.

우리도 민간 기업과 대학, 연구소들을 묶어 컨소시엄을 만들어서라도 국어 정보화 사업의 중요성에 맞는 규모로 일을 벌여야 한다.

이미 이루어진 연구 결과를 최대한으로 활용하는 방안도 바람직하다.

특히 전자 국어 사전의 편찬 같은 부분은 기왕에 구축되어 있는 것을 이용하는 것이 좋을 것이다.

그러기 위해서는 위탁 연구에만 의존하지 말고 필요한 자료와 기술의 저작권을 살 수도 있어야 한다.

이 점도 연구하여 도입해야 한다.

한 가지 마음에 걸리는 것은 '21세기 세종 계획' 과 비슷한 사업을 과학기술처와 정보통신부에서도 하고 있다는 점이다.

과학기술처의 'STEP 2000' 사업이나, 정보통신부도 '우리말 정보처리 기술개발' 사업을 '21세기 세종 계획' 과 조화를 이루는 방법을 찾아야 한다.

국어 정보화의 중요성과 시급함을 생각하면 이 사업을 범부처적으로 관할하는 집현전과 같은 기구가 필요하다.

세종대왕께서 한글 창제를 손수 관장하시지 않고 조정의 다른 부서에 맡겼다면 훈민정음은 세상의 빛을 보지 못했을 것이다.

'21세기 세종 계획' 의 세부 사항 중에 옛문헌 말뭉치를 모으는 계획은 적절하지 못하다.

국어 정보화는 가장 널리 쓰이는 말뭉치에서부터 시작해야 하는 사업이다.

일부 전문학자에게만 필요한 자료를 처음부터 국어 정보화에 포함시키는 일은 피해야 할 것이다.

남북한 언이 비교 사전의 구축도 시급하지 않다.

우선 남한 말에 대한 국어 정보화가 이루어져야 남북한 말의 비교도 가능하기 때문이다.

같은 이유로 해외 동포 언어와 방언 말뭉치 모으기, 대역어 사전 편찬 등은 우선 순위에서 뒤로 미루어야 할 것이다.

국어정보화가 성공한다면 우리 생활은 큰 변혁을 겪게 된다.

지금 워드프로세서에서 돌아가는 맞춤법 교정기는 국어정보화가 실생활에 응용된 가장 초보적인 예이다.

예전에는 원고교정을 보기 위해 전문가가 필요했지만 지금은 웬만한 철자 오류는 컴퓨터가 잡아준다.

국어정보 처리기술이 더 발전하면 문서의 핵심어를 자동으로 추출해 주게 된다.

핵심어를 자동으로 골라 내게 되면 마치 비서가 신문의 내용을 요약하듯 긴 문서전체의 내용을 한두 문장으로 컴퓨터가 요약해 주는 기술은 그리 어려운 것이 아니다.

우리는 지금 어느 정보부터 먼저 보아야 할 지 모르게 정보가 넘쳐 흐르는 시대에 살고 있다.

언어를 이해하는 컴퓨터가 문서에 쓰인 핵심어를 스스로 인지하여 사용자에게 그 목록을 제시해 주고 문서 내용을 자동으로 요약해 준다면 정보의 홍수 속에서 자신이 필요한 것만 을 볼 수 있게된다.

국어 정보확 성공하면 응용할 분야는 무궁무진하다.

언젠가는 외국어를 배우지 않고도 자동통역기를 들고 세계 여러나라를 자유롭게 여행하게 될 날이 올 것이다.

유재원 교수 <한국외대 언어학>
AD
온라인 구독신청 지면 구독신청

PHOTO & VIDEO

shpping&life