[네이버 어벤저스] 달라지는 클로바OCR, 기성품 아닌 ‘레고’처럼 맞춤화

최민지 2022.02.04 16:24:42

국민 포털로 출발한 네이버가 다양한 플랫폼과 서비스들로 영역을 대폭 확장하고 있다. 이용자 경험을 위한 체질 개선뿐만 아니라, 중소상공인(SME) 및 창작자들과 이용자들을 연결해 디지털 비즈니스 시너지를 도모하는 데 골몰하는 모습이다. 이용자가 보는 앞단의 변화가 이 정도라면, 개발 뒷단에선 보다 과감하고 치열한 고민이 필요하다. 이에 디지털데일리는 네이버를 움직이는 기술 리더들을 마블 캐릭터에 빗대 ‘네이버 어벤저스’라는 이름을 붙였다. 이들의 연속 인터뷰를 통해 국내 최대 인터넷 기업의 속 깊은 고민과 핵심 경쟁력의 원천을 짚어보고자 한다. <편집자 주>
[디지털데일리 최민지기자] 올해부터 클로바 OCR이 새로운 도약을 시작한다. 신기술을 순차적으로 도입하면서, 최소의 노력으로 최대의 효과를 누릴 수 있도록 한다. 사용자 맞춤형 학습 솔루션까지 준비한다. 클로바 OCR을 활용하는 기업에게는 희소식이다.

광학문자인식 ‘OCR(Optical character recognition)’은 이미지 속 글자 위치를 찾고, 어떤 글자인지 자동으로 알아내는 기술이다. 명함 이미지에서 어떤 위치에 있는 글자가 이름인지, 전화번호는 무엇인지 등을 알 수 있다. 여기에서 더 나아가 네이버는 이를 자동화해 사용자가 원하는 정제된 형태의 정보로 분류한다. 일례로, 네이버 마이플레이스 영수증 리뷰와 명함 앱 리멤버 등을 떠올리면 이해하기 쉽다. <이전 기사 참조 [네이버 어벤저스] 영수증리뷰, 명함앱…이미 당신은 ‘클로바 OCR’을 쓰고 있다>

올해부터 네이버는 인공지능(AI)‧딥러닝 등 최신 기술을 적용한 OCR을 본격적으로 고도화할 준비에 나섰다. 이에 <디지털데일리>는 네이버 클로바 OCR의 주역 ▲이바도 OCR팀 리더 ▲박승현 인포메이션 익스트랙션(Information Extraction) 팀 리더 ▲조한철 도큐먼트 빅모델(Document BigModel) TF 리더를 만났다.

박 리더는 “올해를 목표로 순차적으로 신기술을 업데이트할 계획이며, 사전학습 모델과 엔드투엔드(end-to-end) 모델 등이 추가될 것”이라고 언급했다. 엔드투엔드 모델은 어떤 이미지에서 사용자가 필요한 구조화된 정보를 바로 추출하는 것을 의미한다.

◆클로바 OCR ‘DIB’, 사용자가 원하는 모델 직접 개발=네이버는 그동안 클로바 OCR 기술을 기반으로 특정 도메인에 특화된 인식 모델 연구 개발에 주력했다 그 결과, 영수증‧의료비영수증 인식 모델 등 다양한 결과물을 사업화하고 있다.

과정을 한 번 들여다 보자. 네이버는 고객에게 클로바 OCR 관련 서비스를 제공하기 위해 법적으로 사용할 수 있는 학습 데이터를 모으고 모델링을 한 후 평가‧분석‧품질보증(QA) 등을 거친다. 이를 통해 고객이 요구하는 서비스를 만들어냈다. 여기서 끝이 아니다. 보통 고객은 완성된 제품 내에서 유지해야 할 정보‧기능, 빠져야 할 것, 더 추가해야 할 것 등을 요구한다. 이 과정이 반복될수록 시간과 비용은 늘어난다.

이처럼 기획부터 개발‧평가까지 과정이 아직 길기 때문에 사용자 요구에 맞춰 빠르게 서비스를 제공하기 어렵다. 고객은 본인 환경에 맞는 맞춤화된 서비스를 원하기도 하는데, 특화 모델 개발에는 많은 데이터와 비용, 인력 등 리소스가 필요하다.

박승현 리더는 “예를 들어 온프레미스 형태로 A은행에 클로바 OCR을 설치하더라도, 맞춤화를 위해 계속 A은행을 드나들어야 한다. 사내에서 외부로 공개하기 어려운 정보에 접근할 수 없는 한계도 있다”며 “사용자(A은행)는 본인이 원하는 모델을 내부 데이터로 만들어 이용하기를 원하고, 잘 만들어졌을 때 외부로 판매해 신규 수익을 얻는 것까지 바라기도 한다”고 설명했다.

이에 네이버는 특화 모델 서비스를 기성품처럼 제공하는 것을 넘어, 사용자가 소량의 데이터로 원하는 형태 모델을 직접 개발할 수 있는 일종의 모델 생성 및 관리 솔루션을 제공하기 위해 준비 중이다.

바로 도큐먼트 인사이트 빌더, ‘DIB’다. 기존에는 만들어진 집 자체를 줬지만, 이제 레고처럼 이용자가 원하는 모양으로 조립해 쓸 수 있게 된 셈이다. 이를 통해 효율성과 유연성을 극대화했다.

박 리더는 “사용자가 직접 만들어 사용할 수 있는 빌더를 만들고 있다. 현재는 우리가 만들지 못하면 사용자는 이용할 수 없는 ‘기성품’에 가까운 구조”라며 “이 소프트웨어만 있으면, 본인이 가진 원래 데이터와 인프라를 사용해 직접 모델을 개발해 추구하는 목적에 맞게 쓸 수 있게 된다”고 제언했다.


◆1만장 필요한 학습, 1000장이면 된다?=이러한 사용자 맞춤형 학습 솔루션에서 반드시 선행돼야 할 부분 중 하나가 사전학습 모델(pre-trained model)이다. 사전에 대량의 데이터로 학습한 모델을 네이버가 제공하면, 이를 기반으로 사용자는 소량의 데이터 학습만으로 성능을 확보할 수 있기 때문이다.

아무리 집에서 레고를 조립할 수 있더라도, 전문적인 수준을 요구하거나 비용이 많이 들면 엄두가 나지 않는 법이다. 고객이 효율적으로 이용할 수 있도록 사전학습 모델을 구축, 이를 소프트웨어 형태로 제공하겠다는 복안이다.

이바도 리더는 “맞춤화도 핵심 포인트 중 하나지만, 더 중요한 점은 시간과 비용”이라며 “동일한 성능을 더 짧은 기간에 더 적은 데이터로 가능하게 만드는 것으로, 사전학습 모델이 필요한 이유”라고 강조했다.

이와 관련 네이버는 도큐먼트 빅모델(Document BigModel) 태스크포스(TF)를 신설했다. 4개월가량 된 신생 TF로, 소량의 데이터로 최대 효과를 낼 수 있는 사전학습 모델을 연구하고 있다. 네이버는 이러한 연구를 이전부터 진행해왔고, 올해 탑티어(top-tier) 인공지능(AI) 학회 중 하나인 AAAI에 ‘BROS’라는 이름의 사전학습모델 관련 논문을 발표할 계획이다.

조한철 TF 리더는 “일본 국회도서관에서 클로바 OCR을 이용해 200만개 서적을 텍스트화했다 이를 위해 디지털 이미지 1만장을 추출했고, 50여명이 3개월간 일했다”며 “100년 전 텍스트의 경우, OCR 성능이 낮다. 1800년대 후반 서적의 경우 절반만 인식했지만, 경쟁사와 비교하면 이것도 우수한 편”이라고 말했다.

이에 네이버는 95% 이상 성능이 나오는 1만장가량 학습 데이터 기반 모델을 만들었다. 그런데, 고객이 매번 1만장씩 학습 데이터를 투입하는 건 쉽지 않다. 억단위 비용에 대한 부담도 만만치 않다.

조 리더는 “1만장이 아닌 이미지 1000장만으로도 가능하다면, 시간도 돈도 줄어들게 되지 않겠느냐”라며 “아직은 간이 수공업에 가깝지만, TF를 통해 적은 데이터 원재료만으로 생산성을 늘릴 수 있는 공장을 새로 만들고 있다고 보면 된다”고 전했다.

한편, TF는 차세대 연구로 ‘비전트랜스포머(ViT)’를 선정해 신제품에 적용한다. 구글이 처음 공개한 ViT는 이미지 처리에서 합성곱신경망(CNN)을 뛰어넘는 모델로 각광받고 있다.