Project Review

AI OCR 기술 고도화를 위한 텍스트 데이터 가공기

고객사 서비스 소개

저희에게 의뢰한 고객사의 비전 중 한 축을 이루는 것이 바로 AI OCR(문자 인식)서비스입니다.

사람은 종이에 쓴 글자를 무의식적으로 읽고, 알 수 있지만 컴퓨터는 자동으로 읽을 수 없습니다.

종이에 쓴 글자를 디지털 데이터로 활용하려면 일단 사람이 읽고 문자로 변환하여 입력해야 합니다.

이 작업이 온전히 사람의 힘으로 이루어진다면 많은 시간이 걸리고 매우 효율적이지 않습니다.

이 작업을 사람 대신 해주는 것이 OCR이고, 여기에 AI기술을 추가한 것이 AI OCR입니다.

AI OCR은 첫번째로 딥러닝 모델로 OCR을 진행하고,

그렇게 생성된 바운딩 박스에서 글자영역 폴리곤을 추출하여 색깔 분석을 통해 비슷한 밝기를 가진 픽셀들을 그룹화 하는 원리로 작용합니다.

현재의 AI 기반 OCR은 이미지에서 문자 영역을 검출하는 Detection 부분과

해당 영역의 문자를 인식하는 Recognition 2가지 부분으로 크게 나눌 수 있으며,

결과적으로 AI 기반 OCR은 데이터를 캡처하는 동시에 정보를 분석하고 내용을 이해합니다.

 

고객사가 겪던 문제

OCR 기술은 아주 오래전부터 연구되어 왔지만

이미지 안에 문자가 아닌 그림이 많고, 문자 크기가 작으면

낮은 인식률을 보이는 문제는 여전히 해결하지 못한 채 숙제로 남아 있습니다.

수 많은 기업들이 이 문제를 해결하기 위해 지금 이 순간도 최선의 노력을 다 하고 있으며,

더 정확하고 정교한 AI OCR을 위해서는 굉장히 다양하고 많은 양의 패턴 학습이 필요합니다.

고객사도 기보유하고 있는 AI OCR 기술을 고도화하기 위해

정형화되지 않은 이미지에서 추출한 양질의 데이터를 필요로 하였습니다.

 

데이터메이커 솔루션

고객사가 공들여 육성하고 있는 중요도 높은 AI서비스인 만큼,

산출물 퀄리티에 대한 기준과 기대도 상당히 높았습니다.

흔히 좋은 결과물, 만족스러운 결과물을 내기 위해서는

고객이 어떠한 학습 목적을 가지고 데이터 구축을 하는지

세부적이고 명확히 아는 것이 대단히 중요합니다.

프로젝트 시작 전,

착수 회의를 통해 고객의 상황을 이해할 수 있는 자리를 가졌고

요구 사항은 수용하고, 추가가 필요한 사항은 제안하는 논의 과정을 거치면서

서로가 생각하는 목표의 방향과 수준을 일치시킬 수 있었습니다.

다음은, 목표에 부합하는 원천 데이터 선정이 필요하였습니다.

문자와 그림이 섞여 있고, 폭넓은 영역에서 앞으로도 가장 많이 쓰일 데이터가 무엇일까 고민 끝에

가공 식품에 있는 ‘포장 이미지’와 상점들의 ‘간판’ 사진을 선정.

여기서 문자를 탐지, 인식하는 모델을 설계하였습니다.

이후 고객의 요구 사항(정형/비정형, 가로/세로, 텍스트 전사 등)에 따라

맞춤으로 커스텀 개발한 Tool을 사용하여 가공을 진행하였습니다.

특히, 각 폴리곤의 포인트를 문자의 모양과 방향에 따라 순서값을 넣어주어야 하는 세밀한 작업과 검수가 필요하였기 때문에 Tool 상에 생성한 순서에 따라 포인트의 색상을 다르게 하는 기능을 활용하였습니다.

생성 포인트에 따른 색상 변경 기능

 

학습 효율을 높이기 위해서는 문자가 아닌 영역을 최소화 할 필요가 있었기에

영역 표시에 자유도가 높은 폴리곤이 활용되었습니다.

최대한 다양한 형태의 데이터를 가공하자는 목표 만큼

어디까지를 문자 영역에 포함 할지 판단이 어려운 코너 케이스가 굉장히 많이 발생하였습니다.

코너 케이스의 수가 늘어갈 때마다 고객이 진정으로 필요로 하는 데이터에 다가가고 있음을 느낄 수 있었고 가장 원하는 산출 결과를 얻을 수 있는 방향에 가장 초점을 두고 가공을 진행해 나갔습니다.

 

프로젝트 마치며

본 프로젝트를 통해 고도화 될 OCR 기술은 영수증 스캔, 고지서 스캔 납부, 모바일 신분증 인식, 처방전 인식, 모바일 차량번호판 인식 등, 우리 실생활에 밀접한 다양한 분야에서 유용하게 사용할 수 있는 서비스로 돌아오게 됩니다.

그렇기에 ‘내가 사용할 데이터, 내 데이터’ 라는 주인의식이 생겨 더 신경써서 수행해나갈 수 있었습니다.

 

Get Started Today
with datamaker

데이터메이커 시냅스를 회사에 도입하고 싶으시다면,
아래 의뢰하기 버튼을 눌러주세요!

Synapse 문의하기