인공지능 데이터메이커, 시맨틱 세그멘테이션 글로벌 시장 가격 경쟁력 확보
인공지능 개발에서 가장 중요한 것은 바로 ‘데이터’다. 데이터의 품질과 데이터의 양에 따라 인공지능 엔진의 성능이 달리 나오기 때문이다. 이안 굿펠로우의 ‘딥러닝’에 따르면, 인공 지능이 인간 지능 이상의 성능을 내기 위해서는 각 클래스 당 무려 100만 장 이상의 학습이 진행되어야 한다. 학습 데이터 생산은 대부분 사람의 수작업으로 이루어진다는 점에서 한계에 부딪히고 있다.
그 중에 가장 많은 노고가 드는 데이터 가공 작업은 컴퓨터 비전 분야에서 가장 핵심적인 분야인 ‘시맨틱 세그멘테이션(Semantic Segmentation)’이다. 시맨틱 세그멘테이션은 이미지에 있는 모든 픽셀을 다 채색하고 해당하는 클래스로 분류해야 하는 작업이다. 주로 자율주행 자동차, 의료 영상 분석, 산업 검사, 위성 영상, 로봇 비전 등에 유용하게 활용된다. 데이터 가공 플랫폼에 맡기더라도 수작업으로 진행되는 시맨틱 세그멘테이션 특성 상 인건비가 많이 들어 가장 높은 금액에 진행된다.
시맨틱 세그멘테이션을 진행하는 국내 알디프로젝트는 아프리카 가나와 대한민국에서 인공지능 학습을 위한 데이터를 수집하고 가공하는 ‘데이터메이커(datamaker)’ 플랫폼을 운영하고 있다. 고객사에 동일 가격 대비 더 많은 작업물을 가공하기 위하여 아프리카 가나에서 데이터 가공을 수행한다.
알디프로젝트가 가나에 설립한 NGO인 VisionCraftProject에서는 높은 품질 유지를 위하여 엄격한 작업자 관리를 진행하고 있다. 가나 데이터메이커 랩에서는 무려 이틀 동안 3번의 테스트를 통과해야 한다. 이를 통과한 우수 인원에게만 가공 업무를 수행할 수 있는 자격을 부여한다. 소수 정예로 선발된 인원들은 각 프로젝트에 투입되며, 집중 교육을 실시한다.
알디프로젝트는 2018년 10월 설립한 이후 데이터바우처 지원사업으로 15개의 고객사를 확보하여 약 9억원의 매출을 일으킨 스타트업이다. 데이터메이커를 통해 가공된 데이터는 약 30개의 연구 개발 스타트업, KAIST 등의 대학 및 연구기관에 폭넓게 활용되고 있다.
㈜알디프로젝트 이에녹 대표이사는 “시맨틱 세그멘테이션을 수행해야 하는 인공지능 개발사들이 금액 부담 때문에 내부적으로 해결하거나 높은 비용을 주고도 적은 양의 데이터 가공만 진행할 수 있어 어려움을 겪고 있다. 알디프로젝트는 고객사에 합리적인 가격으로 우수한 품질의 데이터 가공을 진행하고 있다”고 밝혔다.
이소영 기자