보행자 시선 추적 데이터 가공 수행기
개발사가 겪던 문제
전 세계적으로 Computer Vision 분야에서 자율주행자동차를 위한 Object Detection Model과 보안을 위한 Face Recognition Model에 대해서는 수많은 데이터셋이
존재하지만 국내 환경에서 취득된 데이터셋은 부족한 상황입니다.옥외광고를 타겟팅한 모델을 연구 및
개발하기 위해서는 국내에 설치된 광고 앞 보행자들의 시선, 성별, 라이프스타일 등의 데이터가 필요 했습니다.활용할 수 있는 데이터가 현저히 부족하여 수집부터 가공까지의 전 프로세스를 다 진행 해야 했고, 모든 과정을 고객사가 직접 하기엔 시간적으로도 인력적으로 턱없이 부족한 상황이었습니다.
수 십 시간의 영상, 수 십만 장의 이미지를 가공하는데 소요되는 시간과 인력을 단순히 따져봐도 모델을 개발하는데 소요되는 시간의 2배 이상에 달했습니다.
데이터메이커의 솔루션
1. 영상 데이터셋 수집
옥외광고가 설치된 유동인구가 많은 곳에서 보행자들을 직접 촬영하여 영상 데이터를 확보했으며, 해당 데이터를 이미지로 프레임 추출하여 옥외광고만을
위한 데이터셋을 구축하였습니다.수집 시 조건은 옥외광고를 보는 보행자의 시선 높이에서 크게 벗어나지 않게 하여 최대한 유동인구가 많은 출, 퇴근 시간에 촬영을 하였고, 다양성을 충족시키기 위해 시간대, 날씨, 장소 등을 모두 다르게 하였습니다.
2. 전처리 및 커스텀 어노테이터를 통한 가공 시간 절약
가공 상세 가이드는 이미지 내 등장하는 사람의 머리, 바디, full body (신체가 프레임 밖으로 벗어나거나, 가려진 부분까지 예측) 바운딩박스 가공, 신체에 총 15개 항목의 키포인트 가공 후 tracking id까지 부여하는 것 이었습니다.
영상에서 추출한 이미지의 경우 연속적인 데이터로 전처리를 통해 기준 프레임의 작업물을 그대로 가공해주었으며, 작업자는 해당 작업물의 박스나 키포인트의 위치 정도만 수정하는 검수만 진행하였기에 가공 소요 시간을 30% 이상 줄일 수 있게 되었습니다.
또한 가공에 있어 필요했던 기능을 추가 하는 등 어노테이터를 프로젝트에 맞춰 커스텀 개발하여 작업 및 검수자 분들에게 편리함을 제공하여 퀄리티가 더 높아지는 결과물을 얻을 수 있었습니다.
3. 전처리 엔진을 통한 개인정보 비식별화 처리
데이터 가공 시 가장 우려 하였던 부분인 개인정보보호는 데이터메이커에서 개발된 비식별화 전처리 엔진을 통해 모든 행인의 얼굴에 비식별화 처리를 완료 하였습니다.
<공개 데이터셋으로 진행한 가공 최종 산출물 예시>
작업자 선발
작업 자체는 단순하지만 단순한 작업들이 쌓여 번거롭고 복잡한 결과물이 되기에 불특정 다수인 크라우드 워커에게 배정하기 보다 영상 단위로 그룹핑되는 수 백 장의 이미지를 책임감있게 끝낼 수 있는 엄선된 라벨러에게 할당하였습니다.
라벨러를 선발할때 가장 중요한건 ‘꼼꼼함’ 이었습니다.
데이터가 아무리 복잡한 경우에도 섬세한 작업을 하며, 오류율이 가장 낮고, 다수의 프로젝트 참여 경력으로 숙련도가 인증된 라벨러들을 선발 하였습니다.
프로젝트 수행을 마치며
본 프로젝트는 이미지 내 가공된 객체 수만 최대 1000여 개에 달하는 복잡하고 까다로운 작업이었습니다.
파일럿 프로젝트를 통해 최상의 결과물을 낼 수 있는 작업 방식을 고안하여 본 프로젝트에 최적화된 툴 개발 및 작업 가이드라인 확립을 하였고,
해당 방식을 통해 본 프로젝트에서는 큰 이슈 없이 최종 납품까지 마무리 할 수 있었습니다.
데이터메이커의 전처리 기술, 커스텀 어노테이터, 우수한 작업 및 검수 인력분들과 함께하여 성공적인 프로젝트 마무리를 할 수 있었습니다.