Project Review

반려동물 질병 앱 개발을 위한 데이터 수집 수행기

고객사 서비스 소개

’인공지능 기술을 활용하여 질환증상 진단을 보조한다‘ 라는 AI를 내세운 비대면 의료 바람은 사람뿐

아니라 반려동물 의료시장까지 영역을 확장하는 의료 고도화 시대를 맞이하고 있습니다.

더불어 최근 반려동물 수의 지속증가와 보호자의 의료분야에 대한 품질 요구수준이 높아지고 있는

추세입니다.

사람은 몸이 불편하거나 아프면 자신의 상태를 확인하고 1차적 판단을 할 수 있지만, 반려동물의 경

우 스스로 1차 판단을하거나 추가 치료가 필요하다는 사실을 보호자에게 알릴 수 없습니다.

반려동물도 아파하는 징후를 사전에 발견하여 악화되지 않으면 얼마나 좋을까요?

 

데이터메이커에 의뢰한 A사는 보호자가 비대면으로 쉽고 간편하게 반려견의 질병 유무를 확 인하는 어플리케이션을 개발 중에 있습니다.

해당 어플리케이션은 반려동물의 질환 증상을 주기적으로 확인/관찰하여 반려동물의 질환 예방 및

조기 발견을 가능하도록 지원합니다. 보호자가 반려동물의 질병 의심 징후에 대해 1차적 판단을 할

수 있게 도우며, 질병의 악화를 방지할 수 있어 보호자의 의료비 부담 및 반려동물의 기대 수명이 늘

어나는 것을 기대할 수 있는 서비스를 제공합니다.

 

개발사가 겪던 문제

’반려동물 질환증상 진단보조 서비스‘ 개발에 앞서 질환 증상 발생유무 판별 정확도를 높이기 위해

다양한 데이터를 확보해야 했습니다.

그러나 아래와 같은 내용으로 일반 기업이 데이터를 수집하기에는 쉽지 않았습니다.

  1. 현재까지 반려동물 질환 관련 AI 데이터들은 전문적인 데이터 품질 검증을 거친 고품질의 데이터가 상대적으로 부족
    • 자료가 개별 기관 별로 데이터가 흩어져 있으며, 다소 민감한 정보로 AI 관련 수요 기관 접근 제한
    • 일부 인터넷에 공개되어 있는 데이터셋의 경우 그 수가 제한적
  2. 수의사로부터 질환 데이터를 얻는 것은 기술 활용 비대면 진료에 부정적인 태도로 데이터 제공에 비협조적
  3. 보호자가 반려동물이 아픈 것을 이용해 리워드를 받는 것에 대한 부정적 인식
  4. 데이터 수집을 위한 자체 시스템 혹은 플랫폼이 없어 지원자 수급 및 촬영 가이드라인 제시가 어려움

위와 같은 이유로 전문 업체인 데이터메이커를 찾게 되었습니다.

 

데이터 메이커의 솔루션

먼저, 양질의 데이터를 수집하기 위해 A사가 원하는 질환의 종류와 데이터 획득의 난이도 등에 대한

사전 리서치를 통해 정보를 파악했습니다.

파악한 정보를 토대로 어떻게 하면 수집하고자 하는 12개의 질환을 균등하게 수집할 수 있을지 고민했습니다.

이에 하단의 3가지 방안을 수립하여 프로젝트를 진행했습니다.

 

1. 크라우드 소싱

데이터 수집 방식 중 우선적으로 도입한 것은 크라우드 소싱 방식입니다.

수집이 어려운 희소성 높은 데이터이기에 많은 사람들에게 데이터 소싱을 홍보하고 수집하는 것을 1차적으로 진행하였습니다.

수집 시에 증상을 명확히 하기 위해 영상 데이터에 대한 상세 정보를 작성하도록 했습니다.

하단 영상 제출자 응답 데이터에는 반려견의 나이, 성별, 견종, 질환증상 종류 등의 내용이 명시되어

있습니다.

2. 전문 기관 및 인력과의 협업

불특정 다수에게 얻는 영상 데이터와 별개로 전문 기관을 통한 데이터 확보도 병행하였습니다.

대표적으로 동물 병원의 협조가 필요했는데 처음에는 부정적인 반응도 많았어서 협조를 얻기가 순탄치 않았습니다.

이를 극복하기 위해서, 원활한 데이터 수집 및 데이터 제공자에 의한 부정적인 인식을 완화시키기 위해

데이터 수집 취지를 밝혀 기타 상업적 용도로 활용하지 않을 것을 서약했습니다.

3. 크롤링 엔진

증상 별 균등한 데이터 수집을 원칙으로 진행했지만, 특정 질환은 본질적 발생 자체가 희소하여 데이터 수집이 어려웠습니다. 이러한 질환의 이미지는 웹 크롤링 엔진을 개발하여 데이터를 보완하였습니다.

※ 진행절차

  1. 웹사이트에서 해당 이미지가 많이 나올 수 있는 키워드를 선별

  2. 개발자가 이미지 수집을 위한 크롤링 코드를 개발

  3. 크롤링을 통한 웹상 이미지 수집

  4. 중복된 이미지는 더 높은 해상도의 이미지를 선별하여 중복 방지

  5. 파일명 ‘질환 명칭_순번_질환 상세 위치’로 변경

  6. 교육 및 테스트를 통해 선발된 작업자들이 이미지 검수 후,

    PM이 2차 검수를 하여 이미지 품질 향상

 

프로젝트 마치며

수집이 정말 어려운 분야의 데이터 유형이었으나 '수집 채널의 다양화'와 '전문 기관 및 인력과의 협업' 방식을 통하여 성공적으로 데이터를 수립할 수 있었습니다.

수집 채널의 다양화 과정에서 데이터메이커의 유능한 매니저들의 도움으로, 기존에 보유한 폭넓은 경험이 도움이 되었고, 반려동물 영상 수집과 가공 경험에 대한 노하우도 생겼습니다.

전문 기관 및 인력과의 협업의 경우에는 기존에 보유하고 있던 인력풀의 가치와 PM의 문제 해결 능력을 증명할 수 있는 기회였습니다.

 

Get Started Today
with datamaker

데이터메이커 시냅스를 회사에 도입하고 싶으시다면,
아래 의뢰하기 버튼을 눌러주세요!

Synapse 문의하기