datamaker synapse
엄격한 교육을 이수한 데이터 라벨러들이
현존하는 최고의 AI 기반 데이터 라벨링툴인 datamaker synapse를 만나
최고 품질의 데이터를 합리적인 가격에 제공합니다.
데이터메이커의 라벨링 서비스는 이러한 이유로 다른 서비스들과 차별화됩니다.
데이터메이커의 라벨링 서비스는 대한민국 데이터 라벨러, 검수자뿐만 아니라, 해외에서도 동일한 사업을 운영하며, 글로벌한 전문 라벨링 인력을 육성하고 있습니다. 라벨링에 최적화된 솔루션 ‘데이터메이커 시냅스’를 활용하여 단기간에 고품질의 데이터 구축을 보장합니다.
데이터메이커 제공 서비스 분야
AI 전처리를 활용한 효율적인 작업
모든 프로젝트 착수 시점에 AI 전처리 엔진을
활용할 수 있는 부분을 검토하고 적용하는 시스템을 기반으로
라벨링 작업에 있어 인력에만 의존하지 않기 때문에 더 적은 input으로 많은 양의 데이터를 빠르게 획득할 수 있습니다.
데이터 정제 단계에 활용
원시 데이터에 대하여 라벨링 기준에 부합한 원천 데이터를 선별하는 과정에 AI 전처리 엔진을 활용합니다. ex) 이미지 내 사람 영역 추출, 음성 텍스트 추출 등
작업자 투입 전 기초작업에 활용
YOLOv7, Faster-RCNN, Resnet등 프로젝트에 적합한 전처리 엔진을 기반으로 Auto 라벨링을 수행하며, 이를 통해 작업자는 약 70%수준의 정확도로 기초 라벨링이 완료된 데이터의 확인 및 일부 수정 작업만 처리하여 완료합니다.
비식별화 등 SW 기반 처리에 활용
사람의 얼굴, 자동차의 번호판 등 개인정보가 포함된 이미지 데이터에 대하여 AI 전처리 엔진을 활용한 자동 비식별화 처리를 수행하고 실제 작업자들이 라벨링 작업 시 한번 더 검증하는 방식으로 효율적이면서 정확한 비식별화를 수행합니다.
가공 완료 된 정답 데이터 학습 후 활용
1차 전처리 이후 작업자들을 통해 일정 수량의 정답 데이터가 구축될 경우에, 해당 데이터로 학습한 전처리 모델을 적용하여 2차 전처리를 진행합니다. 1차 전처리보다 더 높은 정확도의 결과물을 작업에 활용할 수 있습니다.
다양한 Labeling Workforce
높은 숙련도와 전문성을 가진 데이터 랩 작업 인력,
2만여명 이상의 크라우드 소싱 인력,
아프리카 가나 현지 데이터 랩의 인력까지
다양한 workforce 옵션을 기반으로
고객사의 상황에 가장 적합한 서비스를 제공합니다.
데이터 랩
데이터메이커 본사 가까이 위치한 데이터 랩은 전담 PM이 상주하여 프로젝트 일정, 데이터 보안 관리에 유리합니다. 또한 라벨링 작업에 최적화 된 기술적, 환경적 요건과 숙련된 전문 라벨러를 활용할 수 있어 기한이 시급하고, 보안이 중요한 데이터 처리에 적합합니다.
크라우드 작업자
데이터메이커 누적 회원 수는 국내 기준 3만명을 돌파하였으며, 대부분 다수의 데이터 수집 및 가공 프로젝트를 경험하고 전문 라벨러 교육을 수강한 크라우드 작업자들입니다. 따라서 단기간에 많은 양의 데이터 수집과 가공이 필요한 경우에 Open Project를 통해 빠르게 처리할 수 있습니다
높은 수준의 프로젝트 운영 능력
전문 영역의 데이터, 대규모의 데이터, 보안이 중요한 데이터 등 일반적이지 않은 높은 수준의 관리 능력이 필요한 프로젝트를 체계적인 프로세스와 운영 인력들의 노하우를 바탕으로 공적으로 수행하고 있습니다.
전문 산업 영역의 프로젝트
라벨링에 전문 지식이 필요한 금융, 의료, 화학 분야의 프로젝트를 위해 유관 분야 전문가와의 협의체를 구성하고 이를 기반으로 작업자를 선발 및 교육하여 운영합니다.
개인이 일상생활에 있어 주로 어떤 소비를 하는지 분류하기 위해, 추출한 카드 내역에 프린트 되는 다양한 거래처 및 항목들을소비 패턴 분석을 위한 전문적인 지표들로 구분하였습니다. 작업자들은 수차례 교육을 통해 정해진 분류법을 숙지하고 각 항목을 해석하여 라벨링 할 수 있었습니다.
실제 환자들의 CT 촬영 이미지를 활용하여 특정 영역을 라벨링 하기 위한 프로젝트로,이를 위해 해당 분야의 전문의 선생님들과 함께 라벨러를 교육하여 마치 실제 진단을 위해 CT 이미지를 해석하듯이 작업자들이 특정 영역을 잡아낼 수 있게 되었고 양질의 데이터를 구축할 수 있었습니다.
대학 연구팀에서 진행 중이던 뇌 신경세포 구성 라벨링의 경우, 세포를 구성하는 작은 요소들에 대한 지식은 물론 식별할 수 있는 숙련도가 작업에 필수적이었습니다. 담당 뇌 공학 전공자를 모시고 라벨러 교육부터 테스트까지 진행하면서 능숙하게 라벨링이 가능한 작업자들을 양성할 수 있었습니다.
대규모 대량의 데이터 프로젝트
일정 기간 동안 대규모의 데이터를 수집하고 가공해야하는 프로젝트를 위해 크라우드 소싱 기반 대규모 라벨러를 운용하고 다양한 변수와 위기 관리가 가능한 PM이 있습니다.
영수증 OCR 프로젝트의 경우 실제 영수증 수집과 가공을 진행하여야 했으므로, 먼저 종이 영수증을 크라우드 인력을 통해 수집하고 스캔된 이미지의 OCR 라벨링 작업을 곧바로 투입할 수 있도록 작업자의 배정과 프로세스 일정 관리에 집중하여 짧은 기한 내에 성공적으로 과업을 마쳤습니다.
제주 지역에 거주하는 실제 도민들의 방언 음성 3,000시간 분량을 3개월 내에 모두 전사 작업을 마쳐야 했기 때문에, 제주 지역 방언을 듣고 받아 적을 수 있는 약 800명의 작업자를 원격으로 모집 및 교육하여 운영 함으로써 기한내 완수할 수 있었으며 품질 또한 양질의 데이터로 구축하였습니다.
자율 주행을 연구하는 한 기업에서 촬영한도로 환경 영상에서 대량의 이미지를 추출, 가공에 활용하였습니다. 이미지 내에 정적 객체와 동적 객체를 모두 라벨링 하다 보니 이미지 한 장에 수십개의 객체가 포함되는 경우가 많아 대규모 크라우드 소싱 인력을 통해 프로젝트를 수행하였습니다.
보안이 중요한 데이터 프로젝트
국방 산업, 의료 산업, 민간개인정보가 포함된 데이터를 다루는 산업 등에 대해서는 엄격한 작업자 선발 기준, 작업자 모두 NDA서약, 데이터 랩 내 Security 공간을 별도로 운영하여 관리합니다.
군용 장비의 경우 그 외관상의 디자인과 각 세부 명칭은 물론 데이터의 대부분 정보가 외부에 유출되어서는 안되는 보안 내용이 많았기 때문에, 각 데이터에 접근할 수 있는 운영 인력, 개발 인력, 작업 인력을 제한 후 데이터 랩이라는 한정된 공간과 특정 시간에만 참여할 수 있도록 관리하였습니다.
상담사와 내담자의 실제 상담 대화 내용을 다루고 있는 데이터를 가공하기 위해 우선 ‘상담 대화’와 ‘내담자 정보‘ 를 분리한 다음 특히나 보안이 중요한 내담자 정보는 특정 관리자만 접근할 수 있도록 하였으며, 상담 대화에 접근할 수 있는 작업자도 비밀 유지 서약서 등을 통해 관리하였습니다.
실제 수술실 환경이 담겨 있는 영상 데이터 라벨링의 경우 데이터 랩에서만 운영하기 위해 상주할 수 있는 작업 인력을 선발하고 각 인력들에게 보안 유지 교육을 실시하여 접근하는 모든 데이터에 대한 엄격한 보안 관리가 이루어질 수 있도록 하였습니다.
양질의 데이터 수집 & 생성 환경
데이터 가공 외에도 크롤링 엔진 개발, 크라우드 소싱 인력 활용, 전문 수집 장비를 활용한 데이터 획득 또한 가능합니다. 스크립트, 합성 이미지 등 새로운 데이터 생성이 필요한 경우에도 SW와 인력을 기반으로 구축합니다.
01
크롤링 엔진 개발
수집해야 하는 정보가
존재한다면,필요한
정보만을 추출하여
필요한 형태로
가공해드리는 웹 크롤링
서비스를 제공합니다.
02
녹음 스튜디오 활용
음성 데이터가 부족한 경우,
전문 스튜디오에서 녹음하여
고품질의 데이터셋을
제공합니다.
03
전문 촬영 장비 활용
전문 촬영 인력을 투입하여
실제적이고
고품질의 데이터를
구축하도록 합니다.
04
데이터 생성
필요한 데이터를 가상으로
합성한 데이터로 생성하여
데이터셋을
구축해드립니다.