Project Review

STT 개인정보 자동 비식별화 수행기

 

음성형(음성인식/ 합성기술) 엔진 기술이 탑재된 인공지능 플랫폼으로 일상 생활에 편리함을 경험해 본적이 있으신가요?

손쉽게 음악 듣기, 메시지 보내기, 택시 호출, 배달 주문, 생활 정보 이용, 자연스러운 대화까지 가능합니다.

다양한 음성형 엔진 플랫폼에서 제공하는 서비스들은 때때로 개인정보를 요구되거나 개인정보가 정보에 의도치 않게 포함되어야 하기 때문에,
일상 생활의 편리함을 제공받기 위해서는 개인 정보 노출이 불가피합니다.

그렇다면 나의 개인 정보가 담긴 음성데이터는 어떻게 관리가 될까요?

 

고객사의 Problem

고객사는 음성인식과 자막을 동시 제공하는 AI 시스템 개발을 하면서 개인 정보 보호 권리를 유지를 위해 음성 데이터와 텍스트 데이터 안에
개인정보를 자동으로 제거하거나 비식별화하는 모델 학습용 데이터가 필요했습니다.

이에 데이터메이커는 AI 시스템이 음성과 텍스트 데이터에 담긴 사용자의 개인정보들을 개인 정보 보호 수칙을 준수하여 비식별화하는 데이터를 구축하였습니다.

음성인식에 포함 되어 있는 개인 정보를 신중하게 처리하기 위해서 이름, 주소, 금융 정보 등 민감한 정보를 카테고리별 라벨링 작업과 비식별화 한 음성데이터가
묵음 처리되거나 텍스트는 가명 처리를 하기 위한 데이터 가공이 동시에 이루어졌습니다.

 

데이터메이커의 Solution

 

데이터 전처리

음성 데이터는 원본 음성 정보에 담긴 개인의 목소리 톤 자체도 개인 정보로 판단하기 때문에 음성변조 처리와 소음을 제거 및 잡음 처리를 하여
음성 비식별화 및 데이터 품질 개선 작업을 자동으로 처리합니다.

텍스트 데이터는 발언 내용을 기록한 속기록 파일(한글, 워드, TXT 등)을 취합하여 TXT 파일로 변환한 뒤, 텍스트에 포함 된 특정 단어 혹은 서식을
매칭되는 [가명]으로 일괄 전처리 하여 식별 가능한 개인 정보를 제거하였습니다.

 

작업자 교육

전처리 후 단어의 맥락이나 형식이 불분명한 카테고리는 맞춤법 능숙도와 개인정보 분야 전문 지식을 갖춘 작업자를 투입하여 진행합니다.
작업자들은 가이드라인 교육을 통해 조사, 접사, 띄어쓰기 확인, 카테고리 분류, 코너케이스 피드백 및 매니저와 소통 과정을 숙지합니다.
그 외 라벨링 작업 내용과 개인정보 보호 조치 조항을 포함한 보안 서약서를 제출하도록 하였습니다.

 

개인정보 태깅 및 라벨링

1. 텍스트 및 음성 데이터 처리

  • 개인정보가 포함된 세그먼트의 시작점과 종료점을 표시하거나 구간을 식별합니다.
  • 데이터메이커의 시냅스 텍스트 툴을 사용하여 카테고리 태깅 작업을 진행합니다.
  • 라벨링 카테고리는 개인정보의 유형을 명시합니다 (예: 이름, 전화번호, 주민등록번호, 위치 정보, 금융 정보, 거주지, 기기 아이디, 종교 등).

2. 텍스트 데이터와 음성 데이터 매칭 및 태깅

  • 가공 완료된 텍스트 파일과 WAV 음성 파일을 매칭하여 음성 툴에 임포트합니다.
  • TXT 파일은 스크립트 업로드를 진행하여 비식별화 대상 부분을 [괄호] 처리합니다.
  • 툴 안에서 음성 재생 속도와 음파 크기를 조절하여 텍스트 파일에 가공 처리된 부분을 음성 데이터에서 찾아 구간 태깅합니다.
  • 텍스트와 음성 데이터의 싱크를 맞추고 가공 대상의 누락을 방지하기 위해 텍스트 본의 캡션 개수와 내용을 별도로 추출하여 작업자와 공유합니다.

 

 

 

품질 점검 및 관리

1. 철저한 품질 점검

  • 모든 개인 정보가 정확하게 태깅되었는지 확인합니다.
  • 시냅스 텍스트 툴에서 작업자 교차 검수로 1차 검수를 진행합니다.
  • 음성 데이터 작업 시 스크립트 확인을 통해 2차 검수를 진행합니다.

2. 누락 및 불량 데이터 관리

  • 누락 데이터나 불량 데이터 발견 시 시냅스로 돌아가 텍스트 수정 작업을 진행합니다.

 

지속적인 모니터링 및 업데이트

데이터 변경 사항을 모니터링하고 개인정보 재태깅/라벨링 여부를 확인하며, 개인 정보 보호 법률의 변경에 따라 절차를 업데이트하여
데이터의 지속적인 정확성과 개인정보 보호를 유지합니다.

 

개인 정보 보호 조치

개인 정보를 보호하기 위해 다음과 같은 조치를 시행하였습니다.

  • 데이터는 인가된 사용자만 접근할 수 있도록 보안 조치를 강화합니다.

  • 개인정보 보호위원회의 운영 변경 사항을 주시하고 라벨링 및 태깅 절차에 업데이트합니다.

  • 구축된 모든 데이터들은 개인 정보 처리 방법과 관련하여 법률 자문을 취득하여, 내부적으로 개인정보 비식별화 적절성 심의를 위한 전담 TF팀을
    구성하여 지속적으로 관리합니다.
    (ex. 개인정보 여부가 구분하기 애매한 케이스 - 상세 주소를 제외한 기본 주소지 등의 처리 방법)

 

프로젝트를 마치며

본 프로젝트는 개인정보 보호를 준수하면서 음성과 텍스트를 동시에 비식별화 데이터로 구축하는 것은 매우 복잡하고 어려운 과정이었습니다.
법률 전문가의 자문과 자체적으로 구성하여 운영한 개인정보 보호 전담 TF를 통한 노력들은, 이러한 과정을 성공적으로 수행하는 데 필수적인 역할을 하였습니다.
데이터 수집 및 전처리, 라벨링 및 품질 관리 등 모든 단계에서 적절한 조력을 통하여 개인정보 보호 관련 법률 및 규정을 준수하고, 텍스트와 음성 두 데이터의 품질을 동시에 확보할 수 있었습니다.

Get Started Today
with datamaker

데이터메이커 시냅스를 회사에 도입하고 싶으시다면,
아래 의뢰하기 버튼을 눌러주세요!

Synapse 문의하기