AI 어시스턴트 학습 데이터 구축

프로젝트 소개

마블의 아이언맨이 처음 개봉한 2008년까지만 하더라도, 주인공 토니 스타크의 AI 비서 자비스는 우리에게 영화 속에서나 등장할 법한 존재였습니다.
하지만 최근 온디바이스에 경량화된 LLM 모델을 활용하는 시도가 늘어나면서, 자비스와 같은 AI 어시스턴트의 등장은 실현 가능한 목표가 되었습니다.

AI 어시스턴트의 자연어 처리 능력은 최신 언어모델을 기반으로 하기 때문에, 사용자들은 자연스럽게 소통할 수 있게 되며, 개인의 사용 패턴을
학습하여 맞춤형 서비스를 제공함으로써 사용자의 편의성을 크게 개선할 수 있습니다.
이러한 발전은 일상 업무의 효율성을 높이고 정보 접근성을 향상시키는 데 큰 도움을 줄 것으로 예상됩니다.

고객사의 Problem

고객사는 최신 AI 기술을 기반으로 혁신적인 AI 비서 어플리케이션을 개발하여 사용자들에게 편리하고 효율적인 일상 지원 서비스를 제공하고자 하는 비전을 가지고 있었습니다.

AI 어시스턴트 서비스의 핵심 기능 개발은 완료했지만, 서비스의 안정성과 신뢰성 확보를 위해 해결해야 할 중요한 과제들이 있었습니다.
특히 유해 콘텐츠와 부적절한 문장을 효과적으로 필터링할 수 있는 ‘윤리적’문제 해결이 필수적이었습니다.

이러한 과제들을 해결하기 위해 고객사에서는 텍스트 데이터 구축 분야의 전문성을 갖춘 데이터메이커에 프로젝트 의뢰를 하게 되었습니다.

데이터메이커의 Solution

유해 데이터 학습의 중요성

생성형 AI가 부적절한 답변을 생성하게 되는 주요 원인으로는, 학습 데이터에 부적절한 내용이 포함되어 있거나, 또는 해당 정보가 부적절하다는 사실을 학습하지 못한
경우도 있습니다.

예를 들어, 온라인 대화 및 소셜 미디어 플랫폼의 데이터를 학습했다면 플랫폼 내 존재하는 혐오 발언, 차별, 편견 등이 반영되었을 수 있습니다.

반대로, 학습 데이터 내에 신조어로 구성된 부적절한 표현들이 포함되어 있지 않았다면 관련된 데이터에는 적절한 필터링을 처리하지 못할 가능성이 높습니다.

결국, AI 서비스가 윤리적인 문제를 해결하기 위해서는, 학습 단계에서부터 유해한 데이터에 대한 가이드라인을 마련하며 AI가 적절한 학습을 하도록 체계적으로 고려한
데이터셋 구축이 필수적입니다.

인공지능 윤리 및 유해 데이터 분류

데이터 수집 및 초기 분류

다양한 온라인 플랫폼(트위터, 페이스북, 레딧, 온라인 커뮤니티, 뉴스 댓글 섹션 등)에서 광범위한 텍스트 데이터를 수집하였습니다.

수집된 데이터는 초기 분류를 위해 키워드 기반 필터링을 적용했으며, 이를 통해 유해 콘텐츠를 식별할 수 있는 태스크별 분류 알고리즘을 구축하였습니다.

이 단계에서 유해데이터 분류를 학습하면 텍스트에서 유해 콘텐츠를 더 정확하게 식별하고 적절한 대응이 가능하여 AI가 윤리성이 어긋나지 않은 적절한 답변을 생성할 수 있는 기반이 될 수 있습니다.

인공지능 신뢰성 검증

인하우스 레드팀

작업자와 프롬프트 엔지니어로 구성된 데이터메이커의 레드팀은 의도적으로 잘못된 답변을 생성하도록 유도하여 AI의 취약점을 분석하며, 유해 콘텐츠 및 사회적 편향성에 대한 AI의 윤리적 문제를 개선하기 위한 QA 작업을 수행합니다.

1. 프롬프트 공격 성공 사례 및 분석

작업자가 프롬프트에 직접 작성할 때 일관적인 데이터셋 구축을 위하여 가이드라인을 숙지하도록 하고, AI가 발화문에 유해데이터를 식별하지 못하고 답변을 생성하였을 때 ‘공격 성공’ 케이스로 기록하였습니다.
이때 분류된 케이스는 상황별 카테고리로 분류하고, 유해데이터를 식별하지 못하는 원인을 분석하였습니다.

2. 유해 데이터 식별 취약점 분석 및 대응 전략 수립

‘공격 성공’ 케이스는 각 세부 카테고리별로 AI 모델의 성능을 분석하여 취약점을 파악하였습니다. 은유적 표현이나 은어, 신조어, 합성어 등을 포함한 텍스트
데이터셋의 유해 발언 탐지가 취약했던 분석 결과를 토대로 대응 전략을 수립할 수 있었습니다.

이는 데이터 보강, 신조어 사전 구축 등 추가 데이터 학습이나 / 파인튜닝 기술 도입에 대한 효율적인 기술 채택이 가능하였습니다.

3. 보완 데이터 수집 및 생성 방안

식별된 취약점 영역에 중점을 두고 추가 데이터를 수집하였습니다.
기존 유해 텍스트를 변형하여 은유나 우회적 표현을 사용해 직접적인 혐오 표현의 간접적 표현으로 변형하거나, 신조어, 이모티콘을 사용한 업데이트 등 새로운 사례를 생성하도록 하였습니다.

4. 윤리적 고려 사항 검토

데이터메이커의 윤리위원회 전담팀은 데이터셋과 모델의 윤리적 영향을 심층적으로 평가하고, AI 윤리 가이드 및 체크리스트를 준수하도록 모니터링하였습니다.
이에 특정 집단이나 의견에 대한 과도한 필터링이 발생하지 않도록 유지가 가능하였습니다.

5. AI의 회피 답변 알고리즘

윤리적 답변 생성 및 회피 전략의 구현
- 윤리적인 답변을 생성하거나 회피 전략을 적용하여 윤리적 문제를 예방하도록 하였습니다.
- 발화를 태스크별로 세분화하여 유해한 텍스트를 식별하고 적절한 대응이 가능하였습니다.
- 주제 회피, 대화 위험 경고, 규칙 준수 등 다양한 상황에 대한 대응 시나리오를 구축하였습니다.
유해데이터 데이터셋의 딥러닝으로 신뢰도 높은 답변 생성 결과를 확인하여 신뢰성을 검증하였습니다.

프로젝트를 마치며

오늘날 AI 어시스턴트는 일상생활에 깊이 침투하여 다양한 목적에 따라 편의성을 제공하고 있습니다.

이러한 서비스를 더욱 효과적으로 활용하기 위해, 데이터메이커는 AI 사용에 따른 윤리적 문제 해결에 기여하고 있으며, 초거대 언어모델(LLM)의 취약점을 보완하기 위한 연구 및 전담팀을 운영하고 있습니다.

특히, 데이터메이커의 고도화된 유해데이터 식별 구축 노하우는 유해 콘텐츠와 편향을 효과적으로 탐지하여 AI 시스템의 신뢰성을 크게 향상시키고 있습니다.

이러한 노력은 AI 어시스턴트 모델의 안전하고 효율적인 사용을 보장하며, 향후 LLM 기술 발전을 이끄는 역량이 될 것입니다.