AI 모델 안전성을 향한 끊임없는 탐구 : 데이터메이커 AI 레드팀

들어가며

안녕하세요!

이번 포스팅부터는 AI 모델의 안전성과 신뢰성을 주제로, 데이터 구축 단계에서의 여러 전략들과 서비스 현황을 시리즈로 연달아 살펴보고자 합니다.

오늘 첫 번째 포스팅에서는 ‘AI Red Team’을 주제로, 다양한 분야에 접목되는 LLM 모델의 현실적인 고민과 대안을 데이터메이커의 실제 사례와 함께 알아보려 합니다.

개요 : 신뢰할 수 있는 AI 모델을 위하여

인공지능 시장에서, LLM이라는 거대한 변화와 함께, 빠지지 않고 지속적으로 언급되는 분야 중 하나가 바로 ‘AI 모델의 안전성’입니다.

초기에는, 갑작스러운 LLM 확산에 따른 윤리적인 관점에서 ‘우려하는 목소리’에 가까웠다면, 이제는 LLM 기반 서비스의 상용화를 위해서는 반드시

‘증명되어야 할 영역’으로AI 모델의 안정성에 대한 연구와 기업들의 수요가 집중되고 있습니다.

오늘 소개 드릴 AI Red Team은 이러한 AI 모델의 안전성을 검증하기 위한 다양한 방법들을 설계하고 적용하는 업무를 수행하는 곳으로, 데이터메이커의 경우

국내 주요 LLM 서비스들에 관여하는 전담 부서를 운영하고 있습니다.

AI 레드팀(AI red teaming)

레드팀(Red Team)은 냉전 시기, 미군이 모의 군사 훈련 과정에서 아군인 블루팀의 취약점을 분석하기 위해 편성한 가상의 적군을 레드팀으로 지칭한 것에서

유래된 것으로, 적대 세력의 공격을 시뮬레이션하여 아군 시스템의 취약점을 파악하고, 보안을 강화하는 목적을 가진 팀을 의미합니다.

이러한 레드팀의 개념이 점차 SW의 취약점을 파악하는 것 뿐만 아니라, AI 기술의 성능과 결함을 검증하는 모든 활동을 의미하는 것으로 확장되었고,

최근에는 LLM 모델이 비윤리적이거나 사실과 다른 결과를 만들어내는 등의 허점이 없는지 검증하기 위한 목적의 작업을 의미하는 것으로도 사용되고 있습니다.

데이터메이커에서는 AI 레드팀 전담 부서를 운영하여, 효율적으로 AI의 윤리와 신뢰성 강화를 위한 양질의 데이터를 구축하고 언어 모델의 학습 방안을 설계합니다.

또한, 언어 모델의 취약점을 식별하고, 그에 따른 성능 강화를 위한 연구를 진행합니다.

LLM 대상 AI 레드팀의 특징

1. 프롬프트 기반의 시스템 공격 및 방어

LLM 검증을 위한 레드팀 활동은 프롬프트 엔지니어링과 유사한 매커니즘을 가진다는 특징이 있습니다.

검증 대상이 되는 특정 모델이 답변을 회피하거나, 잘못 생성된 답변, 비윤리적이거나 편향된 답변을 내뱉도록 유도하는 것이 주요 목표이므로,

레드팀 작업에 참여하는 인력들은 다양한 분야적 특성(역사, 선정적, 전문적 분야 등)과 언어적 표현(신조어, 은어, 인터넷 용어 등)을 활용하여

모델에 프롬프트 작업을 수행하고 그 결과를 누적-분석합니다.

이러한 과정을 통해 레드팀에서는 검증 대상 LLM의 윤리적, 폭력적, 편향적인 다양한 취약점을 분석하고 모델 개발사에게 이를 해결하기 위한

추가 데이터 학습 방향성과 피드백을 제공하며, 필요에 따라 유사한 LLM 모델과의 답변 성능을 비교하는 등의 QA 검증 결과를 제공하기도 합니다.

2. AI 서비스의 상용화 가능 여부 진단

레드팀의 검증은 LLM 기반 서비스를 개발하고 출시하고자 하는 조직에 특히 유용합니다.

전문적인 검증을 통해 서비스 출시를 앞둔 AI 시스템의 잠재적 취약점을 파악하고, 이를 개선하여 시스템의 안전성을 확보할 수 있기 때문에,

B2C 유형의 다수의 유저들에게 서비스하는 것을 목표로 하는 경우 이러한 윤리성 검증은 필수적인 단계로 자리 잡고 있습니다.

과거에는 AI 모델의 수치적인 성능 지표가 사용성을 판가름하는 주요 기준이 되었다면, LLM 모델의 사용성은 윤리적인 관점에서의 정성적인 평가가

진행되고, 이러한 평가가 인력 기반의 정성적인 검증을 통해 이루어진다는 점에서 레드팀의 LLM 모델 검증은 ‘인적 자원의 활용 방법’과

‘모델 검증 방법론’적인 측면에서 향후 다양한 시도와 연구가 집중될 것으로 보입니다.

데이터메이커의 AI 레드팀 운영 전략

데이터랩 전문 인력 활용

데이터메이커에서는 이러한 레드팀 작업의 효율성과 고객사 모델의 보안 관리를 고려하여, 레드팀 전용 데이터랩을 운영하고 있으며, 상주하는 전문 인력이

검증 대상 모델에 따라 별도의 프로젝트를 구성하여 다양한 방법으로 AI 서비스의 상용성과 윤리적 수준을 확인하고 있습니다.

레드팀에서는 다양한 언어적 표현과 분야에 따라 적절한 어휘를 사용해야 하는 만큼 국문/어문 계열의 전공을 보유한 전문 인력들이 참여하고 있으며,

지난 3년 간 20여개의 프로젝트를 수행하면서 서비스 유형마다 적용 가능한 검증 방법론과 시나리오를 다수 보유하고 있습니다.

또한, 아프리카 가나에서 운영되는 데이터랩에서는 영문으로 구성된 모델에 대하여도 동일하게 레드팀 검증을 시행하고 있어 한국어에 국한되지 않고

다양한 언어의 검증 또한 제공하고 있습니다.

프롬프트 어노테이터의 고도화

직접 개발한 데이터메이커 프롬프트 어노테이터에서는 검증 대상이 되는 모델을 연동한 뒤, 질문과 모델의 응답으로 구성된 대화 데이터를 주제, 난이도,

만족도 등 다양한 기준에 따라 분류하고 있고 다중 모델 연동이 가능합니다.

또한, 동일한 질문에 서로 다른 모델이 어떻게 답변하는지 다중 모델을 연동하여 모델 간의 답변을 비교하고 보완하여 가장 최선의 결과를 도출하는 등의 작업이 가능합니다.

이와 같이, 레드팀 작업에 최적화 된 프롬프트 어노테이터를 활용하여 고객사의 모델을 즉시 개선할 수 있는 검증 결과 데이터를 구축하는 것이

데이터메이커 레드팀의 정체성이자 핵심 노하우입니다.

마치며

LLM 기술의 발전과 더불어 AI 레드팀 운영을 통해 인공지능 시스템의 안전성과 신뢰성을 강화하는 시도는 더욱 활발해질 것으로 보입니다.

이는 단순히 개발된 AI의 성능을 테스트하는 수준을 넘어, AI 시스템이 본질적으로 안전하고 신뢰할 수 있도록 하는 데 초점을 맞춘 핵심적인 접근 방식입니다.

데이터메이커는 LLM 기술의 발전과 안전성을 동시에 추구하며, 전문 AI 레드팀을 구성하여 고객사의 AI 서비스 상용화를 촉진시키는데 기여하고 있습니다.

들어가며

개요 : 신뢰할 수 있는 AI 모델을 위하여

AI 레드팀(AI red teaming)

LLM 대상 AI 레드팀의 특징

데이터메이커의 AI 레드팀 운영 전략

마치며

Get Started Today with datamaker

Get Started Today
with datamaker