방대한 양의 정보 속에서 찾아내는 핵심 키워드
프로젝트 소개
주식 투자 성공의 열쇠는 무엇일까요? 정확한 정보 분석이 아닐까요?
매일 급변하는 금융 시장의 환경 속에서, 방대한 양의 정보들이 쏟아지는 순간마다 투자자들에게 정확하고 시의적절 한 정보를 제공하는 것은 매우 중요할 것입니다.
하지만 인터넷과 소셜 미디어에는 수많은 정보들이 넘쳐 나고, 그중에서 진짜 가치 있는 정보를 찾아내는 것은 마치 사막에서 바늘 찾기와 같습니다.
이번 프로젝트에서는 이러한 문제를 해결하고, 투자자들에게 더욱 정확하고 신뢰할 수 있는 정보를 제공하고자 방대한 양의 데이터에서 핵심 정보를 추출하고 분석하는 인공지능 학습용 데이터를 구축하였습니다.
고객사의 Problem
급변하는 금융 시장에서 투자자들에게 정확하고 신뢰할 수 있는 정보를 제공하는 솔루션을 개발하는 고객사에서는 방대한 양의 금융 뉴스 데이터를 효과적으로 분석하고 활용하기 위한 해결책이 필요했습니다.
기존의 수동적인 데이터 분석 방식으로는 투자 가이드로써 정확성과 시의성을 보장하기 어렵다는 한계에 직면했기 때문입니다.
이에 데이터메이커는 고객사가 일자 별로 제공하는 뉴스 기사에서 주식 시장 관련 핵심 키워드를 추출하고 투자 분석에 활용할 수 있는 고품질 데이터셋 구축 프로젝트를 수행하게 되었습니다.
이를 통해 고객사는 핀테크 분야 내 스타트업으로써 혁신적인 기술력과 입지를 강화하고자 하였습니다.
데이터메이커의 Solution
HTML 데이터 확보
우선 고객사로부터 HTML 형식의 뉴스 기사 전문을 전달받아 원천 데이터를 확보하였습니다.
기사의 날짜, 저자, 기사 본문 외 불필요한 정보를 제거하여 순수 텍스트만을 추출하여 데이터 가공을 위한 정제를 진행하였습니다.
정제된 데이터는 데이터메이커의 데이터 가공 플랫폼에 업로드하여 가공을 진행하였습니다.
텍스트 데이터 전사 가이드라인 구축
- 주요 사건이나 사고를 반영한 키워드 중심으로 태깅 조건을 설정하였습니다.
- 중복을 피하고자 제목과 본문에서 각각 다른 키워드를 추출하여 다양성을 확보하였습니다.
- 메타 정보의 기업명 추출은 금지하고 뉴스 전문을 표현하는 핵심 키워드 추출이 가능하도록 하였습니다.
- 기업의 실적 발표, 기업 관련 사건 사고, 시황 분석 뉴스에 집중하고, 주가 변동과 무관한 뉴스는 제외하여 일관성을 유지하였습니다.
인력 투입 및 품질 관리
프로젝트의 특성을 반영하여 금융 뉴스에 대한 이해도가 높은 텍스트 라벨링 전문 인력을 투입하여 일관된 키워드 태깅을 수행하였습니다.
주관적 견해와 저품질 경제 뉴스로 인해 저품질 데이터가 포함되지 않도록 관리하였습니다.
이 과정은 일정 수량에 도달하면 PM의 검수를 받아 지속적인 품질 유지가 가능하였습니다.
금융 뉴스 특성을 고려한 맞춤형 데이터셋 구축
복합명사 처리
복합명사 관계 설정 기능을 통해(예 : '실적 발표', '시장 분석') 복합적인 의미를 정확하게 파악이 가능하도록 키워드를 추출했습니다.
툴 관계 기능 개선을 통해 조사나 의미 없는 특수 문자를 제외한 단어의 띄어쓰기 연결이 가능하도록 하였습니다.
조사나 의미 없는 특수 문자 제외 후 단어 연결이 필요할 경우 연결할 단어를 순서대로 지정하여 묶음 처리가 가능하였습니다.
신조어 및 전문용어 처리
금융 관련 신조어와 전문 용어를 우선 추출하여 데이터셋의 전문성과 최신성을 확보했습니다.
관련성 확보
실적 발표, 투자 의견, 시황 분석 등 실제 투자 의사 결정에 영향을 미치는 뉴스에 집중하여 데이터의 활용도를 높였습니다.
툴 개선 및 최적화
어노테이션 삭제 단축키, 작업 화면에서 빠른 수정 기능 등을 업데이트하여 작업자의 작업 환경을 최적화하였습니다.
외에도 앞뒤 공백 제거 선택 기능, 라벨 영역 수정 기능을 개선하여 빠르고 정확한 데이터 가공이 가능하였습니다.
프로젝트를 마치며
본 프로젝트는 텍스트 데이터 구축 노하우를 통해 AI 기술을 활용한 금융 시장 분석이 가능하였습니다.
데이터 구축 과정에서 개인의 주관적 판단을 근거로 하거나, 특정 분야의 지식을 요구하는 데이터셋을 구축하는 것은 일관성을 유지하기 쉽지 않은 과제입니다.
하지만 명확한 가이드라인 구축, 정기적인 팀 미팅 그리고 실시간 피드백 시스템을 통해 데이터셋 품질 유지가 가능하였습니다.
더불어 지속적인 툴 개선과 프로세스 최적화를 통해 작업 속도와 정확도를 동시에 높일 수 있었습니다. 특히, 팀원들의 피드백을 적극 반영한 데이터 라벨링 툴의 UI/UX 개선은 생산성 향상에 큰 도움이 되었습니다.