Project Review

건축 설계 DB 데이터셋 구축

프로젝트 소개

건축 설계는 여전히 많은 부분에서 수기 작업에 의존하고 있습니다.

설계 도면에 수십, 수백 개의 주석과 치수를 손으로 기록하고, 변경 사항을 일일이 반영하는 작업은 시간이 오래 걸리고 실수가 발생하기 쉽습니다.

이러한 프로세스는 설계자들에게 큰 부담을 주며, 프로젝트의 속도와 품질에 영향을 미칠 수 있습니다. 그렇다면, 이 모든 것을 디지털화하여 효율성을 극대화할 수는 없을까요? 인공지능(AI) 기술이 그 해답이 될 수 있습니다.

AI는 설계 도면에 포함된 텍스트를 빠르고 정확하게 추출하고, 실시간으로 설계 변경을 반영하는 데 도움을 줄 수 있습니다.

수작업으로 진행되던 복잡한 작업들이 AI 기반 디지털 전환을 통해 훨씬 더 신속하고 정확하게 이루어질 수 있다면, 건축 설계는 새로운 효율성을 경험할 수 있을 것입니다.

 

 

고객사의 Problem

고객사는 빅테크 건축 기업으로 건축 산업의 디지털 전환을 통해 자동화된 프로세스를 구현하고자 하였습니다.

설계 도면에 포함된 수많은 주석, 치수, 재료 정보 등을 디지털화하지 않으면, 정보 검색과 수정에 있어 비효율이 발생하고 협업 속도도 제한될 수밖에 없었습니다.

고객사는 이러한 문제를 해결하고자, 설계 도면의 텍스트를 디지털 데이터로 전환하는 작업을 통해 설계 프로세스의 효율성을 극대화하고자 했습니다.

이를 위해 데이터메이커는 설계 도면에 포함된 텍스트 데이터를 체계적으로 전사하여 설계 변경 사항을 빠르게 반영하고, 데이터 기반의 정밀한 의사결정을 내리기 위한 학습용 데이터셋을 구축하였습니다.

 

데이터메이커의 Solution

데이터 수집 및 보안

고객사의 자산인 기존 건축 도면의 보안을 위해 데이터메이커의 서버 경로를 고객사에 제공하여 건축 도면 이미지 파일을 보호하였습니다.

텍스트 자동 전처리 및 검수

자동 바운딩박스 생성

딥러닝 기반 텍스트 인식 모델을 활용하여 도면 내 텍스트 영역에 자동으로 바운딩 박스를 생성하고, 이를 기반으로 초기 데이터 가공을 진행했습니다.

오검출, 과검출, 미검출 등 모델의 한계를 보완하기 위해, 음절 단위 오류 수정, 불필요한 박스 삭제, 누락된 박스 추가 등의 후처리 작업을 수행했습니다.

생성된 바운딩 박스와 텍스트 값의 정확성을 꼼꼼하게 검수하여 고품질의 데이터를 확보하고, 모델 학습의 정확도를 높였습니다.

문서 텍스트 OCR

박스 생성 기준 설정

문서 텍스트를 정확하게 인식하기 위해 글자 배열과 간격, 영문, 숫자, 특수문자 혼용 여부를 포함하여 모두 띄어쓰기 기준으로 박스를 생성하고 텍스트를 추출하였습니다.

예외 처리

건축 설계 문서의 특성상 한 단어이지만 문서의 가독성을 위해 띄어쓰기 된 경우(예 : 홍 길 동), 고유명사 사이의 넓은 간격이 넓을 경우는 하나의 단어로 처리하여 박스를 생성하였습니다.

가운데 점(•)과 같은 특수한 경우에는 기호을 제외한 나머지 부분을 기준으로 박스를 생성하여 텍스트를 추출하는 등 다양한 예외 처리를 적용하여 정확도를 높였습니다.

문서 표 OCR

설계 문서 중 자재 관련 서류 내 표의 OCR 작업은 단순히 텍스트를 인식하는 것을 넘어, 표의 구조, 셀 내 데이터 형식, 그리고 전체적인 레이아웃을 정밀하게 파악해야 하는 고도화된 과정입니다.

데이터메이커는 이러한 복잡한 작업을 성공적으로 수행하며, 다음과 같은 노하우를 바탕으로 고품질 데이터를 구축했습니다.

  1. 셀 단위의 정확한 구분: 표 전체를 대상으로 개별 셀을 세밀히 구분하고, 이를 기반으로 바운딩 박스를 생성하였습니다.

  2. 병합 셀의 구조 반영: 병합된 셀도 정확한 경계를 설정하여 원본 표의 구조를 그대로 재현하였습니다.

  3. 일관된 텍스트 정렬: 셀 내 텍스트는 왼쪽 정렬을 기준으로 가공하여 데이터의 일관성과 활용성을 확보했습니다.

이와 같은 체계적인 접근을 통해 자재 관련 설계 문서의 표 데이터를 정밀하게 분석하고, 다양한 활용 가능성을 열어갔습니다.

행과 열 정보 입력

각 셀의 행과 열 정보를 정확하게 입력하여 표의 전체적인 구조를 완벽하게 복원하였습니다.

이를 통해 표 데이터를 활용한 후속 작업의 효율성을 높이고, 분석의 정확도를 향상시켰습니다.

표 구조 분석

서류의 복잡한 문서 구조를 인공지능이 이해할 수 있도록, PM 담당자가 체계적인 가이드라인을 기획했습니다.

이 가이드라인은 작업자 교육을 통해 단순한 표 구조뿐만 아니라 복잡한 병합 셀, 다양한 행과 열 순서를 가진 표까지도 분석하고 처리할 수 있도록 설계되었습니다.

작업자는 표의 행과 열 순서를 명확히 파악할 수 있도록 세부적인 클래스 지정이 가능했으며, 이를 통해 실제 문서에서 발생할 수 있는 다양한 표 형태에 유연하게 대응할 수 있었습니다.

이와 같은 체계적인 접근은 인공지능이 다양한 문서 환경에서 표 데이터를 효과적으로 분석하고 활용할 수 있는 기반을 마련했습니다.

 

프로젝트를 마치며

도면 OCR 프로젝트를 진행하며, 다양한 형식과 복잡한 구조의 도면 데이터를 다루면서 많은 어려움과 보람을 느꼈습니다.

특히, 손글씨로 작성된 도면이나, 오래된 도면의 경우 낮은 해상도와 노이즈로 인해 정확한 문자 인식이 어려웠습니다.

이러한 문제를 해결하기 위해 다양한 이미지 전처리 기법과 딥러닝 모델을 적용하고, 지속적인 개선을 통해 높은 정확도를 달성할 수 있었습니다.

이번 도면 OCR 프로젝트를 통해 AI 기술의 발전 가능성을 실감하고, 실제 문제 해결에 기여할 수 있다는 점에 큰 보람을 느꼈습니다.

앞으로도 지속적인 연구 개발을 통해 더욱 정확하고 효율적인 도면 OCR 기술을 개발하고 싶습니다.

Get Started Today
with datamaker

데이터메이커 시냅스를 회사에 도입하고 싶으시다면,
아래 의뢰하기 버튼을 눌러주세요!

Synapse 문의하기