프로젝트 소개

국민은행 내부 문서 탐색을 위한 AI 문서검색기 KB_DocSearch

일반적으로 참고할 문서를 찾기 위해 검색어를 입력하면 검색어가 포함된 모든 문서들이 검색되고 이 문서들을 하나하나 읽어보고 확인해야 했었기 때문에 시간이 오래 걸렸습니다. 그러나 KB_DocSearch의 경우 문서를 미리 스캔하여 내용과 형식의 유사성을 기반으로 문서 간의 연관관계를 형성하기 때문에 선택된 문서와 연관관계가 강한 순서대로 확인할 수 있어 문서 탐색 시간을 줄일 수 있습니다.

AI가 사람과 같은 검색 프로세스를 가질 수 있게 만들기 위하여 검색이라는 과정을 단계로 나누고 단계에 맞는 딥러닝 모델을 구성하였습니다. KoBART, OpenAI LLM 모델을 활용하여 검색어를 통해 탐색 범위를 정하는 단계, 문서를 읽고 이해하는 단계, 유사한 다른 문서들을 찾는 단계를 AI가 할 수 있게 하여 최종적으로 연관관계를 구축함으로써 사람을 대신해 문서를 탐색하는 것을 목표로 구현하였습니다.

또한 기존에 사용되는 문서 탐색 방법의 문제점을 개선하기 위해 문서를 요약문으로 가공하여 사용하는 과정을 검색 알고리즘에 추가하여 직함이나 공문양식(시행일자, 수신, 참조)과 같이 내용과는 상관없지만 반복되는 단어들을 요약문 생성을 통해 필터링함으로써 AI가 문서를 명확히 이해하고 설명할 수 있도록 구현하였습니다.

서비스 기획

Untitled

서비스 플로우차트

Untitled

구현 결과

Untitled

Untitled

프로젝트에서 역할

프로젝트에서 기획과 내용 기반 유사 문서 검색 파트 구현을 담당하였으며,

실험단계에서 뉴스와 특허 & 논문 도메인의 데이터셋의 전처리와 성능 비교 실험을 담당하였습니다.