ISSN : 1229-2435
본 연구는 국립중앙도서관 ‘사서에게 물어보세요’ 서비스에 축적된 지식정보 DB를 활용하여 키워드 기반 검색과 벡터 기반 검색을 결합한 하이브리드 검색 시스템의 성능을 실험적으로 분석하는 것을 목적으로 한다. 연구데이터는 지식정보 DB의 질의-응답 데이터 5,898건으로 구성되며, 한국십진분류법(KDC) 10개 대분류 체계를 포함한다. Python 기반 실험 환경에서 키워드 검색은 도치색인 기반 전문검색 엔진(Whoosh)을, 벡터 검색은 문장 임베딩 기반 벡터 데이터베이스(ChromaDB)를 적용하여 검색 시스템을 구현하였다. 실험데이터는 10개 대분류별로 10개씩 총 100개를 구성하고, 제안 시스템과 ‘사서에게 물어보세요’ 서비스 검색을 실제 호출하여 상위 10건 결과 및 응답시간을 수집하였다. 비교 결과, 제안 시스템은 평균 응답시간 0.21초, 검색 성공률 100%로 안정적인 검색 성능을 보인 반면, ‘사서에게 물어보세요’ 서비스는 평균 응답시간 13.12초, 검색 성공률 81%로 나타났다. 본 연구는 하이브리드 검색과 RAG 결합 방식이 검색 성공률과 결과 산출의 안정성 측면에서 기존 접근 방식에 비해 효과적임을 실험적으로 확인하였으며, 향후 연구 방향으로 한국어 특화 임베딩 모델의 적용과 적합도 기반 평가 체계의 확장을 제안하였다.
This study aims to experimentally analyze the performance of a hybrid search system that combines keyword-based and vector-based retrieval, utilizing the Knowledge Information Database accumulated through the National Library of Korea’s “Ask a Librarian” collaborative digital reference service. The dataset consists of 5,898 question-answer records from the Knowledge Information Database, categorized according to the ten main classes of the Korean Decimal Classification (KDC). The search system was implemented in a Python-based experimental environment, employing an inverted-index-based full-text search engine (Whoosh) for keyword retrieval and a sentence-embedding-based vector database (ChromaDB) for vector retrieval. A total of 100 test queries were constructed, with 10 queries for each of the 10 main classes, and both the proposed system and the “Ask a Librarian” service were invoked under identical conditions to collect the top 10 results and response times. The results showed that the proposed system achieved a mean response time of 0.21 seconds and a 100% search success rate, demonstrating stable retrieval performance, whereas the “Ask a Librarian” service recorded a mean response time of 13.12 seconds and an 81% search success rate. This study experimentally confirmed that the hybrid search and Retrieval-Augmented Generation (RAG) approach is more effective than the existing method in terms of search success rate and retrieval stability, and suggests future research directions including the application of Korean-language-specific embedding models and the expansion of relevance-based evaluation frameworks.
