ISSN : 2466-2542
본 연구는 AI 기술을 적용해 MARC 레코드의 중복검증 알고리즘 성능 향상을 도모하였다. 기존의 규칙 기반 알고리즘의 한계를 극복하기 위해 텍스트의 의미적 유사성에 기반하는 AI 임베딩 모델을 활용하여 MARC 레코드를 벡터화하고, 유사도 검색을 통해 의미적 유사도를 분석하여 중복레코드를 탐지하였다. 구체적인 연구 방법으로는 첫 번째, 임베딩 모델에 기반한 벡터 유사도 검색으로 MARC 레코드의 중복을 탐지하는 알고리즘을 구현해 선행연구와 동일한 데이터로 성능 평가를 수행하였고, 두 번째, 앞선 실험의 평가 결과를 반영해 임베딩 방식의 장점을 극대화할 수 있는, 즉 문자열 표기 차이로 인한 중복레코드를 식별하는 알고리즘을 구현, 이를 위해 새롭게 구축한 실험데이터와 평가 지표로 알고리즘의 성능을 평가하였다. 실험데이터는 실제 도서관 현장에서 나타날 수 있는 표기 방식의 차이를 반영하여 8가지 변형 규칙을 적용해 구성하였다. 첫 번째 실험 결과, 동일 집단을 중복으로 판정하는 비율이 선행연구보다 개선되었으나, 권호 정보가 다른 다권본 자료를 유사하다고 판정하는 등 숫자나 특수기호의 정확한 매칭을 요구하는 영역에서는 임베딩 방식의 한계를 보였다. 임베딩 방식의 장점을 검증하기 위한 두 번째 실험 결과, 전체 실험데이터에 대해 복본 레코드와 변형 규칙을 100% 식별하는 것으로 나타났다.
This study aimed to improve the performance of duplicate verification algorithms for MARC records by applying AI technology. To overcome the limitations of existing rule-based algorithms, we utilized AI embedding models based on semantic similarity of text to vectorize MARC records and verify duplicate records through similarity search and semantic similarity analysis. The specific research methodology consisted of two phases. First, we implemented a duplicate verification algorithm for MARC records based on vector similarity search using embedding models and evaluated its performance using the same dataset as the prior study. Second, reflecting on the evaluation results of the initial experiment, we implemented an algorithm that maximizes the advantages of the embedding approach—specifically, identifying duplicate records caused by variations in string notation. For this purpose, we evaluated the algorithm’s performance using newly constructed experimental data and evaluation metrics. The experimental dataset was designed to reflect notational variations that may occur in actual library settings, applying eight transformation rules. The results of the first experiment showed that the rate of correctly identifying identical groups as duplicates improved compared to the prior study. However, the embedding approach revealed limitations in areas requiring precise matching of numbers and special characters, such as incorrectly judging multi-volume materials with different volume information as similar. The results of the second experiment, designed to validate the advantages of the embedding approach, demonstrated 100% identification of both duplicate records and transformation rules across the entire experimental dataset.
