ISSN : 1229-2435
본 연구는 국내 소버린 AI와 글로벌 LLM을 비교하여 도서관 메타데이터 자동 생성을 위한 활용 가능성 파악하는 것을 목적으로 한다. 이를 위해 GPT, Gemini, Grok, HyperCLOVA, EXAONE, A.X 총 6종의 생성형 대규모 인공지능 언어모델을 대상으로 국내외 도서 40권의 MARC 레코드를 생성하게 하고, 완전성, 정확성, 규칙성의 세 가지 척도에 따라 필드 단위 성능을 평가하였다. 분석 결과, 첫째, GPT, Gemini, Grok의 글로벌 LLM 3종은 필드 누락이 적고 지시기호, 식별기호 등 형식 요소를 비교적 안정적으로 처리하여, 전반적으로 국내 소버린 AI 모델보다 높은 성능을 보였으나, 국내 도서로 전환될 경우, 필드 구성과 작성방식 등에서 오류를 보이며 성능이 저하되는 경향이 확인되었다. 둘째, HyperCLOVA, EXAONE, A.X의 국내 소버린 AI 모델은 MARC21 및 KORMARC 기술 모두에서 전반적인 성능 수준이 낮았고, 국내 도서에 대해서도 뚜렷한 성능 향상을 보이지 못하였다. 셋째, 필드별로는 표제와 책임표시사항(245)처럼 대부분의 모델이 비교적 안정적으로 생성하는 영역이 있는 반면, 총서사항(490/830)이나 기본표목의 설정 등 규칙 의존도가 있는 필드에서 모델 간 성능 격차 및 MARC21의 총서 처리 방식을 KORMARC에 기계적으로 적용하는 등 서지 작성 규칙 구조에 대한 이해 부족을 드러냈다. 이에 따라 현시점에서 생성형 인공지능을 도서관 메타데이터 업무에 도입할 때, 전면적인 자동목록 도구로의 전환 보다, 서지 레코드 초안 생성과 오류 탐지, 보완을 지원하는 보조 도구로 활용하는 것이 타당함을 시사하며, 아울러 국내 소버린 AI의 성능 안정성을 확보하기 위해서는 KORMARC를 포함한 국내 서지 데이터를 기반으로 한 체계적인 학습이 필요할 것으로 보였다. 또한 도서관용 소버린 AI를 구축하기 위해서는 학습 데이터의 선별이 주요한 과제로 요구된다.
This study aims to examine the feasibility of using domestic sovereign AI models and global large language models (LLMs) for automated creation of library metadata by comparing their performance in MARC record generation. To this end, six generative AI models (GPT, Gemini, Grok, HyperCLOVA, EXAONE, and A.X) were used to generate MARC records for 40 domestic and foreign monographs, and their field-level performance was evaluated using three criteria: completeness, correctness, and rule compliance. The analysis showed, first, that the three global LLMs (GPT, Gemini, Grok) generally outperformed domestic sovereign AI models, with fewer missing fields and more stable handling of formal elements such as indicators and codes. However, their performance tended to decline when the cataloguing target shifted from English-language to Korean books, as errors increased in field configuration and statement of responsibility. Second, the domestic sovereign AI models (HyperCLOVA, EXAONE, A.X) exhibited relatively low overall performance in both MARC21 and KORMARC, and did not show clear performance gains even for Korean books. Third, at the field level, most models generated relatively stable results for title and statement of responsibility (245), whereas rule-dependent fields such as series statements (490/830) and the choice of main entry showed large performance gaps between models and revealed structural misunderstandings of cataloguing rules for example, mechanically transferring MARC21 practices for series treatment to KORMARC. These findings suggest that, at present, generative AI should be introduced into library metadata workflows primarily as an assistive tool for generating draft records and supporting error detection and correction, rather than as a fully automated cataloguing system. The results also indicate that, in order to ensure stable performance of domestic sovereign AI models, systematic training on Korean bibliographic data, including KORMARC records, is required. Furthermore, the careful selection and curation of training data emerges as a key task in building sovereign AI systems for library applications.
