바로가기메뉴

본문 바로가기 주메뉴 바로가기
 
 

logo

  • P-ISSN1225-598X
  • E-ISSN2982-6292

기술과학 분야 문헌의 DDC 자동 분류에 관한 연구

A Study on Automatic DDC Classification of Documents in Technology

한국문헌정보학회지 / Journal of the Korean Society for Library and Information Science, (P)1225-598X; (E)2982-6292
2026, v.60 no.1, pp.173-194
https://doi.org/10.4275/KSLIS.2026.60.1.173
강우진(WOOJIN KANG) (경북대학교)
나상오(SANGO NA) (경북대학교)
이종욱(Jongwook Lee) (경북대학교)

초록

본 연구는 기계학습 모델을 활용하여 DDC 기술과학(600) 분야 문헌의 자동 분류를 수행하고, 제목 중심 접근의 한계를 보완하기 위해 문헌 설명 정보를 분류 자질로 추가하여 그 효과를 검증하였다. 이를 위해 Omkuji, FastText, BERT 총 3가지 기계학습 모델을 기반으로 분류모델을 설계하였으며, 강목과 요목 수준의 분류기호를 예측하여 모델별․수준별(강목, 요목) 결과를 비교 분석하였다. 성능 평가 지표로는 정확도(Accuracy)와 F1-score를 사용하였다. 분석 결과 BERT-FastText-Omikuji 순으로 우수한 성능을 보였으며, Omikuji 분류모델의 요목 수준 F1-score를 제외한 모든 조건에서 설명 정보를 추가했을 때 성능이 향상됨을 확인하였다. 특히 문헌 설명 정보를 추가한 후 BERT 기반 분류를 수행하였을 때, 요목 수준에서 79.52%의 정확도를 기록하여 선행연구와 비교하여 약 8.62%p의 성능 향상을 확인하였다. 이 밖에도 분류 자질의 차이뿐만 아니라, 학습에 활용되는 문헌의 양이 많을수록 분류 성능이 전반적으로 향상되는 경향이 확인되었다. 이러한 결과는 자동분류 성능의 지속적인 개선을 위해 학습 문헌의 양적 확보와 함께 분류 자질 정보의 질적 보완이 병행되어야 함을 시사한다. 후속 연구에서는 분석 대상 주제 범위를 DDC 전 분야로 확대하고, 국내 도서관에서 널리 활용되는 KDC에도 적용 가능성을 검토할 필요가 있다. 나아가 다양한 분류모델을 추가로 적용하고 분류 자질을 확장함으로써, 이에 따른 분류 성능의 변화를 살펴볼 필요가 있을 것이다.

keywords
자동분류, 듀이십진분류법(DDC), 기술과학 분야, 기계학습, 분류 자질

Abstract

This study investigates the automatic classification of documents in the Dewey Decimal Classification (DDC) Technology class (600) using machine learning models, with the aim of overcoming the limitations of title-based classification approaches. To enhance classification performance, descriptive document information, such as summaries and introductions, was incorporated as additional classification features. Three machine learning models—Omikuji, FastText, and BERT—were employed, and classification performance was evaluated at both the main class and division levels. Accuracy and F1-score were used as evaluation metrics. The results demonstrate that BERT consistently outperformed FastText and Omikuji across most experimental conditions. With the exception of the division-level F1-score of the Omikuji model, all models showed improved performance when descriptive information was added. In particular, the BERT-based model achieved an accuracy of 79.52% at the division level, representing an improvement of approximately 8.62 percentage points compared to previous studies. The findings also indicate that classification performance generally improves as the volume of documents used in model training increases, underscoring the importance of data scale in addition to feature selection. These results suggest that competitive automatic classification performance can be achieved through appropriate model selection and enriched classification features, even within single-model approaches. Future research should expand the scope to all DDC classes and examine the applicability of the proposed approach to the Korean Decimal Classification (KDC), as well as explore additional features and alternative machine learning models.

keywords
Automatic Classification, Dewey Decimal Classification (DDC), Technology, Machine Learning, Classification Features

한국문헌정보학회지