바로가기메뉴

본문 바로가기 주메뉴 바로가기
 
 

logo

  • P-ISSN1013-0799
  • E-ISSN2586-2073
  • KCI

생성형 AI 기반 도서관 운영평가 자동화 가능성에 대한 기초연구

An Exploratory Study on the Feasibility of Using Generative AI to Automate Library Performance Evaluation

정보관리학회지 / Journal of the Korean Society for Information Management, (P)1013-0799; (E)2586-2073
2025, v.42 no.4, pp.277-301
https://doi.org/10.3743/KOSIM.2025.42.4.277
나민경 (연세대학교 대학도서관발전연구소 전임연구원)
오지은 (서울도서관 관장)
이지연 (연세대학교 문헌정보학과 교수)

초록

본 연구는 공공도서관 운영평가에 생성형 AI 기반 자동평가를 적용해 보고, 그 도입 가능성을 검토하는 기초연구이다. 이를 위해 현행 공공도서관 운영평가 지표 중 증빙자료를 근거로 사람이 평가하는 4개 영역(공간, 협력, 경영계획, 우수사례)의 문헌정보학 분야 전문가와 생성형 AI 평가 결과를 비교 분석하였으며, 프롬프트 엔지니어링 기법에 따른 신뢰도 변화를 확인하였다. 2024년 서울시 공공도서관 운영평가를 위해 평가 대상 공공도서관 164개 관이 제출한 증빙자료를 대상으로 ChatGPT 5.1을 활용하여 평가를 진행했으며, 그 결과 비교적 평가 내용이 간단하고 평가 척도가 명확한 공간, 협력, 경영계획 영역에서는 전문가와 AI 평가점수 간 일치도가 높은 것으로 나타났다. 반면, 정성평가에 해당하는 우수사례 영역에서는 전문가와 AI 평가 결과 간 차이가 큰 것으로 나타났다. 또한, 평가에 필요한 정보를 구조화하여 입력하는 Task Information(TI)과 예시를 제시하는 Demonstration Information(DI) 프롬프트를 조합하는 조건에서 전문가와 AI 간 신뢰도가 가장 높은 것으로 확인되었으며, 특히 정성평가 영역에서 DI 프롬프트를 추가했을 때 신뢰도가 크게 향상하는 것으로 나타났다.

keywords
공공도서관 운영평가, 평가 자동화, 인공지능 기반 평가, 프롬프트

Abstract

This study is an exploratory research that applies generative AI-based automated assessment to public library performance evaluation and examines its feasibility for adoption. To this end, we compared the evaluation results produced by a human expert in library and information science and by a generative AI system. The comparison focused on four domains of the current evaluation indicators that are scored by humans on the basis of submitted documents: space, collaboration, management planning, and best practices, and examined changes in reliability according to different prompt-engineering techniques. Using ChatGPT 5.1, we conducted automated evaluations on the documents submitted by 164 public libraries in Seoul for the 2024 public library performance evaluation. The results indicated that for domains with relatively simple content and clearly defined rating scales—space, collaboration, and management planning—the agreement between expert and AI scores was high. In contrast, in the best practices domain, which requires qualitative judgment, the discrepancy between expert and AI evaluation results was substantial. Furthermore, the highest level of reliability between expert and AI scores was observed under the condition that combined Task Information (TI) prompts, which provide structured input of the information required for evaluation, with Demonstration Information (DI) prompts, which offer illustrative examples. In particular, in the qualitative assessment domain, reliability improved significantly when DI prompts were added.

keywords
Generative AI, library performance evaluation, evaluation automation, AI based assessment, prompt, 생성형 AI
투고일Received
2025-11-22
수정일Revised
2025-12-04
게재확정일Accepted
2025-12-08
출판일Published
2025-12-30

정보관리학회지