바로가기메뉴

본문 바로가기 주메뉴 바로가기
 
 

logo

  • P-ISSN1598-1487
  • E-ISSN2671-7247

오픈소스 기반의 AI 음성·텍스트 변환 기능 개발 및 대통령 음성을 통한 성능 분석

Development of an Open-Source–Based AI Speech-to-Text System and Performance Analysis Using Presidential Speech

한국기록관리학회지 / Journal of Korean Society of Archives and Records Management, (P)1598-1487; (E)2671-7247
2025, v.25 no.3, pp.243-258
https://doi.org/10.14404/JKSARM.2025.25.3.243
배민수 (대통령기록관 공업연구사)
유영문 (대통령기록관 공업연구관)

초록

본 연구는 오픈소스 기반의 AI 음성·텍스트 변환(STT, Speech To Text) 기능을 개발하고 대통령의 음성에 적용하여 그 성능을 분석하였다. 현재 다양한 고성능 STT 서비스가 상용화되어 있으나, 대부분 온라인 환경에서 유료로 제공되고 있다. 하지만 대통령 기록물의 특성상 온라인 서비스의 사용은 보안 등의 문제를 발생할 수 있고, 누적되는 기록물에 지속적인 비용을 들여 처리하는 것은 비효율적이다. 따라서, 대통령기록관은 오픈소스 기반의 AI 모델을 적용한 STT를 개발하고 오프라인으로 시험·운용 중이다. 본 연구에서는 이 기능을 통해 약 3시간 분량의 대통령 시청각기록물을 텍스트로 변환하고, 실제 텍스트와의 비교를 통해 오류율을 측정하였다. 그 결과 전체적으로 최신 상용 온라인 서비스 수준의 성능을 확인하였다. 또한, 발화 속도 및 녹음 품질을 추가로 추출하여 오류율과의 연관성을 분석하였다. 최종적으로 기록물의 활용을 위한 오픈소스 기반 AI 기술의 적용 가능성을 제시한다.

keywords
인공지능, 음성·텍스트 변환, 오픈소스 소프트웨어, 대통령기록관, 시청각기록물, Artificial intelligence, Speech-to-text, Open-source software, Presidential Archives, audiovisual records

Abstract

This study developed an open-source–based AI Speech-to-Text (STT) system and analyzed its performance by applying it to presidential speech. While various high-performance STT services are currently commercialized, most are provided online for a fee. However, because of the nature of presidential records, using online services can raise security concerns, and incurring continuous costs for processing accumulating records is inefficient. To address this, the Presidential Archives has developed an offline STT system based on open-source AI models, which is currently under testing and operation. In this study, approximately three hours of presidential audiovisual records were transcribed into text using this function, and the error rate was measured by comparing with the actual text. The results showed that the overall performance is comparable to the latest commercial online services. Additionally, speech rate and recording quality were extracted and analyzed for their correlation with the error rate. Finally, this research highlights the feasibility of applying open-source AI technologies for the utilization of records.

keywords
인공지능, 음성·텍스트 변환, 오픈소스 소프트웨어, 대통령기록관, 시청각기록물, Artificial intelligence, Speech-to-text, Open-source software, Presidential Archives, audiovisual records

한국기록관리학회지