logo

  • ENGLISH
  • P-ISSN2671-8197
  • E-ISSN2733-936X
  • KCI

논문 상세

Home > 논문 상세
  • P-ISSN 2671-8197
  • E-ISSN 2733-936X

근대 한국학 텍스트의 개체명 주석 연구: 1920~1930년대 신문 기사를 중심으로

Named Entity Annotation in Modern Korean Studies Texts: Newspaper Articles from the 1920s–1930s

한국학 / Korean Studies Quarterly, (P)2671-8197; (E)2733-936X
2025, v.48 no.1, pp.77-106
https://doi.org/10.25024/ksq.48.1.202503.77
강범일 (연세대학교 언어정보연구원)
  • 다운로드 수
  • 조회수

초록

이 연구에서는 연세대학교 근대한국학연구소에서 수행한 1920-1930년대 《조선일보》ㆍ《동아일보》 기사의 개체명 주석 과정을 소개하고 방법론적 쟁점을 논의했다. 구체적으로는 발행된 전수 기사로부터 한국학 텍스트를 선별하고, 선별된 텍스트에서 개체명을 식별하고 분류하는 과정과 그 결과를 살펴보았다. 또한 주석 도구의 선정, 한자 및 이표기의 정규화, 주석의 방식, 자료의 분석과 해석 등 주석 과정에서 직면했던 문제를 검토하고 문제 해결을 위해 기울였던 노력을 공유하고자 했다. 이 연구에서 소개한 과업은 근대 한국학 기사를 대상으로 한 최초의 대규모 개체명 주석 작업이라는 점에서 의의를 지닌다. 소개된 주석 과정과 논의된 쟁점들이 해당 시기 데이터를 연구하는 후속 연구자들에게 실질적인 참고가 되기를 기대한다.

keywords
named entity, linguistic annotation, Korean studies, digital humanities, text analysis, 개체명, 언어 주석, 한국학, 디지털 인문학, 텍스트 분석

Abstract

This study presents the named entity annotation process conducted on Chosun Ilbo and Donga Ilbo articles from the 1920s–1930s by the Institute for the Study of Korean Modernity at Yonsei University, highlighting key methodological considerations. It examines the selection of Korean studies texts from the full corpus of published articles, the identification and classification of named entities, and the outcomes of this process. Additionally, the study reviews challenges encountered during annotation—including annotation tool selection, normalization of Chinese characters and variant spellings, annotation methods, and data interpretation—and details efforts to address these issues. As the first large-scale named entity annotation project on early 20th-century Korean newspaper articles, this study provides valuable insights for future researchers working with historical Korean texts.

keywords
named entity, linguistic annotation, Korean studies, digital humanities, text analysis, 개체명, 언어 주석, 한국학, 디지털 인문학, 텍스트 분석


상단으로 이동

한국학