바로가기메뉴

본문 바로가기 주메뉴 바로가기
 
 

logo

  • P-ISSN2466-2542
  • KCI

단어빈도와 동시링크의 결합을 통한 웹 문서 클러스터링 성능 향상에 관한 연구

Clustering of Web Document Exploiting with the Union of Term Frequency and Co-link in Hypertext

한국도서관·정보학회지 / Journal of Korean Library and Information Science Society, (P)2466-2542;
2003, v.34 no.3, pp.211-229
이교운 (울산과학대학)
이원희 (부산대학교)
박음 (부산대학교)
김영기 (부산대학교)
권혁철 (부산대학교)

초록

이 연구에서는 웹 문서가 갖고 있는 특성, 특히 웹 문서에 포함된 단어 수가 클러스터링 성능에 결정적인 영향을 미친다는 전제 하에, 웹 문서에 포함된 단어 수와 클러스터링 성능과의 관계를 밝힌 다음, 이 부분을 웹 문서의 동시인용 빈도를 이용해 보완할 수 있는 알고리즘을 제시한다. 이 연구에서는 네이버 디렉터리 중 '자연과학' 법주에 포함된 1,449개의 웹 문서를 대상으로 단어기반 클러스터링과 링크기반 클러스터링, 그리고 단어-링크 혼합 클러스터링 기법으로 클러스터링 해 보았으며, 그 결과를 네이버 디렉터리에 초기 할당된 법주와 비교해 보았다.

keywords
단어기반 클러스터링, 링크기반 클러스터링, 단어-링크 혼합 클러스터링, 동시링크, 텀 벡터

Abstract

In this paper, we have focused that the number of word in the web document affects definite clustering performance. Our experimental results have clearly shown the relationship between the amounts of word and its impact on clustering performance. We also have presented an algorithm that can be supplemented of the contrast portion through co-links frequency of web documents. Testing bench of this research is 1,449 web documents included on 'Natural science' category among the Naver Directory. We have clustered these objects by term-based clustering, link-based clustering, and hybrid clustering method, and compared the output results with originally allocated category of Naver directory.

keywords
단어기반 클러스터링, 링크기반 클러스터링, 단어-링크 혼합 클러스터링, 동시링크, 텀 벡터

한국도서관·정보학회지