채니의 개발일기

2. 색인 및 시소러스 본문

정보학/정보검색

2. 색인 및 시소러스

윤채니챈 2023. 6. 8. 22:15
728x90
반응형

색인: 개개의 정보자료의 특성을 표현하는 데이터 요소를 추출하여, 그 정보자료를 표현하는 작업.

색인어 : 색인 결과 추출된 데이터 요소 = metadata

 

색인어 사용 예시

1. 웹 검색 엔진:  온라인데이터베이스에서 각 정보자료에 대한 색인결과 색인데이터베이서 생성하여 검색도구로 사용
2. 도서관의 책 색인 : 책의 제목, 작가, 출판사, 주제 등의 데이터 요소를 추출하여 검색 용이


  • 색인어유형 (어떤 유형의 데이터 요소를 표현하느냐에 따라)

주제색인 : 정보의 주제어를 나타내는 색인 (키워드,디스크립터/주제명,,,)

예를 들어, 책의 경우 주제색인어로  "여행", "역사", "과학", "문학" 

웹 페이지의 경우 "기후변화", "금융시장", "건강관리", "음식 레시피"와 같은 주제색인어가 사용

 

비주제색인 : 정보자료의 주제를 직접적으로 나타내지 않는 데이터 요소

정보 자료의 저자명, 기관명, 출판년도, 언어 등과 같은 속성을 나타내는 요소로 사용


주제색인방법

기준 :색인어 선택 시 용어에 통제가 가해졌는지 여부에 따라

자연어어색인(용어색인): 아무런 통제를 가하지 않은 자연언어 그대로를 색인어로 채택하는 방법

-  키워드: 자연언어 형태 색인어

* 적합한 정보를 찾을 수 없는경우 

 1.동일한 개념이라도 색인하고자 하는 여러 텍스트에서 서로 다른 용어로 표현되어 있을 경우 각각 다른 색인어가 선택됨

   ex)covid19 = 코로나바이러스 = 신종 코로나바이러스

 2. 같은 어근/어간을 갖는 용어들이라도 형태가 다를 경우 각기 다른 용어로 간주됨

    ex) 컴퓨팅 = 컴퓨터 

-> 동의어/다의어/동음이의어를 검색어로 활용

통제언어(개념색인): 색인은 문헌의 내용을 분석하여 추출한 주요 개념들을 통제어휘집을 사용하여 색인어를 선택하는 방법

-디스크립터: 시소러스 통제색인어 사용 , 주제명: 주제명 표목표사용

- 검새어로 통제어 사용시 적절한 검색(디스크립터)위해 온라인 시소러스 제공

  ex) 검색어로 온라인 시소러스를 조회하면 ‘COVID-19’, ‘신종 코로나바이러스 감염증-19’, ‘코비드-19’ 등의 동의어와 ‘감염병’, ‘바이러스’, ‘백신’ 등의 관련 용어제공

-  검색어로 자연언어를 입력한 경우  컴퓨터에 내장된 사전파일을 이용하여 해당되는 통제 색인어로 자동 변환한 후 검색어로 사용가능

- 대부분 온라인 데이터베이스 서비스들은 자연언어 색인과 통제언어 색인을 함께 채택 

 

728x90
반응형