일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 노트list
- JS
- 노마쌤과 즐거운 영어 습관
- 노마쌤
- 행렬
- 웹폰트
- R
- 정수인코딩
- 명령어
- 벡터
- 질의확장
- 매일영어습관
- EC2
- 인덱스
- HTML
- 클러스터링기법
- DOM
- 신뢰구간
- DOMAPI
- 파이썬
- Ajax프레임워크
- 프로토콜
- Filter
- 자기지도학습
- CSS
- NLP
- 함수
- Mac konlpy
- 유의수준
- Ajax
- Today
- Total
채니의 개발일기
2. 색인 및 시소러스 본문
색인: 개개의 정보자료의 특성을 표현하는 데이터 요소를 추출하여, 그 정보자료를 표현하는 작업.
색인어 : 색인 결과 추출된 데이터 요소 = metadata
색인어 사용 예시
1. 웹 검색 엔진: 온라인데이터베이스에서 각 정보자료에 대한 색인결과 색인데이터베이서 생성하여 검색도구로 사용
2. 도서관의 책 색인 : 책의 제목, 작가, 출판사, 주제 등의 데이터 요소를 추출하여 검색 용이
- 색인어유형 (어떤 유형의 데이터 요소를 표현하느냐에 따라)
주제색인 : 정보의 주제어를 나타내는 색인 (키워드,디스크립터/주제명,,,)
예를 들어, 책의 경우 주제색인어로 "여행", "역사", "과학", "문학"
웹 페이지의 경우 "기후변화", "금융시장", "건강관리", "음식 레시피"와 같은 주제색인어가 사용
비주제색인 : 정보자료의 주제를 직접적으로 나타내지 않는 데이터 요소
정보 자료의 저자명, 기관명, 출판년도, 언어 등과 같은 속성을 나타내는 요소로 사용
주제색인방법
기준 :색인어 선택 시 용어에 통제가 가해졌는지 여부에 따라
자연어어색인(용어색인): 아무런 통제를 가하지 않은 자연언어 그대로를 색인어로 채택하는 방법
- 키워드: 자연언어 형태 색인어
* 적합한 정보를 찾을 수 없는경우
1.동일한 개념이라도 색인하고자 하는 여러 텍스트에서 서로 다른 용어로 표현되어 있을 경우 각각 다른 색인어가 선택됨
ex)covid19 = 코로나바이러스 = 신종 코로나바이러스
2. 같은 어근/어간을 갖는 용어들이라도 형태가 다를 경우 각기 다른 용어로 간주됨
ex) 컴퓨팅 = 컴퓨터
-> 동의어/다의어/동음이의어를 검색어로 활용
통제언어(개념색인): 색인은 문헌의 내용을 분석하여 추출한 주요 개념들을 통제어휘집을 사용하여 색인어를 선택하는 방법
-디스크립터: 시소러스 통제색인어 사용 , 주제명: 주제명 표목표사용
- 검새어로 통제어 사용시 적절한 검색(디스크립터)위해 온라인 시소러스 제공
ex) 검색어로 온라인 시소러스를 조회하면 ‘COVID-19’, ‘신종 코로나바이러스 감염증-19’, ‘코비드-19’ 등의 동의어와 ‘감염병’, ‘바이러스’, ‘백신’ 등의 관련 용어제공
- 검색어로 자연언어를 입력한 경우 컴퓨터에 내장된 사전파일을 이용하여 해당되는 통제 색인어로 자동 변환한 후 검색어로 사용가능
- 대부분 온라인 데이터베이스 서비스들은 자연언어 색인과 통제언어 색인을 함께 채택
'정보학 > 정보검색' 카테고리의 다른 글
8장. 정보 검색 성능향상(용어절단,인접검색,제한검색) (2) | 2023.06.11 |
---|---|
3장 텍스트의 자동색인 (2) | 2023.06.09 |
1.텍스트 정보검색 (6) | 2023.06.08 |
정보검색: Rocchio 알고리즘이란 (0) | 2023.06.04 |
정보검색: Okapi BM25 알고리즘 (0) | 2023.06.04 |