일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 프로토콜
- 정수인코딩
- Ajax
- 파이썬
- Ajax프레임워크
- Mac konlpy
- HTML
- CSS
- 신뢰구간
- DOM
- JS
- 인덱스
- 벡터
- DOMAPI
- 웹폰트
- 매일영어습관
- EC2
- 행렬
- 함수
- 질의확장
- 노트list
- 노마쌤과 즐거운 영어 습관
- NLP
- 유의수준
- 노마쌤
- Filter
- 클러스터링기법
- R
- 자기지도학습
- 명령어
- Today
- Total
채니의 개발일기
3-2장. 텍스트의 자동색인(단어의 문헌분리값,신호량가중치 본문
출현빈도나 출현확률에 근거하여 색인어로서의 가치를 측정하는 방법
- 단어의 문헌분리값 (Term Discrimination Value)
- 신호량가중치 (Signal Weight)
- 적합성 가중치 (Relevance Weight)
단어의 문헌분리값(Term Discrimination Value)
- 특정한 단어가 한 문헌집단 속에서 상호 관련없는 문헌들을 분리시키는 능력을 측정한 것
- 좋은 색인어는 문헌집단에서 서로 주제가 다른 문헌들을 가능한 한 분리시키고, 나쁜 색인어는 문헌집단에서 서로 주제가 다른 문헌들을 무리짓게 한다. -> 좋은 색인어 일수록 문헌집단의 밀도를 낮춤
예) 좋은색인어 - "포도"와 "포도주"는 서로 다른 주제를 나타내므로, 이 두 단어는 좋은 색인어입니다.
나쁜 색인어 - "과일"이라는 단어는 문헌집단에서 서로 다른 주제를 나타내는 문헌들을 함께 묶어버리므로 나쁜 색인어
- 색인어의 문헌분리값 = 해당 단어가 색인어로 부여되기 이전과 부여된 이후의 문헌들 간 평균 유사도의 차이를 나타내는 값
- 좋은 색인어는 이 단어를 문헌집단에서 제거했을 때 문헌들 간 평균 유사도를 증가시키는 결과를 초래
- 이러한 결과는 해당 색인어로 표현된 주제를 다루고 있는 문헌들을 그렇지 않은 이웃문헌들로부터 쉽게 구별되도록 하여 검색을 용이
문헌분리값 산출가정
1. 문헌 D_i = (w_i1, w_i2, ..., w_ik) : 용어들의 가중치벡터로 표현
wik: 각 단어의 가중치
2. 각 문헌 유사도 S(Di,Dj)를 산출하여 평균을 낸다-> 문헌집단의 평균유사도 Q를 나타냄
- 모두 더해진 유사도의 평균을 내기 위해 (1/n(n-1)) 사용 (*** 평균유사도를 계산하기 위한 정규화 상수)
- Q(평균유사도) -> 유사도가 클수록 문헌들이 밀집해 있음을 타낸다.
3. k의 문헌분리값 : 문헌벡터로부터 단어 k를 제거한 후의 평균 유사도 Q 와 단어 k를 색인어로 부여했을 때의 유사도 Q의 차이를 산출\
- 문헌분리값k = Qk- Q
- k가 좋은색인어 인경우 :Qk>Q,양수인경우 -> 양수라는것은 단어 k를 제거한 후 문헌이 밀집되어있다는것을 의미 = 단어 k를 색인어로 부여하면 밀도를 낮출수 있다는 것 의미
- k가 나쁜 색인어 인경우 :Qk<Q,음수인경우
4. 문헌분리값을 가중치로 사용
- 문헌 분리값 자체는 한 문헌집단 내에서 특정한 단어가 색인어로 적합한지를 결정하는 기준
- 문헌분리값을 색인어 선정 기준으로 사용하기 위한 가중치
예시)
1.문헌 집단이 다음과 같다고 가정
D_1 = (1, 1, 0, 1, 0)
D_2 = (1, 0, 1, 0, 1)
D_3 = (0, 1, 0, 1, 1)
2.각 문헌 쌍의 유사도는 다음과 같다.
S(D_1,D_2) = S(D_2,D_1) = (2*0)/(3*2) = 0
S(D_1,D_3) = S(D_3,D_1) = (2*1)/(3*2) = 1/3
S(D_2,D_3) = S(D_3,D_2) = (2*1)/(3*2) = 1/3
3. 문헌집단의 평균유사도 Q는 다음과 같다.
Q = (1/3(3-1)) * ((0) + (1/3) + (1/3)) = 7/18
4. k=4일 때 단어 k는 "4"다. 이때 단어 "4"를 제거한 후의 평균 유사도 Qk와 단어 "4"를 색인어로 부여했을 때의 유사도 Q는 다음과 같다.
Qk = (1/3(3-1)) * ((0) + (1/3) + (1/3)) = 7/18
Q = (1/3(3-1)) * ((0/(sqrt(5)*sqrt(5))) + ((sqrt(5)*sqrt(5)-2)/(sqrt(5)*sqrt(5))) + ((sqrt(5)*sqrt(5)-2)/(sqrt(5)*sqrt(5)))) = (7-2√5)/18
문헌분리값 = Qk - Q = √5/18
위 예시에서는 k=4일 때 문헌분리값이 양수로 "4"는 좋은 색인어이다.
신호량 가중치: 단어의 출현확률이 높을수록 이 단어가 전달하는 정보량은 적어진다.
- Shannon의 정보 이론에 기초한것으로 문헌집단에서의 평균정보량이 적은 단어를 색인어로 선정하기 위한 기준
- 정보의 개념은 (다양한 메시지 중에서 하나의 메시지를 선택할 때 부여되는 )선택의 자유를 의미
- 선택의 자유가 클수록 어느 메시지가 선택될 것인가에 대한 불확실성이 증가 (= 이 다양한 메시지로부터 하나의 메시지를 선택할 때 부여되는 선택의 자유를 의미)
- 평균정보량은 엔트로피와 불확실성, 선택의 자유와 같은 개념
- 엔트로피 = 선택 대상이 되는 메시지들이 갖는 평균정보량
*** 평균정보량 = 불확실성의 크기, 선택의 자유가 클수록 불확실성이 증가하고 평균정보량도 증가
- : 메시지 의 발생 확률
- : 메시지 가 갖는 정보량
개의 메시지가 갖는 평균정보량
잡음: 엔트로피 공식을 적용하여 n개의 문헌으로 구성된 문헌집단에서 특정한 단어 k가 갖는 잡음을 산출
CFk는 전체 문헌집단 내 단어 k의 출현빈도(장서빈도)이며, T_Fik는 단어 k의 각 문헌 내 출현확률
-> 단어 k의 각 문헌내 출현확률
- 잡음은 단어 k가 전체 문헌들 속에 고르게 분포되어있을때, 즉 각 문헌 내 출현빈도가 똑같을때 큰 값을 갖는다.
- 잡음이 큰 단어는 문헌들을 식별하는 능력이 적으므로 색인어로 적합하지 않다.
신호량 가중치
- 잡음 공식의 역함수를 취하여 색인어로서의 가치를 결정하는 기준으로 사용
- 문헌집단에서의 총 출현빈도는 크면서 소수의 문헌에 집중적으로 출현한 단어가 큰 값의 신호량을 갖게 되면서 색인어로 선정
- 신호량 가중치를 색인어 선정 기준으로 사용하기 위한 가중치
예시) 10개의 문헌에서 출현빈도(TF)가 각각 5인 단어가 있다고 할때
출현확률 (단어 k의 각문헌 내 출현 확률) = 5/5*10 = 10
잡음 = - 10(1/10xlog2 1/10) =log 2 10
신호량 log50 -log10
가중치 = 5*신호량
적합성가중치
- 문헌분리값은 특정한 단어가 전체 문헌집단 내에서 출현한 빈도를 반영하여 해당 단어가 전체 문헌집단에서 색인어로서 어느 정도의 가치를 갖는지 측정
- 신호량 가중치는 문헌집단을 구성하는 문헌들을 특정한 질의에 대해 적합문헌과 부적합문헌으로 구별한 후 각 집합에서의 출현빈도를 반영하여 산출
적합성 가중치
- 단어의 출현빈도 뿐만 아니라 단어가 출현한 문헌의 클래스 또한 고려.
- 문헌집단을 구성하는 문헌들을 특정한 질의에 대해 적합문헌과 부적합문헌으로 구별 후 각 집합에서의 출현빈도를 반영하여 산출
- 적합성 정보를 이용함
- N : 문헌집단 내 문헌 총 수
- n : 단어 k를 색인어로 갖는 문헌 수 = 검색 문헌 총 수 = DF
- R : 질의 Q에 대한 문헌집단 내 적합 문헌 수 = 적합 문헌 총 수
- r : 질의 Q에 대한 적합문헌 중 색인어 k가 부여된 문헌 수 = 검색 적합 문헌 총 수
문헌의 적합성 분포표
- r : 질의 Q에 대한 적합문헌 중 색인어 k가 부여된 문헌 수
- n-r : 질의 Q에 대한 부적합문헌 중 색인어 k가 부여된 문헌 수
- n : 질의 Q에 대한 모든 문서 중에서 단어 k를 포함하는 문서 수
- R-r : 질의 Q에 대한 부적합문헌 중에서 단어 k를 포함하는 문서 수
- R : 질의 Q에 대한 모든 적합문서 중에서 단어 k를 포함하는 문서 수
- N-n : 질의 Q에 대한 모든 부적합문서 중에서 단어 k를 포함하는 문서 수
W1 = log r/R n/N
W2 = log r/R (n-r)/(N-R)
W3 = log r/(R-r) n/(N-n)
W4 = log r/(R-r) (n-r)/(N-n-R+r)
W1 : 적합 문헌 내 분포와 전체 문헌집단 내 분포를 비교
W2 : 적합 문헌 내 분포와 부적합 문헌 내 분포를 비교
W3 : 적합 문헌 내 분포와 전체 문헌집단 내 분포를 비교
W4 : 적합 문헌 내 분포와 부적합 문헌 내 분포를 비교
'정보학 > 정보검색' 카테고리의 다른 글
3-4장. 언어학적기법(불용어제거기법,형태소분석기법,n-gram) (0) | 2023.06.13 |
---|---|
3-3장. 텍스트의 자동색(포아송분포모형,2-포아송 분포모형, 점유분포에 기반한 단어집중도 모형) (0) | 2023.06.13 |
8장 검색서능향상(지역적 질의확장 (0) | 2023.06.11 |
8장. 검색성능향상전략(질의확장,전역적질의확장) (0) | 2023.06.11 |
8장. 정보 검색 성능향상(용어절단,인접검색,제한검색) (2) | 2023.06.11 |