채니의 개발일기

3-2장. 텍스트의 자동색인(단어의 문헌분리값,신호량가중치 본문

정보학/정보검색

3-2장. 텍스트의 자동색인(단어의 문헌분리값,신호량가중치

윤채니챈 2023. 6. 12. 23:27
728x90
반응형

 

출현빈도나 출현확률에 근거하여 색인어로서의 가치를 측정하는 방법

 

  • 단어의 문헌분리값 (Term Discrimination Value)
  • 신호량가중치 (Signal Weight)
  • 적합성 가중치 (Relevance Weight)

단어의 문헌분리값(Term Discrimination Value)

- 특정한 단어가 한 문헌집단 속에서 상호 관련없는 문헌들을 분리시키는 능력을 측정한 것

- 좋은 색인어는 문헌집단에서 서로 주제가 다른 문헌들을 가능한 한 분리시키고, 나쁜 색인어는 문헌집단에서 서로 주제가 다른 문헌들을 무리짓게 한다. -> 좋은 색인어 일수록 문헌집단의 밀도를 낮춤

예)  좋은색인어 - "포도"와 "포도주"는 서로 다른 주제를 나타내므로, 이 두 단어는 좋은 색인어입니다.

      나쁜 색인어 - "과일"이라는 단어는 문헌집단에서 서로 다른 주제를 나타내는 문헌들을 함께 묶어버리므로 나쁜 색인어

- 색인어의 문헌분리값 = 해당 단어가 색인어로 부여되기 이전과 부여된 이후의 문헌들 간 평균 유사도의 차이를 나타내는 값

- 좋은 색인어는 이 단어를 문헌집단에서 제거했을 때 문헌들 간 평균 유사도를 증가시키는 결과를 초래

- 이러한 결과는 해당 색인어로 표현된 주제를 다루고 있는 문헌들을 그렇지 않은 이웃문헌들로부터 쉽게 구별되도록 하여 검색을 용이

문헌분리값 산출가정

 

1. 문헌 D_i = (w_i1, w_i2, ..., w_ik) : 용어들의 가중치벡터로 표현

  wik: 각 단어의 가중치 

2. 각 문헌 유사도 S(Di,Dj)를 산출하여 평균을 낸다-> 문헌집단의 평균유사도 Q를 나타냄

 

출처: [정보검색] 제3장 텍스트의 자동색인 - 통계적 기법 - CHAEHYEONG KIM (cheris8.github.io)

  -  모두 더해진 유사도의 평균을 내기 위해 (1/n(n-1)) 사용  (*** 평균유사도를 계산하기 위한 정규화 상수)

  -  Q(평균유사도) -> 유사도가 클수록 문헌들이 밀집해 있음을 타낸다.

3. k의 문헌분리값 : 문헌벡터로부터 단어 k를 제거한 후의 평균 유사도 Q 와 단어 k를 색인어로 부여했을 때의 유사도 Q의 차이를 산출\

  -  문헌분리값k = Qk- Q

  -  k가 좋은색인어 인경우 :Qk>Q,양수인경우 -> 양수라는것은 단어 k를 제거한 후 문헌이 밀집되어있다는것을 의미  = 단어 k를 색인어로 부여하면 밀도를 낮출수 있다는 것 의미

  - k가 나쁜 색인어 인경우 :Qk<Q,음수인경우

4. 문헌분리값을 가중치로 사용

  - 문헌 분리값 자체는 한 문헌집단 내에서 특정한 단어가 색인어로 적합한지를 결정하는 기준

  - 문헌분리값을 색인어 선정 기준으로 사용하기 위한 가중치

 

wik=TFikw_{ik} = TF_{ik} *

 

예시)

1.문헌 집단이 다음과 같다고 가정
D_1 = (1, 1, 0, 1, 0)
D_2 = (1, 0, 1, 0, 1)
D_3 = (0, 1, 0, 1, 1)

2.각 문헌 쌍의 유사도는 다음과 같다.

S(D_1,D_2) = S(D_2,D_1) = (2*0)/(3*2) = 0
S(D_1,D_3) = S(D_3,D_1) = (2*1)/(3*2) = 1/3
S(D_2,D_3) = S(D_3,D_2) = (2*1)/(3*2) = 1/3

3. 문헌집단의 평균유사도 Q는 다음과 같다.

Q = (1/3(3-1)) * ((0) + (1/3) + (1/3)) = 7/18

4. k=4일 때 단어 k는 "4"다. 이때 단어 "4"를 제거한 후의 평균 유사도 Qk와 단어 "4"를 색인어로 부여했을 때의 유사도 Q는 다음과 같다.

Qk = (1/3(3-1)) * ((0) + (1/3) + (1/3)) = 7/18
Q   = (1/3(3-1)) * ((0/(sqrt(5)*sqrt(5))) + ((sqrt(5)*sqrt(5)-2)/(sqrt(5)*sqrt(5))) + ((sqrt(5)*sqrt(5)-2)/(sqrt(5)*sqrt(5)))) = (7-2√5)/18


문헌분리값 = Qk - Q = √5/18

위 예시에서는 k=4일 때 문헌분리값이 양수로 "4"는 좋은 색인어이다.


신호량 가중치: 단어의 출현확률이 높을수록 이 단어가 전달하는 정보량은 적어진다.

 

-  Shannon의 정보 이론에 기초한것으로 문헌집단에서의 평균정보량이 적은 단어를 색인어로 선정하기 위한 기준

- 정보의 개념은 (다양한 메시지 중에서 하나의 메시지를 선택할 때 부여되는 )선택의 자유를 의미

 - 선택의 자유가 클수록 어느 메시지가 선택될 것인가에 대한 불확실성이 증가  (= 이 다양한 메시지로부터 하나의 메시지를 선택할 때 부여되는 선택의 자유를 의미)

 -  평균정보량은 엔트로피와 불확실성, 선택의 자유와 같은 개념

 - 엔트로피 = 선택 대상이 되는 메시지들이 갖는 평균정보량

  *** 평균정보량 = 불확실성의 크기, 선택의 자유가 클수록 불확실성이 증가하고 평균정보량도 증가

H=i=1n(pilog2pi)H = -\sum_{i=1}^{n}(p_i * log_2 p_i)
  • 개의 메시지가 갖는 평균정보량
    •  : 메시지 의 발생 확률
    •  : 메시지 가 갖는 정보량

잡음: 엔트로피 공식을 적용하여 n개의 문헌으로 구성된 문헌집단에서 특정한 단어 k가 갖는 잡음을 산출 

k=i=1tfi,kCF,klog2fi,kCF,kk = -\sum_{i=1}^{t} \frac{f_{i,k}}{C_{F,k}} log_2 \frac{f_{i,k}}{C_{F,k}}

CFk는 전체 문헌집단 내 단어 k의 출현빈도(장서빈도)이며, T_Fik는 단어 k의 각 문헌 내 출현확률

TF,i,k=Pi,k=fi,kCF,kT_{F,i,k} = P_{i,k} = \frac{f_{i,k}}{C_{F,k}}

-> 단어 k의 각 문헌내 출현확률

 

- 잡음은 단어 k가 전체 문헌들 속에 고르게 분포되어있을때, 즉 각 문헌 내 출현빈도가 똑같을때 큰 값을 갖는다.

- 잡음이 큰 단어는 문헌들을 식별하는 능력이 적으므로 색인어로 적합하지 않다.

 

신호량 가중치

 - 잡음 공식의 역함수를 취하여 색인어로서의 가치를 결정하는 기준으로 사용

 - 문헌집단에서의 총 출현빈도는 크면서 소수의 문헌에 집중적으로 출현한 단어가 큰 값의 신호량을 갖게 되면서 색인어로 선정

 

k=log2(CFk)kk = log_2(CF_k) - 잡음_k

- 신호량 가중치를 색인어 선정 기준으로 사용하기 위한 가중치 

 

wik=TFik×신호kw_{ik} = TF_{ik} \times 신호량_k

 

예시) 10개의 문헌에서 출현빈도(TF)가 각각 5인 단어가 있다고 할때

 

출현확률 (단어 k의 각문헌 내 출현 확률) = 5/5*10 = 10

 

잡음 = - 10(1/10xlog2 1/10) =log 2 10

신호량 log50 -log10

 

가중치 = 5*신호량


적합성가중치

 - 문헌분리값은 특정한 단어가 전체 문헌집단 내에서 출현한 빈도를 반영하여 해당 단어가 전체 문헌집단에서 색인어로서 어느 정도의 가치를 갖는지 측정
 - 신호량 가중치는 문헌집단을 구성하는 문헌들을 특정한 질의에 대해 적합문헌과 부적합문헌으로 구별한 후 각 집합에서의 출현빈도를 반영하여 산출


 적합성 가중치

- 단어의 출현빈도 뿐만 아니라 단어가 출현한 문헌의 클래스 또한 고려.

- 문헌집단을 구성하는 문헌들을 특정한 질의에 대해 적합문헌과 부적합문헌으로 구별 후 각 집합에서의 출현빈도를 반영하여 산출

- 적합성 정보를 이용함 

  •  N : 문헌집단 내 문헌 총 수
  •  n : 단어 k를 색인어로 갖는 문헌 수 = 검색 문헌 총 수 = DF
  • R : 질의 Q에 대한 문헌집단 내 적합 문헌 수 = 적합 문헌 총 수
  • r : 질의 Q에 대한 적합문헌 중 색인어 k가 부여된 문헌 수 = 검색 적합 문헌 총 수

    문헌의 적합성 분포표


- r : 질의 Q에 대한 적합문헌 중 색인어 k가 부여된 문헌 수
- n-r : 질의 Q에 대한 부적합문헌 중 색인어 k가 부여된 문헌 수
- n : 질의 Q에 대한 모든 문서 중에서 단어 k를 포함하는 문서 수
- R-r : 질의 Q에 대한 부적합문헌 중에서 단어 k를 포함하는 문서 수
- R : 질의 Q에 대한 모든 적합문서 중에서 단어 k를 포함하는 문서 수
- N-n : 질의 Q에 대한 모든 부적합문서 중에서 단어 k를 포함하는 문서 수


W1 = log r/R n/N


W2 = log r/R (n-r)/(N-R)


W3 = log r/(R-r) n/(N-n)


W4 = log r/(R-r) (n-r)/(N-n-R+r)

 

W1 : 적합 문헌 내 분포와 전체 문헌집단 내 분포를 비교
W2 : 적합 문헌 내 분포와 부적합 문헌 내 분포를 비교
W3 : 적합 문헌 내 분포와 전체 문헌집단 내 분포를 비교
W4 : 적합 문헌 내 분포와 부적합 문헌 내 분포를 비교

728x90
반응형