3-2장. 텍스트의 자동색인(단어의 문헌분리값,신호량가중치

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

채니의 개발일기

3-2장. 텍스트의 자동색인(단어의 문헌분리값,신호량가중치 본문

정보학/정보검색

3-2장. 텍스트의 자동색인(단어의 문헌분리값,신호량가중치

윤채니챈 2023. 6. 12. 23:27

728x90

출현빈도나 출현확률에 근거하여 색인어로서의 가치를 측정하는 방법

단어의 문헌분리값 (Term Discrimination Value)
신호량가중치 (Signal Weight)
적합성 가중치 (Relevance Weight)

단어의 문헌분리값(Term Discrimination Value)

- 특정한 단어가 한 문헌집단 속에서 상호 관련없는 문헌들을 분리시키는 능력을 측정한 것

- 좋은 색인어는 문헌집단에서 서로 주제가 다른 문헌들을 가능한 한 분리시키고, 나쁜 색인어는 문헌집단에서 서로 주제가 다른 문헌들을 무리짓게 한다. -> 좋은 색인어 일수록 문헌집단의 밀도를 낮춤

예) 좋은색인어 - "포도"와 "포도주"는 서로 다른 주제를 나타내므로, 이 두 단어는 좋은 색인어입니다.

나쁜 색인어 - "과일"이라는 단어는 문헌집단에서 서로 다른 주제를 나타내는 문헌들을 함께 묶어버리므로 나쁜 색인어

- 색인어의 문헌분리값 = 해당 단어가 색인어로 부여되기 이전과 부여된 이후의 문헌들 간 평균 유사도의 차이를 나타내는 값

- 좋은 색인어는 이 단어를 문헌집단에서 제거했을 때 문헌들 간 평균 유사도를 증가시키는 결과를 초래

- 이러한 결과는 해당 색인어로 표현된 주제를 다루고 있는 문헌들을 그렇지 않은 이웃문헌들로부터 쉽게 구별되도록 하여 검색을 용이

문헌분리값 산출가정

1. 문헌 D_i = (w_i1, w_i2, ..., w_ik) : 용어들의 가중치벡터로 표현

wik: 각 단어의 가중치

2. 각 문헌 유사도 S(Di,Dj)를 산출하여 평균을 낸다-> 문헌집단의 평균유사도 Q를 나타냄

출처: [정보검색] 제3장 텍스트의 자동색인 - 통계적 기법 - CHAEHYEONG KIM (cheris8.github.io)

- 모두 더해진 유사도의 평균을 내기 위해 (1/n(n-1)) 사용 (*** 평균유사도를 계산하기 위한 정규화 상수)

- Q(평균유사도) -> 유사도가 클수록 문헌들이 밀집해 있음을 타낸다.

3. k의 문헌분리값 : 문헌벡터로부터 단어 k를 제거한 후의 평균 유사도 Q 와 단어 k를 색인어로 부여했을 때의 유사도 Q의 차이를 산출\

- 문헌분리값k = Qk- Q

- k가 좋은색인어 인경우 :Qk>Q,양수인경우 -> 양수라는것은 단어 k를 제거한 후 문헌이 밀집되어있다는것을 의미 = 단어 k를 색인어로 부여하면 밀도를 낮출수 있다는 것 의미

- k가 나쁜 색인어 인경우 :Qk<Q,음수인경우

4. 문헌분리값을 가중치로 사용

- 문헌 분리값 자체는 한 문헌집단 내에서 특정한 단어가 색인어로 적합한지를 결정하는 기준

- 문헌분리값을 색인어 선정 기준으로 사용하기 위한 가중치

w_{ik} = TF_{ik} *

예시)

1.문헌 집단이 다음과 같다고 가정
D_1 = (1, 1, 0, 1, 0)
D_2 = (1, 0, 1, 0, 1)
D_3 = (0, 1, 0, 1, 1)

2.각 문헌 쌍의 유사도는 다음과 같다.

S(D_1,D_2) = S(D_2,D_1) = (2*0)/(3*2) = 0
S(D_1,D_3) = S(D_3,D_1) = (2*1)/(3*2) = 1/3
S(D_2,D_3) = S(D_3,D_2) = (2*1)/(3*2) = 1/3

3. 문헌집단의 평균유사도 Q는 다음과 같다.

Q = (1/3(3-1)) * ((0) + (1/3) + (1/3)) = 7/18

4. k=4일 때 단어 k는 "4"다. 이때 단어 "4"를 제거한 후의 평균 유사도 Qk와 단어 "4"를 색인어로 부여했을 때의 유사도 Q는 다음과 같다.

Qk = (1/3(3-1)) * ((0) + (1/3) + (1/3)) = 7/18
Q = (1/3(3-1)) * ((0/(sqrt(5)*sqrt(5))) + ((sqrt(5)*sqrt(5)-2)/(sqrt(5)*sqrt(5))) + ((sqrt(5)*sqrt(5)-2)/(sqrt(5)*sqrt(5)))) = (7-2√5)/18

문헌분리값 = Qk - Q = √5/18

위 예시에서는 k=4일 때 문헌분리값이 양수로 "4"는 좋은 색인어이다.

신호량 가중치: 단어의 출현확률이 높을수록 이 단어가 전달하는 정보량은 적어진다.

- Shannon의 정보 이론에 기초한것으로 문헌집단에서의 평균정보량이 적은 단어를 색인어로 선정하기 위한 기준

- 정보의 개념은 (다양한 메시지 중에서 하나의 메시지를 선택할 때 부여되는 )선택의 자유를 의미

- 선택의 자유가 클수록 어느 메시지가 선택될 것인가에 대한 불확실성이 증가 (= 이 다양한 메시지로부터 하나의 메시지를 선택할 때 부여되는 선택의 자유를 의미)

- 평균정보량은 엔트로피와 불확실성, 선택의 자유와 같은 개념

- 엔트로피 = 선택 대상이 되는 메시지들이 갖는 평균정보량

*** 평균정보량 = 불확실성의 크기, 선택의 자유가 클수록 불확실성이 증가하고 평균정보량도 증가

H = -\sum_{i=1}^{n}(p_i * log_2 p_i)

n개의 메시지가 갖는 평균정보량
- $p_{i}$ : 메시지 $i$ 의 발생 확률
- $\log_{2} p_{i}$ : 메시지 $i$ 가 갖는 정보량

잡음: 엔트로피 공식을 적용하여 n개의 문헌으로 구성된 문헌집단에서 특정한 단어 k가 갖는 잡음을 산출

k = -\sum_{i=1}^{t} \frac{f_{i,k}}{C_{F,k}} log_2 \frac{f_{i,k}}{C_{F,k}}

CFk는 전체 문헌집단 내 단어 k의 출현빈도(장서빈도)이며, T_Fik는 단어 k의 각 문헌 내 출현확률

T_{F,i,k} = P_{i,k} = \frac{f_{i,k}}{C_{F,k}}

-> 단어 k의 각 문헌내 출현확률

- 잡음은 단어 k가 전체 문헌들 속에 고르게 분포되어있을때, 즉 각 문헌 내 출현빈도가 똑같을때 큰 값을 갖는다.

- 잡음이 큰 단어는 문헌들을 식별하는 능력이 적으므로 색인어로 적합하지 않다.

신호량 가중치

- 잡음 공식의 역함수를 취하여 색인어로서의 가치를 결정하는 기준으로 사용

- 문헌집단에서의 총 출현빈도는 크면서 소수의 문헌에 집중적으로 출현한 단어가 큰 값의 신호량을 갖게 되면서 색인어로 선정

k = log_2(CF_k) - 잡음_k

- 신호량 가중치를 색인어 선정 기준으로 사용하기 위한 가중치

w_{ik} = TF_{ik} \times 신호량_k

예시) 10개의 문헌에서 출현빈도(TF)가 각각 5인 단어가 있다고 할때

출현확률 (단어 k의 각문헌 내 출현 확률) = 5/5*10 = 10

잡음 = - 10(1/10xlog2 1/10) =log 2 10

신호량 log50 -log10

가중치 = 5*신호량

적합성가중치

- 문헌분리값은 특정한 단어가 전체 문헌집단 내에서 출현한 빈도를 반영하여 해당 단어가 전체 문헌집단에서 색인어로서 어느 정도의 가치를 갖는지 측정
- 신호량 가중치는 문헌집단을 구성하는 문헌들을 특정한 질의에 대해 적합문헌과 부적합문헌으로 구별한 후 각 집합에서의 출현빈도를 반영하여 산출

적합성 가중치

- 단어의 출현빈도 뿐만 아니라 단어가 출현한 문헌의 클래스 또한 고려.

- 문헌집단을 구성하는 문헌들을 특정한 질의에 대해 적합문헌과 부적합문헌으로 구별 후 각 집합에서의 출현빈도를 반영하여 산출

- 적합성 정보를 이용함

N : 문헌집단 내 문헌 총 수
n : 단어 k를 색인어로 갖는 문헌 수 = 검색 문헌 총 수 = DF
R : 질의 Q에 대한 문헌집단 내 적합 문헌 수 = 적합 문헌 총 수
r : 질의 Q에 대한 적합문헌 중 색인어 k가 부여된 문헌 수 = 검색 적합 문헌 총 수

문헌의 적합성 분포표

- r : 질의 Q에 대한 적합문헌 중 색인어 k가 부여된 문헌 수
- n-r : 질의 Q에 대한 부적합문헌 중 색인어 k가 부여된 문헌 수
- n : 질의 Q에 대한 모든 문서 중에서 단어 k를 포함하는 문서 수
- R-r : 질의 Q에 대한 부적합문헌 중에서 단어 k를 포함하는 문서 수
- R : 질의 Q에 대한 모든 적합문서 중에서 단어 k를 포함하는 문서 수
- N-n : 질의 Q에 대한 모든 부적합문서 중에서 단어 k를 포함하는 문서 수

W1 = log r/R n/N

W2 = log r/R (n-r)/(N-R)

W3 = log r/(R-r) n/(N-n)

W4 = log r/(R-r) (n-r)/(N-n-R+r)

W1 : 적합 문헌 내 분포와 전체 문헌집단 내 분포를 비교
W2 : 적합 문헌 내 분포와 부적합 문헌 내 분포를 비교
W3 : 적합 문헌 내 분포와 전체 문헌집단 내 분포를 비교
W4 : 적합 문헌 내 분포와 부적합 문헌 내 분포를 비교

728x90

'정보학 > 정보검색' 카테고리의 다른 글

3-4장. 언어학적기법(불용어제거기법,형태소분석기법,n-gram) (0)	2023.06.13
3-3장. 텍스트의 자동색(포아송분포모형,2-포아송 분포모형, 점유분포에 기반한 단어집중도 모형) (0)	2023.06.13
8장 검색서능향상(지역적 질의확장 (0)	2023.06.11
8장. 검색성능향상전략(질의확장,전역적질의확장) (0)	2023.06.11
8장. 정보 검색 성능향상(용어절단,인접검색,제한검색) (2)	2023.06.11

'정보학/정보검색' Related Articles

채니의 개발일기

3-2장. 텍스트의 자동색인(단어의 문헌분리값,신호량가중치 본문

3-2장. 텍스트의 자동색인(단어의 문헌분리값,신호량가중치

'정보학 > 정보검색' 카테고리의 다른 글

티스토리툴바