정보학/정보검색

7장.정보검색모형(확률검색)

윤채니챈 2023. 6. 4. 15:02
728x90
반응형

확률검색: 확률 이론을 사용하여 질의에 대한 문헌의 적합성을 산출하는 검색 기법

가정

- 각 문헌은 주어진 질의에 적합하거나 부적합하다

- 한 문헌에 대한 적합성 판정은 다른 문헌과는 독립적이다

위 가정을 바탕으로 하는 확률검색 모형은 문헌이 적합할 확률과 부적합학 확률을 이용하여 문헌의 적합성 순위를 결정함

 

적합문헌: P(W∣X)>P(W-bar|X)

- P(W|X):  문헌 X가 질의에 적합할 확률
- P(W-bar|X): 문헌 X가 질의에 부적합할 확률 

 

위같은 방법은 직접산출이어려움으로 베이즈 정리이용하여 변형

 

P(W∣X)=P(X)P(X∣W)/P(W)​

베이즈정리

- P(X|W): 질의에 적합한 문헌 집합에서 문헌 X가 선택될 확률

- P(W): 질의에 적합한 문헌이 전체 문헌 집합에서 차지하는 비율

- P(X): 전체 문헌 집합에서 문헌 X가 선택될 확률

 

결정규칙변형된식

 

이 함수는 문헌 x가 질의에 적합할 확률과 부적합할 확률의 비율을 로그로 변환한 값으로 문헌x가 클수록 질의에 적합하다고 판단

*** Binary Independence Model (BIM)이라는 정보 검색 모델에서 사용되는 확률

BIM은 문서와 질의를 이진 벡터로 표현하고, 단어의 존재 여부만을 고려하는 모델

pi는 문헌 X가 적합문헌일 때 색인어 ti가 부여될 확률이고, qi는 문헌 X가 부적합문헌일 때 색인어 ti가 부여될 확률

즉, pi = P(xi=1|w1), qi = P(xi=1|W-bar)

문헌 X가 적합문헌일 때 색인어 ti부여되지않을 확률 = (1-pi)

문헌 X가 부적합문헌일 때 색인어 ti가 부여될 확률 = (1-qi)

 

pi,qi추정방법 -> 데이터베이스 내 문헌들의 적합성 정보이용 : 2x2 분할표이용

 

2x2분할표

 

 

 

N: 데이터베이스 내 전체 문헌 수

R: 질의에 대한 적합문헌 수

n: 단어 ti 를 색인어로 갖는 문헌 수

r: 단어 ti 를 색인어로 갖는 적합문헌 수

 

pi = 색인어 ti가 부여될 확률 / 적합문헌일때

 

qi = 색인어 ti가 부여될 확률 / 부적합문헌일때

 

2x2분할표를 활용한 g(x)함수 재정리

 

*. 적합성 정보가 준비되어 있지 않을 때,

1. groft and harper의 전략 : 적합성 정보가 준비되어 있지 않을 때, 적합성 확률을 추정하기 위한 방법

g(x) = Σᵢ₌₁ᴹ xᵢ log(N-nᵢ/nᵢ)      *nᵢ는 질의어 i를 포함하는 문헌 수를 의미

2.okapi시스템의 BM25 사용

 

언어모형검색기반: 언어모형을 활용하여 질의-문헌간 유사도 측정 

색인어로 표현된 문헌모형으로부터 특정 질의를 생성할 확률을 산출하여 순위화 시키는방법

 

- t는 용어

- d는 문헌

- tf(t,d)는 문헌 d에서 용어 t의 빈도

- |d|는 문헌 d의 길이

이 식은 문헌 d에서 용어 t가 나타날 확률을 문헌 d의 길이로 정규화한 것. 즉, 문헌 d에서 용어 t의 상대적인 빈도를 의미

 

복수의 질의가 나올경우 

**미출현 빈도가 발생하여 0이 되는경우

1.TF에 CF를 추가하여 방지

2. Jelinek-Mercer방법

P(t|C) :장서빈도

파라미터 : 두항의 비중을 나타냄 (디폴트값:1500)

728x90
반응형