정보학/정보검색
정보검색: Okapi BM25 알고리즘
윤채니챈
2023. 6. 4. 17:23
728x90
반응형
Okapi BM25 알고리즘:
1. 검색 엔진에서 주어진 쿼리에 대한 문서의 관련도를 측정하기 위해 사용되는 랭킹 함수
** 랭킹함수: 정보검석에서 문서의 관련도를 측정하여 검색결과의 순위를 결정하는 함수
2. TF-IDF의 변형으로, 용어 빈도와 역문서 빈도에 문서 길이에 대한 정규화를 추가하여 계산
- 는 문서 에 대한 쿼리 의 BM25 점수(관련도)를 뜻함
- 는 검색어 집합으로, 을 포함
- 는 문서 에서 단어 의 빈도수
- 는 단어 의 역문서 빈도수로, 다음과 같이 정의됩니다.
- 은 전체 문서의 개수
- 는 검색어 가 있는 문서의 개수입니다.
- 과 는 상수로, 일반적으로 ,
- 는 문서 의 길이
- 은 전체 문서의 길이 평균
*** 정보검색에서 BM25알고리즘 특징
• A문서와 B문서의 검색어 빈도수가 같을 때, 문서의 길이가 긴 쪽이 낮은 점수를 가짐. 이는 문서 길이에 대한 정규화를 통해 긴 문서가 과다하게 평가되는 것을 방지함
• 다른 문서에 잘 나오지 않는 단어A를 포함한 문서는 단어A의 빈도수가 높지 않아도 높은 점수를 가진다. 이는 역문서 빈도수를 통해 희귀한 단어가 가지는 중요도를 반영함
728x90
반응형