정보학/정보검색

정보검색: Okapi BM25 알고리즘

윤채니챈 2023. 6. 4. 17:23
728x90
반응형

Okapi BM25 알고리즘:

1. 검색 엔진에서 주어진 쿼리에 대한 문서의 관련도를 측정하기 위해 사용되는 랭킹 함수

** 랭킹함수: 정보검석에서 문서의 관련도를 측정하여 검색결과의 순위를 결정하는 함수

2. TF-IDF의 변형으로, 용어 빈도와 역문서 빈도에 문서 길이에 대한 정규화를 추가하여 계산

 

  • 는 문서 에 대한 쿼리 의 BM25 점수(관련도)를 뜻함
  • 는 검색어 집합으로, 을 포함
  • 는 문서 에서 단어 의 빈도수
  • 는 단어 의 역문서 빈도수로, 다음과 같이 정의됩니다.

 

 

  • 은 전체 문서의 개수
  • 는 검색어 가 있는 문서의 개수입니다.

 

  •  는 상수로, 일반적으로 , 
  • 는 문서 의 길이
  • 은 전체 문서의 길이 평균
 

*** 정보검색에서 BM25알고리즘 특징

• A문서와 B문서의 검색어 빈도수가 같을 때, 문서의 길이가 긴 쪽이 낮은 점수를 가짐. 이는 문서 길이에 대한 정규화를 통해 긴 문서가 과다하게 평가되는 것을 방지함
• 다른 문서에 잘 나오지 않는 단어A를 포함한 문서는 단어A의 빈도수가 높지 않아도 높은 점수를 가진다. 이는 역문서 빈도수를 통해 희귀한 단어가 가지는 중요도를 반영함

 

 

 

 

728x90
반응형