8장. 검색성능향상전략(질의확장,전역적질의확장)
질의확장 목적: 이용자가 입력한 초기 질의를 수정하여 검색 성능을 높이는 것(질의 확장, 질의수정 포함)
- 질의확장: 실제로 새로운 질의어나 검색어를 기존 질의에 추가함으로써 검색 범위를 확장하는 것을 의미
초기 질의어로 "인공지능"을 입력한 경우, 질의확장을 통해 "머신 러닝", "딥러닝" 등의 추가적인 관련 검색어를 사용하여 검색 범위를 확장
- 질의수정: 새로운 질의어를 추가하지 않고 초기 질의어의 가중치를 다시 조정하여 검색 결과를 개선하는 것
예를 들어, 초기 질의어로 "스마트폰"을 입력한 경우, 질의수정을 통해 "스마트폰"과 관련된 문서들의 가중치를 높여 더욱 관련성이 높은 검색 결과를 얻을 수 있다.
질의확장방법: 어느 방법을 선택할 것인가는 채택한 검색 모형에따라 결정
1. 초기 질의에 새로운 질의어를 추가하는 방법(가중치 부여하지 않는 시스템에 주로 사용,불리언검색에서 사용)
- 용어들 간 유사도 행렬이나 시소러스, 또는 용어 클러스터링 등을 이용하여 초기 질의어와 유사한 용어들을 새로운 질의어로 추가.
- 예를 들어, 초기 질의어가 "컴퓨터"라면, "PC", "노트북", "데스크탑" 등과 같은 유사한 용어들을 새로운 질의어로 추가
2. 초기 질의에 새로운 질의어를 추가하면서 초기 질의어의 가중치를 다시 산출
- 초기 질의어의 가중치는 그대로 두고 추가 질의어에만 초기 질의어와의 유사도 정도에 따라 적절한 가중치를 부여하는 것이거나, 초기 질의어의 가중치도 다시 산출하는 것
- 질의어에 가중치를 부여하는 시스템에서 적용되며, 벡터공간 검색에서 사용됩니다.
3. 초기 질의에 새로운 질은 추가하지 않고 초기 질의어의 가중치만 다시 산출하는 방법
- 확률 검색에서 일차적으로 검색된 문헌들에 대한 적합성 판정 결과를 바탕으로 초기 질의어의 적합성 가중치를 다시 부여하는 경우
- 예를 들어, 초기 질의어가 "컴퓨터"라면, 일차적으로 검색된 문헌들 중에서 컴퓨터와 관련된 문헌들을 선택하고, 그 문헌들에 포함된 용어들과 컴퓨터라는 용어와의 관련도를 계산하여 컴퓨터라는 용어에 새로운 가중치를 부여
- 확률 검색에서 사용
추가 질의어를 확보하는 방법에 따라
- 전역적 질의확장: 검색 이전에 질의를 확장하는 방법 -데이터베이스 내 전체 용어들로부터 초기 질의어와 유사한 용어들을 모두 선정하여 새로운 질의어로 추가하는 방법 - 예를 들어, 초기 질의어가 "컴퓨터"라면, 데이터베이스 내에 있는 모든 용어들 중에서 "컴퓨터"와 유사한 의미를 가진 용어들을 찾아서 새로운 질의어로 추가할 수 있다.
- 지역적 질의확장: 일차 검색된 문헌들에 출현한 용어들을 이용하여 추가 질의어를 선정하거나 초기 질의어의 가중치를 수정하는 방법 - 적합성 피드백에 의한 질의확장에 해당
전역적 질의확장
1. 자동 질의확장 (Automatic Query Expansion): 시스템이 사용자가 입력한 원래의 질의어와 유사한 용어를 자동으로 찾아 새로운 질의어로 추가
2. 상호작용적 질의확장 (Interactive Query Expansion): 시스템이 제시한 유사어나 연관어 중에서 이용자가 선택하여 새로운 질의어를 추가
3.유사도 시소러스에 의한 질의확장 (Query Expansion using Similarity Thesaurus): 데이터베이스 내 용어들 간의 공기빈도 활용
- 유사도 시소러스를 이용하여 초기 질의어와의 유사도가 높은 용어를 찾아 새로운 질의어로 추가한 다음 검색
- 유사도 시소러스 (Similarity Thesaurus) : 용어들 간 유사도 행렬 또는 유사도 행렬로부터 생성한 용어 클러스 , 용어 출현 정보에 기반한 문헌-용어 행렬로부터 작성
- 용어-용어 유사도 행렬을 이용하여 추가 질의어를 선정하는 방법 :각 질의어와의 유사도가 임계치를 넘는 용어들을 새로운 질의어로 추가
새로 추가되는 질의어들이 질의 전체의 개념과 연관성 없는 문제발생
- 개념기반질의확장: 질의 전체 개념과 유사도가 높은 용어선정
- 질의 개념과 유사한 추가 질의어의 선정 과정
4. 전통적 시소러스에 의한 질의확장
- 전통적인 의미의 시소러스를 사용하여 질의어와 개념적으로 관련된 용어를 선택하는 방법
- 대부분의 온라인 데이터베이스 서비스는 이용자가 검색 시 활용할 수 있는 전문적인 온라인 시소러스를 제공
- 이용자는 키워드만을 질의어로 사용하지 않고 정보요구를 보다 잘 표현하는 용어를 시소러스로부터 선택하여 질의어로 사용
- 시소러스 용어의 사용은 검색의 정확성을 높일 뿐만 아니라 정보요구에 관련된 문헌들을 더 많이 검색