정보학/정보검색

7장. 정보검색모형(불리언 검색,퍼지집합 검색,MMM모형)

윤채니챈 2023. 6. 13. 21:28
728x90
반응형

정보검색 : 입력된 질의에 대해 각 문헌과의 유사도를 측정하여 유사도가 임계치 이상일 경우 채택

 

집합이론적 모형 : 서나 질의를 단어들의 집합으로 표현하고, 문서와 질의 간의 유사도를 계산하여 검색 결과를 결정합니다. 주로 단어의 존재 유무를 이용하여 검색을 수행 -> 불리언모형, 퍼지집합 검색, 확장불리언 검색

대수적 모형: 벡터공간을 모델로 다루는 방법 -> 벡터공간 검색, 신경망 모형, LSI모형

확률적 모형: 검색어와 문서 간의 관련성을 확률적으로 모델링하여 정보를 검색하는 방법 -> 확률검색, 추론망 모형


불리언검색

 - 불대수를 활용하여 질의를 만족시키는 문헌검색 기법

 - 불리언 연산자를 사용하여 키워드 형태의 검색어와 검색어들 간의 논리적 관계를 표현하는 검색 방법

 - 기본검색 : 키워드, 단어구만 나열하는 검색방식

 - 고급검색 :불리언 연산자인 AND, OR, NOT을 사용하여 검색어들 간의 관계를 표현

   1. AND 연산자: AND 연산자는 검색어들이 동시에 충족되는 경우를 나타낸다.

    예를 들어, "apple AND banana"라는 질의는 "apple"과 "banana"라는 두 개의 검색어가 동시에 포함된 결과를 반환

   2. OR 연산자: OR 연산자는 검색어들 중 하나 이상이 충족되는 경우

    예를 들어, "apple OR banana"라는 질의는 "apple" 또는 "banana"라는 검색어 중 하나 이상이 포함된 결과를 반환

   3. NOT 연산자: NOT 연산자는 NOT 뒤에 오는 검색어를 제외한 결과를 반환.

     예를 들어, "apple NOT banana"라는 질의는 "apple"을 포함하면서 "banana"는 포함하지 않은 결과를 반환

 

도치색인/역색인
 -  불리언 검색에서 사용되는 색인 방식으로, 사전파일과 문헌번호파일로 구성.

 - 사전파일은 색인어와 색인어의 출현 빈도, 문헌번호파일의 시작 위치 등의 정보를 포함

  - 문헌번호파일은 색인어가 출현한 문헌의 번호와 위치를 저장

  - 도치색인/역색인은 색인어를 기준으로 문헌을 찾는 방식으로, 색인어의 출현 빈도나 위치에 따라 문헌을 정렬하거나 필터링할 수 있다.

 

사전파일 -문헌번호 파일  출처:정보검색론: 정보검색 모형1 (tistory.com)


 인접검색 : 도치색인/역색인을 이용하여 검색어들이 인접해서 출현한 경우에만 검색하도록 하는 검색 방식

인접검색은 검색어들 사이에 인접 연산자(Proximity Operator)를 사용하여 표현

 

• 인접연산자 예시
- A with B : A와 B가 같은 문단에 출현한 경우
- A same B : A와 B가 같은 문장에 출현한 경우
- A adj B : A와 B 사이에 단어가 3개 이내인 경우

예를 들어, "정보검색" with "도치색인"이라는 검색어를 입력하면, "정보검색"과 "도치색인"이 같은 문단에 있는 문헌만 검색.

"정보검색" same "도치색인"이라는 검색어를 입력하면, "정보검색"과 "도치색인"이 같은 문장에 있는 문헌만 검색.

"정보검색" adj "도치색인"이라는 검색어를 입력하면, "정보검색"과 "도치색인" 사이에 단어가 3개 이내로 있는 문헌만 검색

 

장점

1. 구현이 쉽다 2. 질의처리가 효율적이다 3. 상용시스템에 보편적이다(상용온라인 데이터베이스나 웹검색엔진에서 채택)

 

단점

1.상대적 중요도를 표현할수없다( 모든검색어 가중치는 1로 동일하기때문) 2. 순위화가 불가능하다 3. 완전일치 문헌만 검색가능하며, 부분일치 문헌은 검색불가능하다.


퍼지집합 검색 :  부분적인 소속성을 허용하는 집합을 다루는 이론

- 탐색결과에 대한 부분 적합 표현이 불가능한 문제점을 위해 자데(Lotfi A. Zadeh)가 1965년에 제안한 검색모델

- 각 구성원이 해당 집합에 속하는 정도를 나타내는 값을 가짐 (= 멤버쉽 값)

- 퍼지집합의 멤버쉽 값은 일반적으로 0과 1 사이의 값을 가지며, 1은 완전한 멤버쉽을 나타내고 0은 비멤버쉽을 나타냄.

- 멤버쉽 함수는 퍼지집합에 속하는 각 구성원의 멤버쉽 정도를 결정하는 함수 또는 규칙 -> 주어진 입력 값에 대해 멤버쉽 값을 반환

 

멤버쉽 함수 f(x) = x가 집합 A에 속하는정도(0~1)실수값

 

• 연산

합집합 : f AuB(x) = max(f A(x), f B(x))

차집합 : f AnB(x) = min(f A(x), f B(x))
차집합: 1 - f A(x)

 

예시

 

퍼지집합의 장점

1. 개념의 중요도 표현함으로 불리언보다 융통성있다.

2. 검색된 문헌 적합성에 따라 순위가 가능하다

 

단점

1. 색인어 가중치를 부여해야만 멤버쉽 함수가 사용가능하다

2. 순위부여 능력은 모든 검색에서 민감하지 못한다.

 

728x90
반응형