일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 행렬
- 정수인코딩
- Filter
- 클러스터링기법
- 노트list
- 함수
- 매일영어습관
- HTML
- JS
- Ajax
- 자기지도학습
- 벡터
- 프로토콜
- DOM
- 웹폰트
- Mac konlpy
- Ajax프레임워크
- NLP
- 명령어
- 파이썬
- 노마쌤
- CSS
- 노마쌤과 즐거운 영어 습관
- DOMAPI
- 유의수준
- 신뢰구간
- R
- EC2
- 인덱스
- 질의확장
- Today
- Total
채니의 개발일기
3-3장. 텍스트의 자동색(포아송분포모형,2-포아송 분포모형, 점유분포에 기반한 단어집중도 모형) 본문
단어의 출현빈도에 따른 확률분포를 이용하는 방법
- 포아송 분포 모형
- 2-포아송 분포 모형
- 점유 분포에 기반한 단어집중도 모형
확률색인: 기본적으로 주제어와 비주제어의 분포 패턴이 다르다는 가설에 근거
포아송분포모형
- 단어가 전체 문헌집단에 랜덤하게 출현하는 경우를 설명하는 모형.
- 주로 이러한 패턴으로 나타나는 단어는 비주제어
- 비주제어(non-specialty word)의 분포 모형은 포아송 분포 모형을 사용
***포아송이란
- 단위 시간 또는 단위 공간에서 발생하는 사건의 수를 확률 분포로 나타낸 것 = 일정한 시간 또는 공간에서 발생하는 사건의 수를 나타내는 이산확률분포
- 예를 들어, 1시간 동안 전화가 몇 통 왔는지, 1일 동안 교통사고가 몇 건 발생했는지
- 사건이 독립적으로 발생하며, 발생 간격이 일정하지 않은 경우에 적용
- 이항분포의 특수한 경우 이항분포에서 n(발생횟수)이 매우 크고 p(확률)이 매우 작은 경우에 λ=np인 포아송 분포로 근사가능
포아송 분포 모형
- 포아송 분포의 확률밀도함수, 평균, 분산은 모두 λ라는 매개변수에 의해 결정됨
- λ는 단위 시간이나 단위 공간에서 사건이 발생할 평균 횟수
- 문헌집단 내 총 출현빈도가 R인 단어가 A개의 문헌들 속에 랜덤하게 분포되어 있는 현상을 포아송 분포 함수로 나타낸 것.
특정한 단어 w가 한 문헌에 k번 출현할 확률 P(k)는 아래와 같다.
P(k) =
- λ는 단어 w가 문헌집단 내 각 문헌에 출현한 평균빈도
- λ = R / A(문헌집단 내 총 출현빈도/ 문헌집단 내 문헌 총수)
2- 포아송 분포모형
- 두개의 포아송 분포를 결합한것
- 주제어의 분포 모형
- 문헌집단을 특정한 주제에 적합한 클래스와 부적합한 클래스로 구분하면 각 클래스 내에서의 단어들의 출현빈도는 포아송 분포를 따른다
***2-포아송
- 특정한 주제어 w가 한 문헌에 k번 출현할 확률 P(k)는 2-포아송 분포의 세 파라미터 π, λ1, λ2 값으로 추정
- π는 적합문헌 클래스에 속하는 문헌의 비율 - π = (적합 문헌 수) / (전체 샘플 문헌 수)
- 주어진 샘플 문헌 데이터를 사용하여 주제어 w의 적합 문헌에서의 평균 출현빈도 λ₁를 추정
예를 들어, 주어진 샘플 문헌 데이터에서 적합 문헌에서 주제어 w의 출현 횟수를 세고, 이를 적합 문헌의 총 수로 나누어 λ₁를 추정
λ₁ = (주제어 w의 출현 횟수) / (적합 문헌 수)
- 주어진 샘플 문헌 데이터를 사용하여 주제어 w의 부적합 문헌에서의 평균 출현빈도 λ₂를 추정
예를 들어, 주어진 샘플 문헌 데이터에서 부적합 문헌에서 주제어 w의 출현 횟수를 세고, 이를 부적합 문헌의 총 수로 나누어 λ₂를 추정
λ₂ = (주제어 w의 출현 횟수) / (부적합 문헌 수)
- 추정된 π, λ₁, λ₂ 값을 공식에 대입하여 주제어 w가 한 문헌에 k번 출현할 확률 P(k)를 계산합니다
중복도 : 두 개의 문헌 클래스 간의 중복 정도를 나타내는 지표
- 두 클래스의 분포함수의 평균인 λ₁과 λ₂의 차이에 의해 계산됩니다.
- 중복도 z = (λ₁ - λ₂) / (√(λ₁ + λ₂))
- 이 식에서 중복도는 두 클래스의 분포함수의 평균 값인 λ₁과 λ₂의 차이에 비례하며,
두 클래스의 분포함수의 평균인 과 의 차이가 클수록
- 훨씬 큰 값을 가질수록 = 값이 클수록 =단어 는 좋은 색인어로 판정
- 중복도는 단어가 적합 문헌 클래스와 부적합 문헌 클래스를 가능한 한 멀리 분리시키는 능력을 나타내며, 이는 단어의 색인어로서의 가치를 판정하는 데 사용
- 좋은 색인어는 중복도를 최대화시키고, 적합 문헌과 부적합 문헌을 잘 구분할 수 있는 특징을 가지는 단어이다.
'정보학 > 정보검색' 카테고리의 다른 글
7장 정보검색모형(벡터공간 검색,LSI기반검색) (0) | 2023.06.13 |
---|---|
3-4장. 언어학적기법(불용어제거기법,형태소분석기법,n-gram) (0) | 2023.06.13 |
3-2장. 텍스트의 자동색인(단어의 문헌분리값,신호량가중치 (0) | 2023.06.12 |
8장 검색서능향상(지역적 질의확장 (0) | 2023.06.11 |
8장. 검색성능향상전략(질의확장,전역적질의확장) (0) | 2023.06.11 |