채니의 개발일기

3-3장. 텍스트의 자동색(포아송분포모형,2-포아송 분포모형, 점유분포에 기반한 단어집중도 모형) 본문

정보학/정보검색

3-3장. 텍스트의 자동색(포아송분포모형,2-포아송 분포모형, 점유분포에 기반한 단어집중도 모형)

윤채니챈 2023. 6. 13. 01:38
728x90
반응형

단어의 출현빈도에 따른 확률분포를 이용하는 방법

  • 포아송 분포 모형
  • 2-포아송 분포 모형
  • 점유 분포에 기반한 단어집중도 모형

확률색인: 기본적으로 주제어와 비주제어의 분포 패턴이 다르다는 가설에 근거

 

포아송분포모형

- 단어가 전체 문헌집단에 랜덤하게 출현하는 경우를 설명하는 모형.

- 주로 이러한 패턴으로 나타나는 단어는 비주제어

- 비주제어(non-specialty word)의 분포 모형은 포아송 분포 모형을 사용

***포아송이란

- 단위 시간 또는 단위 공간에서 발생하는 사건의 수를 확률 분포로 나타낸 것 = 일정한 시간 또는 공간에서 발생하는 사건의 수를 나타내는 이산확률분포

- 예를 들어, 1시간 동안 전화가 몇 통 왔는지, 1일 동안 교통사고가 몇 건 발생했는지  

 - 사건이 독립적으로 발생하며, 발생 간격이 일정하지 않은 경우에 적용

 - 이항분포의 특수한 경우 이항분포에서 n(발생횟수)이 매우 크고 p(확률)이 매우 작은 경우에 λ=np인 포아송 분포로 근사가능

 

포아송 분포 모형

 - 포아송 분포의 확률밀도함수, 평균, 분산은 모두 λ라는 매개변수에 의해 결정됨

 - λ는 단위 시간이나 단위 공간에서 사건이 발생할 평균 횟수
 - 문헌집단 내 총 출현빈도가 R인 단어가 A개의 문헌들 속에 랜덤하게 분포되어 있는 현상을 포아송 분포 함수로 나타낸 것.

 

특정한 단어 w가 한 문헌에 k번 출현할 확률 P(k)는 아래와 같다.
P(k) = 

λ k e - λ k !


- λ는 단어 w가 문헌집단 내 각 문헌에 출현한 평균빈도

- λ = R / A(문헌집단 내 총 출현빈도/ 문헌집단 내 문헌 총수)

 

2- 포아송 분포모형

- 두개의 포아송 분포를 결합한것

- 주제어의 분포 모형

- 문헌집단을 특정한 주제에 적합한 클래스와 부적합한 클래스로 구분하면 각 클래스 내에서의 단어들의 출현빈도는 포아송 분포를 따른다

 

***2-포아송

- 특정한 주제어 w가 한 문헌에 k번 출현할 확률 P(k)는 2-포아송 분포의 세 파라미터 π, λ1, λ2 값으로 추정

- π는 적합문헌 클래스에 속하는 문헌의 비율 - π = (적합 문헌 수) / (전체 샘플 문헌 수)

- 주어진 샘플 문헌 데이터를 사용하여 주제어 w의 적합 문헌에서의 평균 출현빈도 λ₁를 추정

  예를 들어, 주어진 샘플 문헌 데이터에서 적합 문헌에서 주제어 w의 출현 횟수를 세고, 이를 적합 문헌의 총 수로 나누어 λ₁를 추정

   λ₁ = (주제어 w의 출현 횟수) / (적합 문헌 수)

- 주어진 샘플 문헌 데이터를 사용하여 주제어 w의 부적합 문헌에서의 평균 출현빈도 λ₂를 추정

  예를 들어, 주어진 샘플 문헌 데이터에서 부적합 문헌에서 주제어 w의 출현 횟수를 세고, 이를 부적합 문헌의 총 수로 나누어 λ₂를 추정

  λ₂ = (주제어 w의 출현 횟수) / (부적합 문헌 수)

- 추정된 π, λ₁, λ₂ 값을 공식에 대입하여 주제어 w가 한 문헌에 k번 출현할 확률 P(k)를 계산합니다

P ( k ) = π λ 1 k ! e - λ 1 + ( 1 - π ) λ 2 k ! e - λ 2

 

중복도 : 두 개의 문헌 클래스 간의 중복 정도를 나타내는 지표

- 두 클래스의 분포함수의 평균인 λ₁과 λ₂의 차이에 의해 계산됩니다.

- 중복도 z = (λ₁ - λ₂) / (√(λ₁ + λ₂))

- 이 식에서 중복도는 두 클래스의 분포함수의 평균 값인 λ₁과 λ₂의 차이에 비례하며,

   두 클래스의 분포함수의 평균인  의 차이가 클수록

  •   훨씬 큰 값을 가질수록  = 값이 클수록 =단어 는 좋은 색인어로 판정

- 중복도는 단어가 적합 문헌 클래스와 부적합 문헌 클래스를 가능한 한 멀리 분리시키는 능력을 나타내며, 이는 단어의 색인어로서의 가치를 판정하는 데 사용

 - 좋은 색인어는 중복도를 최대화시키고, 적합 문헌과 부적합 문헌을 잘 구분할 수 있는 특징을 가지는 단어이다.

728x90
반응형