정보학/정보검색

4장. 텍스트요약

윤채니챈 2023. 6. 13. 17:47
728x90
반응형

텍스트 요약: 전문형태의 텍스트 내용을 축약 형태로 표현하는 작업

 

텍스트 요약 과정

1. 분석 : 텍스트를 분석하여 시스템의 내부 형식으로 표현

2. 변환 : 내부적인 표현으로 변환

3. 통합: 요약문을 보다 자연스럽게 표현

 

 


텍스트 요약에 관한 기초 연구

1 .Luhn의 연구

 - 텍스트 요약의 초기 접근 방법 

 - 문장의 중요도 :문서내 각 단어의 중요도와 문장의 상대적 위치에 의해 결정

 

1. 단어의출현빈도(기능어제외) 한 다음 일정 빈도 이상의 단어 주요어 선정

2. 두개의 주요어가 함께 출현하되 사이에 오는 단어가 네 단어 이하 문장 선택

3. 클러스터: 선택된 문장 안에서 사이에 오는 단어가 네 단어 이하로 인접해서 출현한 주요어들의 집합

각 클러스터 i의 중요도 Ri를 산출

Ri=p×piqiR_i = \frac{p \times p_i}{q_i}

4. 문장의 중요도 = 클러스터의 중요도(가장 큰 값 선택)

5. 기준치 이상의 중요 문장을 순서대로 요약문 구성

 

 2. Edmunson의 연구

Edmunson의 연구에서 문장의 중요도는 다음과 같은 기준으로 측정

1. 단서어 (cue words): 학습문헌들에서 추출한 단서어들을 사용합, 해당 주제와 관련성이 높은 단어로서 문장의 중요도를 나타내는 역할2. 주요어 (key words): 주요어 사전에 수록된 단어들을 사용. 주요어는 주제를 대표하고 중요한 의미를 가진 단어로서 문장의 중요도를 판단하는 데에 활용

3.표제어 (title words): 문서의 제목이나 부제 등에 포함된 단어들을 사용

4.문장 위치 (sentence position): 문서에서의 문장 위치

 

w(s)=αC(s)+βK(s)+γT(s)+λL(s)w(s) = \alpha C(s) + \beta K(s) + \gamma T(s) + \lambda L(s)

• w(s)는 문장 s의 중요도

• C(s)는 문장 s에 단서어가 포함된 빈도

• K(s)는 문장 s에 주요어가 포함된 빈도

• T(s)는 문장 s에 표제어가 포함된 빈도

• L(s)는 문장 s의 위치

• \alpha, \beta, \gamma, \lambda는 사용여부에 정도에 따라 부여되는 파라미터 

 


텍스트 요약 기법의 유형

 

• 문장 추출에 의한 요약 : 문장의 중요도 순위에 따라 가장 중요한 문장들로 구성한 요약

 

1. Kupie등 요약 기법

- 문장의 중요도를 측정하고, 중요도가 큰 n개의 요약 문장을 선정하는 요약 과정을 제안 (연구학습진단: 188건 과학기술 문헌의 텍스트와 요약문으로 구성)

 

- 5개의 자질 유형

 1. 문장 길이: 짧은길이(5단어 이하)문장은 요약문으로 선정하지 않는다.
 2. 고정 단어구: 미리 정의된 단어구 사전을 사용하여 문장에 포함된 고정 단어구의 수를 나타냄.

 예를 들어, "결론적으로", "중요한 점은", "핵심은" 등이 고정 단어구가 된다.
 3.문장/문단 위치: 문서의 시작 부분이나 끝 부분에 있는 문장이나 문단은 다른 부분에 있는 것보다 중요하다고 가정.

  예를 들어, 첫 번째 문단이나 마지막 문단에 있는 문장이 요약문에 포함될 가능성이 높다.
 4.주제어: 문서에 출현한 단어의 출현 빈도를 이용하여 선정

  예를 들어, "텍스트", "요약", "기법" 등이 주제어가 될 수 있습니다.
 5. 대문자 단어: 문장에 포함된 대문자로 시작하는 단어의 수를 나타낸다.

   예를 들어, "Text", "Summarization", "Techniques" 등이 대문자 단어가 될 수 다.

 

****베이즈 정리

  - 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리

  - 사전 확률은 어떤 사건에 대한 우리의 믿음이나 지식을 나타내는 확률

  - 사후 확률은 어떤 증거나 데이터를 관찰한 후에 업데이트된 확률

  - 베이즈 정리는 사전 확률로부터 사후 확률을 구할 수 있는 공식을 제공한다.

 

P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A)P(A)}{P(B)}



- P(A|B)는 B가 주어졌을 때 A의 사후 확률, P(B|A)는 A가 주어졌을 때 B의 조건부 확률, P(A)는 A의 사전 확률, P(B)는 B의 전체 

 

 

베이즈 정리를 활용한 자질 F1,...,Fk가 주어졌을때 문장 s가 S에 속할 확률자질 F1,...,Fk가 주어졌을때 문장 s가 S에 속할 확률

2. 맹성형 & 장동현의 요약기법

- 기계학습 방법을 적용하여 자동요약실험 

- 텍스트 구성요소 판별 기법과 자질을 이용하여 문서 요약 시스템을 개발하고 평가
- 요약과정 1.텍스트 구성요소 식별 2. 자질별 요약 문장 확률계산 3.자질별 증거 결합 4. 중복 문장의 제거 등의 작업포함


 • 단서어(cue words): 미리 정의된 단어구 사전을 사용하여 문장에 포함된 단서어의 수를 나타낸다.

   예를 들어, "결론", "중요", "핵심" 등이 단서어가 될 수 있습니다.
• 위치(position): 문서의 시작 부분이나 끝 부분에 있는 문장은 다른 부분에 있는 것보다 중요하다고 가정 
• 중심성(centrality): 문장이 문서 전체와 얼마나 유사한지를 나타냅니다.

  예를 들어, TF-IDF 값을 이용하여 문장과 문서 간의 코사인 유사도를 계산할 수 있습니다.
• 표제어와의 유사도(similarity with title): 문장이 문서의 표제(키워드)와 얼마나 유사한지를 나타낸다.

 

3. 요약문의 수정

 - 가독성을 향상시키기 위해 다양한 접근 방식을 사용함

대용어처리, 중복어삭제등의 문장수정, 의미중복삭제, 두문장 결합등 -> 가독성향상

 

•표층적수정: 대용어 처리, 중복어 삭제, 의미 중복 삭제, 두 문장의 결합 

 - 대용어 처리는 비슷한 의미를 가지는 단어들을 하나의 표준화된 단어로 대체

 -중복어 삭제는 같은 단어가 반복되는 경우 하나의 단어만을 남기고 삭제

 -의미 중복 삭제는 동일한 의미를 가지는 구문이 반복되는 경우 하나의 구문만을 남기고 삭제

 - 두 문장의 결합은 두 개의 문장을 하나의 문장으로 합치는 것

 

• 심층적 수정 

 -Pollock과 Zamora (1975)는 응집성 기준을 사용하여 요약문의 가독성을 향상시키는 방법을 제안

 - Mathic은 이전보다 더 높은 수준의 구문 분석 방법을 사용하여 문장을 수정하는 방법

 

• 5가지 수정규칙: 등위접속세 의한 문장결합, 종속접속사에 의한 문장결합, 도표참조 내용 변형에 의한 문장수정, 참고문헌 계수에 의한 문장생성

 

4. 담화구조를 이용한 요약

*** 응집성(coherence): 텍스트나 문서의 구성 요소들이 상호 연결되어 일관성을 갖고 함께 동작하는 정도

 

1.의미적 응집성 기반 요약 

방법 1. 노드,링크활용 -> 노드:텍스트 요소를 나타냄, 링크: 이들 요소간의 관계

   - 문서에서 특정한 주제에 대한 설명, 중요한 사실, 핵심 아이디어 등을 노드로 식별가능

   - 노드를 요약문에 포함시킴으로써 문서의 핵심 내용을 간결하게 전달가능

방법 2. 어휘사슬 : 주제를 특정짓는 일련의 관련어

  - 주제를 특정짓는 일련의 관련어 어휘사슬은 문서에서 특정한 주제를 특정짓는 연결된 단어나 구문의 일련.

  - 이들 단어나 구문은 문서의 의미적 일관성과 관련이 있으며, 이를 요약문에 포함시킴으로써 원본 문서의 주요 내용을 간결하게 전달가능

 

2. 응집성 그래프 이용한 기법

  - TF.IDDF 가중치를 가짐 -> 가중치들로 구성되는 초기 활성화 벡터에서 동일한 단어는 같은 가중치를 부여

 

3.어휘사슬을 이용한 기법: 응집성관계를 표현 - 시소러스 사용

 - 어휘사슬(lexical chain): 문서나 문단에서 의미적으로 연관된 단어들의 집합,문서의 주제나 요약을 파악시 사용

 - 응집성 관계를 활용하여 문장이나 단어들을 연결하여 어휘사슬을 생성하는 방법

-  WordNet이라는 어휘의미망을 이용하여 어휘사슬을 생성하는 방법.   

 - 초강력관게, 강력관계, 중강력 관계를 활용한 어휘사슬 생성

 

1.Hirst and st-Onge의 어휘사슬 생성알고리즘

     • 초강력 관계(strongest relation): 동일한 단어가 반복되는 경우

       예를 들어, "The dog barked at the dog"에서 "dog"는 초강력 관계를 가집니다.
       강력 관계(strong relation): 동의어, 반의어, 복합어, 구 등이 있는 경우

       예를 들어, "The dog barked at the canine"에서 "dog"와 "canine"은 강력 관계를 가집니다.
       중강력 관계(medium strength relation): 하이퍼니밈(상위어), 하이포니밈(하위어), 메로니밈(부분어), 홀로니밈(전체어) 등이 있          는 경우

       예를 들어, "The dog barked at the animal"에서 "dog"와 "animal"은 중강력 관계를 가집니다.
   

2. Barzilay and Elhadad의 요약알고리즘

 

요약과정

1.텍스트 세그먼트분할 : 먼저 원본 텍스트를 의미있는 세그먼트(문장, 단락 등)로 분할

2. 세그먼트별 어휘사슬생성 : 단어들 간의 관계를 시소러스를 활용하여 파악하는 과정 ( 반복, 동의, 상위어, 반의어, 전체 등의 개념관계를 활용)

3. 응집도 높은 어휘사슬 선정:  각 세그먼트에서 생성된 어휘사슬 중에서 응집도가 높은 어휘사슬을 선정(중요한 정보를 담고 있는 어휘사슬이 응집도가 높게 형성될 가능성이 높다)

4.주요 문장 추출 : 선정된 어휘사슬을 기반으로 원본 텍스트에서 해당 세그먼트에 해당하는 주요 문장들을 추출

 

-Hirst and st-Onge와 마찬가지로 초강력,강력, 중강력으로 구분되며 wordnet 시소러스 연결 유형

 

5. 구조적 응집성 기반 요약기법

 - 문장,절들간의 관계를 기술(의미적 응집성은 단어들간의 관게에 기초한다)

 - 수사구조이론 : 두 개의 중복되지 않는 텍스트 조각을 수사관계로 연결하는 구조

 

 - Marcu요약 : 분석결과를 수사구조트리로 표현함 

   • RST 기반 요약과정 

     1. 수사구조 파싱 후 문장을 절 단위로 분석합니다.

     2.수사구조 트리(RS 트리)를 생성( RS 트리는 문장이나 절들 간의 관계를 표현하는 트리 구조)

     3. RS 트리를 구성하는 텍스트 단위의 중요도 점수를 산출 한다.

        이를 통해 어떤 부분이 요약에서 더 중요한 역할을 하는지를 판단가능

 

6.지식기반요약

 - 주로 특정한 주제 영역의 구조화된 지식베이스를 이용하며 텍스트를 분석하고 요약 문장생성 방법

 - FRUMP 시스템:  스크립트 형식으로 표현된 지식베이스를 활용하여 사건을 판단하고 요약에 활용

    1. 명시적참조 :지식베이스에서 특정 사건이나 정보를 직접 참조하는 것

       명시적 참조는 텍스트 내에서 직접적으로 언급된 정보를 활용하는 방식입니다.

    2. 암시적 참조 : 지식베이스에서 직접적으로 언급되지 않은 정보를 추론하여 활용

     - 지식베이스 내의 다른 사건이나 정보를 통해 암시적으로 연결되거나 의미적으로 관련된 정보를 찾아내어 요약에 활용

     - 예를 들어, "A가 매일 같은 카페에서 커피를 마신다"라는 정보가 있을 때, 암시적으로 "A는 커피 좋아하는 사람이다"라는 정보를 추론하여 요약 문장에 반영할 수 있다.

      - 암시적 참조는 지식베이스에 포함되지 않은 정보를 활용하여 요약을 수행하는 방식입니다.

    3. 사건 유발 활성화

    - 지식베이스 내에서 사건들이 연결되는 과정을 의미

    - 어떤 사건이 다른 사건을 유발하거나 활성화시킬 수 있으며, 이를 통해 요약 과정에서 텍스트의 흐름을 이해하고 중요한 사건을 추출할 수 있다.

  - 예를 들어, "A가 B를 만났다"라는 사건이 있을 때, 이 사건이 "C와 협력했다"라는 사건을 유발한다고 가정할 수 있다. 

  - 이렇게 사건들 간의 유발 관계를 파악하여 요약 문장에 포함시킬 수 있습니다.

 

- SALMON 시스템: 의미적 네트워크 형식으로 표현한 문법을 사용하여 요약수행

    텍스트의 의미적인 구조를 분석하고, 문법에 따라 문장을 생성하여 요약

- price and jone의 기술논문 요약시스템 : '의미역학'을 찾고 템플리트를 채운다

   의미역학: 문장에서 주어, 목적어, 동사 등의 역할과 관계를 분석하여 의미적인 정보를 추출하는 방법

 

728x90
반응형