채니의 개발일기

1.텍스트 정보검색 본문

정보학/정보검색

1.텍스트 정보검색

윤채니챈 2023. 6. 8. 14:58
728x90
반응형

정보검색: 이용자의 정보요구에 적합한 정보/지식을 다양한 정보원으로부터 찾아내는 모든 과정을 의미

 

정보검색모형

 

 - 정보보자료를 메타데이터로 가공하고, 이용자의 정보 요구를 질의로 변환하는 과정은 정보검색 모형의 핵심

- 정보자료(원 자료, 주로 텍스트)를 메타데이터(색인어)로 가공하여 검색엔진에 저장.

- 이용자 정보요구를 질의로 변환하면 검색엔진에서 검색결과를 이용자에게 전달 , 결과가 정보요구와 부합하지 않은경우 재질의도가능

 

· 텍스트 처리개요

 

1960년대: 키워드 기반 패턴 매칭 기법

  • 1960년대 초기에는 자연어 처리 분야의 초기 단계
  • ELIZA는 1966년에 개발된 자연어 처리 프로그램으로, 사용자와 대화하는 컴퓨터 프로그램입니다. ELIZA는 키워드 기반 패턴 매칭을 사용하여 사용자의 입력에 응답

1970년대: 구문분석과 의미분석 추가

  • 1970년대에는 구문분석과 의미분석이 자연어 처리에 도입되었습니다.
  • 구문분석 : 문장을 구성하는 구조를 분석하는 과정을 의미. 문장의 구성 요소인 주어, 동사, 목적어 등을 인식하여 문장 구조를 이해
  • 의미분석: 단어나 문장의 의미를 이해하고 해석하는 과정으로 단어의 동의어, 상반어, 다의어 등을 인식하고 문맥에 따라 올바른 의미를 추론

1990년대: 대규모 말뭉치(corpus) 구축과 텍스트 처리의 향상

  • 1990년대에는 대규모 말뭉치(corpus)의 구축이 이루어지면서 자연어 처리 기술이 크게 발전

· 자연어처리 두가지방법

1.언어학적분석 ->기호적 특성(Symbolic nature): 언어학적 분석은 언어를 기호와 구조로 다루는 특징을 가짐

문법 규칙, 구문 분석, 의미 해석 등은 기호적인 형태로 표현되며, 언어를 추상적인 기호와 구조로 다룹니다.

2.통계적분석 -> 경험적 특성(Empirical nature): 통계적 분석은 데이터를 기반으로 모델을 학습하고 자연어를 처리.

많은 양의 텍스트 데이터를 수집하고 이를 통계적으로 분석하여 단어의 빈도, 문장 구조, 의미 관계 등을 학습합니다.

 

 

· 자연어처리사용되는 언어학적 도구

1.문장분리 2. pos태깅(품사정보부여)

 

· 자연언어 처리단계

1. 형태소분석: 형태소(morpheme)라는 최소 의미 단위로 분리하는 과정

 예시) 나는 책을 읽었다. -> 나/NP + 는/JX + 책/NNG + 을/JKO + 읽/VV + 었/EP + 다/EF + ./SF

 

2. 구문/통사분석: 주어, 동사, 목적어 등의 문장 성분을 판별해 문장 성분에 따른 문장 구조를 분석하는 과정

 문법(grammar)을 이용하여 문장의 구조를 찾아내는 과정이며, 구문 분석기(parser)를 이용해 구문 트리(syntax tree)만듦

구문트리, 출처: https://konlpy-ko.readthedocs.io/ko/v0.4.3/_images/chunking.png

3. 의미분석: 의미분석은 단어가 여러 뜻이 있어 중의성이 있거나 생략된 표현이나 대명사 등이 무엇을 지시하는지를 파악하는 작업
4. 화용분석: 화자의 의도를 파악하는 과정입니다
예시) He is a lion. -> 그는 사자다. / 그는 용감하다. , It's cold in here. -> 여기가 춥다. / 난 추워. / 난 창문을 닫고 싶어.


· 텍스트유형 및 구조

1. 기능에의한 구분: 특정행위위한 자원텍스트(메뉴얼, 지도 등), 사회적교류(편지,이메일 등) 오락(잡지기사,소설등)

2. 이야기체 : 소설,뉴스 등 vs 해설체 :학술논문,기술보고서 등 + 유사학 형식구조(서론-본론-결론)

 

 

728x90
반응형