1.텍스트 정보검색

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

채니의 개발일기

1.텍스트 정보검색 본문

정보학/정보검색

1.텍스트 정보검색

윤채니챈 2023. 6. 8. 14:58

728x90

정보검색: 이용자의 정보요구에 적합한 정보/지식을 다양한 정보원으로부터 찾아내는 모든 과정을 의미

- 정보보자료를 메타데이터로 가공하고, 이용자의 정보 요구를 질의로 변환하는 과정은 정보검색 모형의 핵심

- 정보자료(원 자료, 주로 텍스트)를 메타데이터(색인어)로 가공하여 검색엔진에 저장.

- 이용자 정보요구를 질의로 변환하면 검색엔진에서 검색결과를 이용자에게 전달 , 결과가 정보요구와 부합하지 않은경우 재질의도가능

· 텍스트 처리개요

1960년대: 키워드 기반 패턴 매칭 기법

1960년대 초기에는 자연어 처리 분야의 초기 단계
ELIZA는 1966년에 개발된 자연어 처리 프로그램으로, 사용자와 대화하는 컴퓨터 프로그램입니다. ELIZA는 키워드 기반 패턴 매칭을 사용하여 사용자의 입력에 응답

1970년대: 구문분석과 의미분석 추가

1970년대에는 구문분석과 의미분석이 자연어 처리에 도입되었습니다.
구문분석 : 문장을 구성하는 구조를 분석하는 과정을 의미. 문장의 구성 요소인 주어, 동사, 목적어 등을 인식하여 문장 구조를 이해
의미분석: 단어나 문장의 의미를 이해하고 해석하는 과정으로 단어의 동의어, 상반어, 다의어 등을 인식하고 문맥에 따라 올바른 의미를 추론

1990년대: 대규모 말뭉치(corpus) 구축과 텍스트 처리의 향상

1990년대에는 대규모 말뭉치(corpus)의 구축이 이루어지면서 자연어 처리 기술이 크게 발전

· 자연어처리 두가지방법

1.언어학적분석 ->기호적 특성(Symbolic nature): 언어학적 분석은 언어를 기호와 구조로 다루는 특징을 가짐

문법 규칙, 구문 분석, 의미 해석 등은 기호적인 형태로 표현되며, 언어를 추상적인 기호와 구조로 다룹니다.

2.통계적분석 -> 경험적 특성(Empirical nature): 통계적 분석은 데이터를 기반으로 모델을 학습하고 자연어를 처리.

많은 양의 텍스트 데이터를 수집하고 이를 통계적으로 분석하여 단어의 빈도, 문장 구조, 의미 관계 등을 학습합니다.

· 자연어처리사용되는 언어학적 도구

1.문장분리 2. pos태깅(품사정보부여)

· 자연언어 처리단계

1. 형태소분석: 형태소(morpheme)라는 최소 의미 단위로 분리하는 과정

예시) 나는 책을 읽었다. -> 나/NP + 는/JX + 책/NNG + 을/JKO + 읽/VV + 었/EP + 다/EF + ./SF

2. 구문/통사분석: 주어, 동사, 목적어 등의 문장 성분을 판별해 문장 성분에 따른 문장 구조를 분석하는 과정

문법(grammar)을 이용하여 문장의 구조를 찾아내는 과정이며, 구문 분석기(parser)를 이용해 구문 트리(syntax tree)만듦

구문트리, 출처: https://konlpy-ko.readthedocs.io/ko/v0.4.3/_images/chunking.png

3. 의미분석: 의미분석은 단어가 여러 뜻이 있어 중의성이 있거나 생략된 표현이나 대명사 등이 무엇을 지시하는지를 파악하는 작업
4. 화용분석: 화자의 의도를 파악하는 과정입니다
예시) He is a lion. -> 그는 사자다. / 그는 용감하다. , It's cold in here. -> 여기가 춥다. / 난 추워. / 난 창문을 닫고 싶어.

· 텍스트유형 및 구조

1. 기능에의한 구분: 특정행위위한 자원텍스트(메뉴얼, 지도 등), 사회적교류(편지,이메일 등) 오락(잡지기사,소설등)

2. 이야기체 : 소설,뉴스 등 vs 해설체 :학술논문,기술보고서 등 + 유사학 형식구조(서론-본론-결론)

728x90

'정보학 > 정보검색' 카테고리의 다른 글

3장 텍스트의 자동색인 (2)	2023.06.09
2. 색인 및 시소러스 (2)	2023.06.08
정보검색: Rocchio 알고리즘이란 (0)	2023.06.04
정보검색: Okapi BM25 알고리즘 (0)	2023.06.04
정보검색모형(추론망검색,신경망검색) (0)	2023.06.04

'정보학/정보검색' Related Articles

채니의 개발일기

1.텍스트 정보검색 본문

1.텍스트 정보검색

'정보학 > 정보검색' 카테고리의 다른 글

티스토리툴바