일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- EC2
- 클러스터링기법
- DOM
- JS
- 행렬
- 노마쌤과 즐거운 영어 습관
- HTML
- 인덱스
- 노트list
- 노마쌤
- 신뢰구간
- 유의수준
- Filter
- 벡터
- Ajax프레임워크
- 질의확장
- 매일영어습관
- Mac konlpy
- R
- 명령어
- 프로토콜
- 정수인코딩
- Ajax
- NLP
- 웹폰트
- CSS
- 함수
- DOMAPI
- 파이썬
- 자기지도학습
- Today
- Total
채니의 개발일기
1.텍스트 정보검색 본문
정보검색: 이용자의 정보요구에 적합한 정보/지식을 다양한 정보원으로부터 찾아내는 모든 과정을 의미
- 정보보자료를 메타데이터로 가공하고, 이용자의 정보 요구를 질의로 변환하는 과정은 정보검색 모형의 핵심
- 정보자료(원 자료, 주로 텍스트)를 메타데이터(색인어)로 가공하여 검색엔진에 저장.
- 이용자 정보요구를 질의로 변환하면 검색엔진에서 검색결과를 이용자에게 전달 , 결과가 정보요구와 부합하지 않은경우 재질의도가능
· 텍스트 처리개요
1960년대: 키워드 기반 패턴 매칭 기법
- 1960년대 초기에는 자연어 처리 분야의 초기 단계
- ELIZA는 1966년에 개발된 자연어 처리 프로그램으로, 사용자와 대화하는 컴퓨터 프로그램입니다. ELIZA는 키워드 기반 패턴 매칭을 사용하여 사용자의 입력에 응답
1970년대: 구문분석과 의미분석 추가
- 1970년대에는 구문분석과 의미분석이 자연어 처리에 도입되었습니다.
- 구문분석 : 문장을 구성하는 구조를 분석하는 과정을 의미. 문장의 구성 요소인 주어, 동사, 목적어 등을 인식하여 문장 구조를 이해
- 의미분석: 단어나 문장의 의미를 이해하고 해석하는 과정으로 단어의 동의어, 상반어, 다의어 등을 인식하고 문맥에 따라 올바른 의미를 추론
1990년대: 대규모 말뭉치(corpus) 구축과 텍스트 처리의 향상
- 1990년대에는 대규모 말뭉치(corpus)의 구축이 이루어지면서 자연어 처리 기술이 크게 발전
· 자연어처리 두가지방법
1.언어학적분석 ->기호적 특성(Symbolic nature): 언어학적 분석은 언어를 기호와 구조로 다루는 특징을 가짐
문법 규칙, 구문 분석, 의미 해석 등은 기호적인 형태로 표현되며, 언어를 추상적인 기호와 구조로 다룹니다.
2.통계적분석 -> 경험적 특성(Empirical nature): 통계적 분석은 데이터를 기반으로 모델을 학습하고 자연어를 처리.
많은 양의 텍스트 데이터를 수집하고 이를 통계적으로 분석하여 단어의 빈도, 문장 구조, 의미 관계 등을 학습합니다.
· 자연어처리사용되는 언어학적 도구
1.문장분리 2. pos태깅(품사정보부여)
· 자연언어 처리단계
1. 형태소분석: 형태소(morpheme)라는 최소 의미 단위로 분리하는 과정
예시) 나는 책을 읽었다. -> 나/NP + 는/JX + 책/NNG + 을/JKO + 읽/VV + 었/EP + 다/EF + ./SF
2. 구문/통사분석: 주어, 동사, 목적어 등의 문장 성분을 판별해 문장 성분에 따른 문장 구조를 분석하는 과정
문법(grammar)을 이용하여 문장의 구조를 찾아내는 과정이며, 구문 분석기(parser)를 이용해 구문 트리(syntax tree)만듦
3. 의미분석: 의미분석은 단어가 여러 뜻이 있어 중의성이 있거나 생략된 표현이나 대명사 등이 무엇을 지시하는지를 파악하는 작업
4. 화용분석: 화자의 의도를 파악하는 과정입니다
예시) He is a lion. -> 그는 사자다. / 그는 용감하다. , It's cold in here. -> 여기가 춥다. / 난 추워. / 난 창문을 닫고 싶어.
· 텍스트유형 및 구조
1. 기능에의한 구분: 특정행위위한 자원텍스트(메뉴얼, 지도 등), 사회적교류(편지,이메일 등) 오락(잡지기사,소설등)
2. 이야기체 : 소설,뉴스 등 vs 해설체 :학술논문,기술보고서 등 + 유사학 형식구조(서론-본론-결론)
'정보학 > 정보검색' 카테고리의 다른 글
3장 텍스트의 자동색인 (2) | 2023.06.09 |
---|---|
2. 색인 및 시소러스 (2) | 2023.06.08 |
정보검색: Rocchio 알고리즘이란 (0) | 2023.06.04 |
정보검색: Okapi BM25 알고리즘 (0) | 2023.06.04 |
정보검색모형(추론망검색,신경망검색) (0) | 2023.06.04 |