반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- Ajax
- 함수
- DOMAPI
- 인덱스
- EC2
- 클러스터링기법
- 질의확장
- Filter
- 행렬
- 자기지도학습
- Ajax프레임워크
- R
- DOM
- Mac konlpy
- JS
- 노마쌤과 즐거운 영어 습관
- 웹폰트
- 명령어
- 벡터
- 신뢰구간
- HTML
- NLP
- 프로토콜
- 매일영어습관
- 노트list
- 파이썬
- 유의수준
- 정수인코딩
- 노마쌤
- CSS
Archives
- Today
- Total
목록정수인코딩 (1)
채니의 개발일기
정수인코딩 정수인코딩이란?(Integer Encoding) - 단어 토큰화 또는 형태소 토큰화를 수행했다면 각 단어에 고유한 정수를 부여 (= 고유한 정수로 매핑) - 중복이 허용되지 않는 모든 단어들의 집합을 만든다. - 이를 단어 집합(Vocabulary)이라고 하며 이를 기반으로 문서를 정수로 인코딩한다. 정수인코딩 방법 - 토큰화(Tokenization): 텍스트 데이터를 단어, 문장 또는 다른 유닛으로 분할합니다. 이 과정에서는 보통 단어를 기준으로 텍스트를 분할 - 단어 빈도수 계산: 토큰화된 결과로부터 각 단어의 빈도수를 계산한다. - 정수 할당: 가장 빈도가 높은 단어부터 순서대로 정수를 할당한다. 예를 들어, 'the'라는 단어가 가장 빈번하게 등장한다면 이에 대응되는 정수로 '1'을 할..
인공지능/자연어처리
2023. 10. 8. 15:37