일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 파이썬
- DOMAPI
- DOM
- Filter
- 질의확장
- 인덱스
- 유의수준
- 벡터
- 클러스터링기법
- HTML
- 함수
- 노마쌤
- R
- JS
- Ajax프레임워크
- 신뢰구간
- CSS
- Mac konlpy
- 노마쌤과 즐거운 영어 습관
- 웹폰트
- NLP
- 매일영어습관
- 행렬
- 정수인코딩
- 노트list
- Ajax
- 프로토콜
- EC2
- 명령어
- 자기지도학습
- Today
- Total
채니의 개발일기
모수와 통계량(기댓값,모평균,표본평균,분산,편차) 본문
모집단: 분석 대상이 되는 전체 집단의미
모수 : 모집단의 특성을 나타내는 값이나 변수.
- 예를 들어, 모집단의 평균, 분산, 비율, 표준편차 등은 모수라고 함.모수는 모집단을 전수조사해야만 알 수 있는 값이므로
보통은 표본을 이용하여 모수를 추정하거나 검정하는 방법을 사용함
- 데이터 분석 목표: 추출된 표본을 활용해 모집단을 추론
통계랑: 표본의 특성을 나타내는 수치 ex)표본평균
기댓값: 확률변수의 평균적인 값을 의미
- 이산형확률변수 기댓값 구하기
- xi는 확률변수 X가 가질 수 있는 값이고, p(xi)는 그 값이 나올 확률
- 각 값 p(xi) 에 확률을 곱한 후 모두 더한 값으로 구할 수 있다.
- 예를 들어, 주사위를 던져 나오는 수를 확률변수 X라고 하면, E(X) = 1/6 * 1 + 1/6 * 2 + ... + 1/6 * 6 = 3.5 이다.
- 연속형 확률변수 기댓값 구하기
- 확률밀도함수에 x를 곱한 후 적분한 값으로 구할 수 있다.
- 예를 들어, 확률밀도함수가 f(x) = x/2 (0 < x < 2) 인 확률변수 X라고 하면, E(X) = ∫(x/2) * x dx (0부터 2까지) = 4/3 가된다.
* 산술평균은 주어진 데이터 집합의 값들의 합을 데이터의 개수로 나눈 값. 일반적으로 데이터의 중심 경향성을 나타내는 척도로 사용되며, 평균이라고도 함
- 모평균: 모집단에 대한 산술평균
- 표본평균: 표본에 대한 산술평균
- N은 모집단의 크기, n은 표본의 크기, X_i는 i번째 개체의 값
예를 들어, 다음과 같은 모집단과 표본이 있다고 가정해보겠습니다.
- 모집단: {2, 4, 6, 8, 10}
- 표본: {4, 6, 8}
이때, 모평균과 표본평균을 구하면 다음과 같습니다.
분산, 편차, 표준편차 산포도를 나타내는 통계량.
* 산포도란 자료의 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도
산포도가 작으면 자료가 평균에 가깝게 모여 있고, 산포도가 크면 자료가 평균에서 멀리 흩어져 있다.
- 편차 : 자료의 값에서 평균을 뺀 값. = 편차는 각 데이터 값이 평균으로부터 얼마나 떨어져 있는지를 나타내는 값
편차는 자료가 평균과 얼마나 차이가 나는지를 보여준다. 편차의 부호는 자료가 평균보다 큰지 작은지를 나타내며 편차의 합은 항상 0이다.
- 분산: 확률변수가 기댓값으로 부터 퍼져있는 수준을 표현하는 수치
= 분산은 전체 데이터가 평균으로부터 얼마나 멀리 퍼져 있는지를 나타내는 측도
- 분산은 편차의 부호를 없애고, 편차의 크기를 강조하기 위해 사용. 분산은 자료의 단위의 제곱으로 나타내며, 분산이 클수록 자료가 흩어져있다.
- 표준편차 : 분산의 제곱, 표준편차가 클수록 자료가 흩어져 있음.
표준편차를 사용하는이유:
예를 들어, 다음과 같은 자료가 있다고 가정해보겠습니다.
- 자료: {3, 5, 7, 9, 11}
*** 표준편차는 **자료의 산포도**를 나타내는 통계량으로, 자료의 값들이 평균으로부터 얼마나 떨어져 있는지를 측정합니다. 표준편차가 작으면 자료가 평균에 가깝게 모여 있고, 표준편차가 크면 자료가 평균에서 멀리 흩어져 있습니다.
표준편차를 사용하는 이유는 다음과 같습니다.
- 편차의 평균을 사용하지 않는 이유: 편차란 자료의 값에서 평균을 뺀 값입니다. 편차의 합은 항상 0이므로, 편차의 평균도 0이 됩니다. 따라서 편차의 평균은 산포도를 나타내지 못합니다.
- 절대편차의 평균을 사용하지 않는 이유: 절대편차란 편차의 절댓값입니다. 절대편차의 평균은 산포도를 나타낼 수 있지만, 절댓값을 사용하면 산술적인 불편함이 있습니다. 예를 들어, 절댓값 부호 안에 들어있는 값이 음수인지 양수인지 확인해야 하고, 미분이나 적분과 같은 연산을 할 수 없습니다.
- 분산을 사용하지 않는 이유: 분산은 편차의 제곱의 평균입니다. 분산은 편차의 부호를 없애고, 편차의 크기를 강조하기 위해 사용됩니다. 하지만 분산은 자료의 단위의 제곱으로 나타나므로, 자료와 비교하기 어렵고 직관적이지 않습니다. 예를 들어, 길이를 cm로 측정한 자료의 분산은 cm^2로 나타납니다.
- 표준편차를 사용하는 이유: 표준편차는 분산의 양의 제곱근입니다. 표준편차는 분산의 단위를 원래 자료의 단위로 바꾸고, 분산으로 인한 왜곡을 줄여줍니다. 따라서 표준편차는 자료와 비교하기 쉽고 직관적입니다.
'수학 > 통계학' 카테고리의 다른 글
데이터분포 탐색하기 (분포의 치우침, 왜도,첨도) (0) | 2023.07.23 |
---|---|
연속형 확률분포(정규분포, 표준정규분포): 정규분포, 지수분포, 표준정규분포, 카이제곱,F분포 (0) | 2023.07.05 |
중심극한정리 (0) | 2023.07.03 |
확률분포, 이산형확률분포(확률질량함수,베르누이시행) (0) | 2023.06.17 |
확률(경우의수, 순열,조합,중복순열,중복조합)+확률변수(시행,사건,확률변수, 확률함수) (0) | 2023.06.08 |