일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- X윈도우
- Class
- OOP
- Reference Type
- 백준
- systemd
- Physical Scheme
- Entity
- Operator
- 자바
- 리눅스 마스터 1급
- Binary Search
- Mac
- Polymolphism
- 리눅스
- Entity Set
- selenium
- dbms
- External Scheme
- Inheritance
- preprocessing
- literal
- BFS
- 셀레니움
- X.org
- 리눅스 기초
- Java
- python
- zsh
- Unity
- Today
- Total
Byeol Lo
[ADP] 4장 데이터 분석 - 통계 분석 본문
조사 단위
- 전수조사, 모집단 조사(census)
- 표본조사
- 단순랜덤추출: 임의의 난수를 통해 원소 추출
- 계통추출: 일련의 번호를 부여한 후 n 구간으로 나누어 거기서 n개를 뽑음
- 집락추출: 모집단을 cluster(homogeneous 함) 으로 나누어 해당 cluster에서 표본 선택
- 층화추출: 모집단을 stratum(heterogeneous 함)으로 나누어 각 stratum에서 표본 선택
자료의 종류
- Categorical Data
- 명목 척도(nominal scale): 연산, 비교 불가
- 순서 척도(ordinal scale): 비교 가능
- Numerical Data
- 구간 척도(interval scale): 비교, 덧셈, 뺄셈 가능
- 비율 척도(ratio scale): 비교, 덧셈, 뺄셈, 곱셈, 나눗셈 가능
Statistical Analysis
추론 통계에서 어떤 대상 집단의 모수가 무엇인지 추정을 할 수 있다. 이때 가설 검정을 통해서 수행한다. 그전에 확률에 대한 것부터 정리하자(수리 통계를 했다면 굳이 안 봐도 됨)
Probability의 공리
- 모든 사건 E의 확률 값 P(E) 은 [0, 1]에 포함된다
- Probability Space의 확률은 1이다
- 서로 배반인 사건들의 합집합의 확률은 각 사건들의 확률의 합이다
조건부 확률
사건 A가 일어났을 때 사건 B의 확률을 조건부 확률은 다음과 같이 나타낼 수 있다.
$$P(B|A) = \frac{P(A \bigcap B)}{P(A)}$$
확률 변수
특정 사건에 대한 실수값(mapping)의 관계를 나타내는 변수를 말함. 즉, domain이 sample space이며, range가 ℝ의 부분집합인 함수이다. 이 확률 변수에는 이산형 확률변수와 연속형 확률변수가 있다. 이때 확률의 크기를 나타내는 함수를 나타낼 수 있는데,
- discrete r.v.에서의 p.m.f.: $P(X = x_{i}) = p_{i} \quad i = 1, 2, 3, \dots$
- continuous r.v.에서의 p.d.f.: $P( a ≤ X ≤ b ) = \int_a^b P(X = x) dx$
결합 확률 분포
이산형인 경우에 p.m.f.를 다음과 같이 정의한다.
$$P(X = x, Y = y) = P(Y = y | X = x)P(X = x) = P(X = x | Y = y)P(Y = y)$$
연속형인 경우에 p.d.f.를 다음과 같이 정의 한다.
$$ f_{X, Y}(x, y) = f_{Y|X}( y|x ) f_X (x) $$
기댓값, 분산, 백분위수는 생략한다.
추정과 가설검정
모집단의 확률 분포를 알기 위해 해당 확률 분포의 특징을 표현할 수 있는 값들을 모수(parameter)를 찾아야 한다. 추출된 표본을 기반으로 모수에 대한 추정을 하며, 추정은 다음 두가지로 나뉜다.
- 점추정(point estimation): 가장 참이라고 여겨지는 하나의 모수의 값을 선택하는 것, 모수가 특정 값일 때 자주 씀
- 구간추정:
점추정
우선 모집단의 평균, 분산 등의 값들을 추정하기 위해 표본에서의 정보를 얻어야 할 것이다.
구간추정
일정한 크기의 신뢰 수준(confidence level, 95%, 99%)으로 모수가 특정한 구간(confidence interval)에 있을 것이라고 선언하는 것. 모집단이 정규분포를 따를 때와 안 따를 때, 그리고 모분산이 알려져 있을때, 안알려져 있을때로 나누어 구간 추정이 가능할 것이다.
가설검정
귀무가설 H_0과 대립가설 H_1(우리가 가정하는, 일 것이다 라는 주장)을 설정하여, 표본 관찰 또는 실험을 통해서 H_0 과 H_1 중 하나를 선택하는 것이다. 검정에 사용되는 통계량을 검정통계량(test statistic, T(X))라고 하며, 귀무가설이 사실일 때, 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률을 p-value라고 한다.
이때 기준값 유의수준(significance level, α) 보다 작으면 귀무가설이 나올 가능성이 적다고 판단하여 귀무가설을 기각하며, 유의수준은 보통 0.01, 0.05, 0.1 중 한 개의 값을 사용한다. 나오는 용어들은 다음과 같다.
- p-value(유의 확률): 귀무가설이 맞다고 가정할 때(귀무가설의 분포를 따른다고 가정하고) 얻은 결과(얻은 데이터, 추출한 샘플)보다 극단적인 결과가 실제로 관측될 확률(양측 검정, 단측 검정일 때 맨 끝 꼬리 부분의 확률을 말하는 것)
- significance level: p-value가 significance level 보다 크거나 같다면, 극단적인 값, 대립적인 값이 나타날 확률이 더 높음을 의미하는 것이고, 이는 결국 H_0을 기각하게 됨을 의미한다. 따라서 significance는 H_0의 기각하는 기준을 나타냄을 알 수 있다(혹은 H_1을 채택하는 기준).
- critical region: 귀무가설 H_0을 기각하는 통계량의 영역
오류
H_0이 사실이라고 판정 | H_0이 사실이 아니라고 판정 | |
H_0이 사실임 | 옳음(1 - α) | 제 1종 오류 (type 1 error: α) |
H_0이 사실이 아님 | 제 2종 오류(type 2 error: β) | 옳음(1 - β) |
두 오류는 서로 trade-off 관계에 있기 때문에 1종 오류 alpha를 고정(0.1, 0.05, 0.01로 함)시켜서 2종 오류가 최소가 되도록 기각역을 설정한다(1종 오류를 줄이는게 더 중요하기 때문)
'AI > ADP' 카테고리의 다른 글
[ADP] 4장 데이터 분석 - 회귀 분석(Regression Analysis) (0) | 2024.07.30 |
---|---|
[ADP] 4장 데이터 분석 - 비모수 검정 (0) | 2024.07.27 |
[ADP] 4장 데이터 분석 - 결측값 처리와 이상값 검색 (1) | 2024.07.25 |
[ADP] 4장 데이터 분석 - R 기초, data.table (0) | 2024.07.25 |
[ADP] 4장 데이터 분석 - R 기초, plyr (1) | 2024.07.24 |