Notice
Recent Posts
Recent Comments
09-29 04:02
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Archives
Today
Total
관리 메뉴

Byeol Lo

[ADP] 4장 데이터 분석 - 통계 분석 본문

AI/ADP

[ADP] 4장 데이터 분석 - 통계 분석

알 수 없는 사용자 2024. 7. 25. 19:17

조사 단위

  • 전수조사, 모집단 조사(census)
  • 표본조사
    • 단순랜덤추출: 임의의 난수를 통해 원소 추출
    • 계통추출: 일련의 번호를 부여한 후 n 구간으로 나누어 거기서 n개를 뽑음
    • 집락추출: 모집단을 cluster(homogeneous 함) 으로 나누어 해당 cluster에서 표본 선택
    • 층화추출: 모집단을 stratum(heterogeneous 함)으로 나누어 각 stratum에서 표본 선택

 

자료의 종류

  • Categorical Data
    • 명목 척도(nominal scale): 연산, 비교 불가
    • 순서 척도(ordinal scale): 비교 가능
  • Numerical Data
    • 구간 척도(interval scale): 비교, 덧셈, 뺄셈 가능
    • 비율 척도(ratio scale): 비교, 덧셈, 뺄셈, 곱셈, 나눗셈 가능

 

Statistical Analysis

 추론 통계에서 어떤 대상 집단의 모수가 무엇인지 추정을 할 수 있다. 이때 가설 검정을 통해서 수행한다. 그전에 확률에 대한 것부터 정리하자(수리 통계를 했다면 굳이 안 봐도 됨)

Probability의 공리

  • 모든 사건 E의 확률 값 P(E) 은 [0, 1]에 포함된다
  • Probability Space의 확률은 1이다
  • 서로 배반인 사건들의 합집합의 확률은 각 사건들의 확률의 합이다

 

조건부 확률

사건 A가 일어났을 때 사건 B의 확률을 조건부 확률은 다음과 같이 나타낼 수 있다.

$$P(B|A) = \frac{P(A \bigcap B)}{P(A)}$$

 

확률 변수

 특정 사건에 대한 실수값(mapping)의 관계를 나타내는 변수를 말함. 즉, domain이 sample space이며, range가 ℝ의 부분집합인 함수이다. 이 확률 변수에는 이산형 확률변수와 연속형 확률변수가 있다. 이때 확률의 크기를 나타내는 함수를 나타낼 수 있는데,

  • discrete r.v.에서의 p.m.f.: $P(X = x_{i}) = p_{i} \quad i = 1, 2, 3, \dots$
  • continuous r.v.에서의 p.d.f.: $P( a ≤ X ≤ b ) = \int_a^b P(X = x) dx$

 

결합 확률 분포

이산형인 경우에 p.m.f.를 다음과 같이 정의한다.

$$P(X = x, Y = y) = P(Y = y | X = x)P(X = x) = P(X = x | Y = y)P(Y = y)$$

연속형인 경우에 p.d.f.를 다음과 같이 정의 한다.

$$ f_{X, Y}(x, y) = f_{Y|X}( y|x ) f_X  (x) $$

 

기댓값, 분산, 백분위수는 생략한다.

 

추정과 가설검정

모집단의 확률 분포를 알기 위해 해당 확률 분포의 특징을 표현할 수 있는 값들을 모수(parameter)를 찾아야 한다. 추출된 표본을 기반으로 모수에 대한 추정을 하며, 추정은 다음 두가지로 나뉜다.

  • 점추정(point estimation): 가장 참이라고 여겨지는 하나의 모수의 값을 선택하는 것, 모수가 특정 값일 때 자주 씀
  • 구간추정: 

점추정

 우선 모집단의 평균, 분산 등의 값들을 추정하기 위해 표본에서의 정보를 얻어야 할 것이다.

 

구간추정

일정한 크기의 신뢰 수준(confidence level, 95%, 99%)으로 모수가 특정한 구간(confidence interval)에 있을 것이라고 선언하는 것. 모집단이 정규분포를 따를 때와 안 따를 때, 그리고 모분산이 알려져 있을때, 안알려져 있을때로 나누어 구간 추정이 가능할 것이다.

 

가설검정

 귀무가설 H_0과 대립가설 H_1(우리가 가정하는, 일 것이다 라는 주장)을 설정하여, 표본 관찰 또는 실험을 통해서 H_0 과 H_1 중 하나를 선택하는 것이다. 검정에 사용되는 통계량을 검정통계량(test statistic, T(X))라고 하며, 귀무가설이 사실일 때, 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률을 p-value라고 한다.

 이때 기준값 유의수준(significance level, α) 보다 작으면 귀무가설이 나올 가능성이 적다고 판단하여 귀무가설을 기각하며, 유의수준은 보통 0.01, 0.05, 0.1 중 한 개의 값을 사용한다. 나오는 용어들은 다음과 같다.

  • p-value(유의 확률): 귀무가설이 맞다고 가정할 때(귀무가설의 분포를 따른다고 가정하고) 얻은 결과(얻은 데이터, 추출한 샘플)보다 극단적인 결과가 실제로 관측될 확률(양측 검정, 단측 검정일 때 맨 끝 꼬리 부분의 확률을 말하는 것)
  • significance level: p-value가 significance level 보다 크거나 같다면, 극단적인 값, 대립적인 값이 나타날 확률이 더 높음을 의미하는 것이고, 이는 결국 H_0을 기각하게 됨을 의미한다. 따라서 significance는 H_0의 기각하는 기준을 나타냄을 알 수 있다(혹은 H_1을 채택하는 기준).
  • critical region: 귀무가설 H_0을 기각하는 통계량의 영역

 

 

오류

  H_0이 사실이라고 판정 H_0이 사실이 아니라고 판정
H_0이 사실임 옳음(1 - α) 제 1종 오류 (type 1 error: α)
H_0이 사실이 아님 제 2종 오류(type 2 error: β) 옳음(1 - β)

 두 오류는 서로 trade-off 관계에 있기 때문에 1종 오류 alpha를 고정(0.1, 0.05, 0.01로 함)시켜서 2종 오류가 최소가 되도록 기각역을 설정한다(1종 오류를 줄이는게 더 중요하기 때문)

출처: http://www.ktword.co.kr/test/view/view.php?no=5094

 

Comments