Notice
Recent Posts
Recent Comments
09-29 03:12
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Archives
Today
Total
관리 메뉴

Byeol Lo

[ADP] 4장 데이터 분석 - 비모수 검정 본문

AI/ADP

[ADP] 4장 데이터 분석 - 비모수 검정

알 수 없는 사용자 2024. 7. 27. 20:48

 보통 모집단의 모수에 대한 검정에는 모수적 방법(parametric method)와 비모수적 방법(non-parametric method)가 있는데, 모수적 검정은 집단의 분포에 대한 가정을 하고, 그 가정 하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법이다. 반대로 비모수적 검정은 자료가 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고(모집단의 분포에 대한 가정을 하지 않고), 검정을 실시하는 방법이다.

 차이점은 가설 설정의 방법인데,

  1. 가설 설정이 분포의 형태가 동일하다, 동일하지 않다로 나뉨
  2. 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정함

대표적인 비모수 검정 방법으로는 다음과 같다.

  • 부호 검정(sign test)
  • 윌콕슨의 순위합검정(signed rank test), 만-위트니 U 검정
  • 런검정(run test)
  • 스피어만의 순위상관계수

 

부호 검정

 한 모집단의 위치 모수(평균, 중앙값 등) 에 대한 비모수적 검정이다. 검정통계량은 $S = \sum_{i=1}^{n} \psi_{i}$를 사용하며, 프사이는 indicator function으로 다음과 같이 정의된다.

$\psi_{i} = \begin{cases}
    1, if  X_i  >  \theta_{0}\\
    0, if  X_i  >  \theta_{0}\\
  \end{cases}$
검정 통계량 S는 위치모수 θ 보다 큰 관측값들의 개수가 됨을 알 수 있고, 이때 S ~ B(n, 1/2) 를 따를 것이다.

  • 단측 검정: H_1 을 θ > 혹은 < θ_0(귀무가설에서의 theta 값) 으로 설정했을 때, S > B(θ_0, 1/2)_α(right-tail 확률) 혹은 S < B(θ_0, 1/2)_(1-α)이면 H_0을 기각하게 된다.
  • 양측 검정: H_1 을 θ ≠ θ_0로 설정하고, S < B(θ_0, 1/2)_(1 - α/2) 또는 S > B(θ_0, 0.5) α/2 일 때 H_0을 기각한다.

 

윌콕슨의 순위합검정(rank sum test)

 거의 모든 데이터들은 데이터가 많을 수록 정규분포에서 추출되었다고 볼 수 있으며, 샘플의 평균이 정규분포를 따르게 된다. 그래서 t-test나 ANOVA 같은 두 개 이상의 집단에 대한 대표값의 차이를 많이 쓸 수 있었다. 근데 이런 가정을 만족하지 못하는 경우(데이터가 적은 경우)에는 모수 검정을 사용할 수 없게 되며, 이때의 집단 간의 차이를 어떻게 검정할 수 있을지를 다룬다. 즉, "두 모집단에 대한 위치모수 비교" 를 하는 것이다.

 순위합 검정은 t-test와 거의 비슷한데, 순위를 이용한 검정에서 차이가 있을 뿐이다. 검정을 수행하기 위해서 그러면 정렬이 되는 데이터인지만 파악이 되면 될 것이다. 과정은 다음과 같고 실제 수식을 써내려가는 과정은 다른 곳에 올리겠다.

  1. 가장 작은 값 혹은 가장 큰 값을 1로 두며 차례대로 1씩 증가시켜 순위를 할당해준다.
    ex. 사람의 총 소득을 정렬 후 순위 매김
  2. 그런 다음 특정 변수에 대한 순위 총합이 각각 계산이 될 것이다(동일한 값이 있는 경우 평균 순위를 부여)
    ex 사람의 총 소득은 남 녀로 구분되기 때문에 남자의 순위 총 합, 여자의 순위 총 합이 나올 수 있음
  3. H_0은 "두 표본의 중앙값은 같다" 로 두고, H_1은 "두 표본의 중앙값은 다르다" 로 둔다.
  4. 검정 통계량 W는 둘 중에 더 작은 순위 합으로 하며, 그 때의 Binomial Distribution의 백분위 수를 어림 잡아 구할 수 있으며, p-value를 계산 가능
  5. 양측 검정, 단측검정을 실행

 

다른 검정들은 따로 올린다.

Comments