본문 바로가기
통계&머신러닝

비모수통계 (일표본 위치문제)

by Tripleler 2022. 7. 18.

대부분의 경우 모집단에 대한 분포를 가정하고 추정 및 검정을 행하게 된다.

하지만 모수가 특정 모집단을 따른다고 보기 힘든 경우도 있다.

이 때, 모집단의 분포에 관계없이 추론할 수 있는 분포무관 검정에 대해 알아보자.

 

이번 포스팅에서는 일표본 위치문제만 다룬다.

 

 

 

 

 

 

Q. 주어진 전구수명(x)이 35시간보다 크다고 할 수 있는가?

전구 1 2 3 4 5 6 7
수명 25 16 44 62 36 58 38

\(H_0\) : 전구의 수명이 35시간보다 크지 않음

\(H_1\) : 전구의 수명이 35시간보다 큼

E(X) = 39.857

\(S^2\) = 274.143

 

 

 

 

 

 

모수적 방법

 

점추정량 \(\theta\)는 \(\theta = \overline{x}\) 라고 할 수 있다.

 

구간추정량(신뢰구간)은 모수가 정규분포를 따른다고 가정하면 \(\sigma^2\)을 아는 경우와 모르는 경우 두 가지로 나눌 수 있다.

 

1)  \(\sigma^2\)을 아는 경우

\((\overline{x}-z_{\alpha/2}\cdot \frac{\sigma}{\sqrt{n}},\ \ \overline{x}+z_{\alpha/2}\cdot \frac{\sigma}{\sqrt{n}})\)

 

2)  \(\sigma^2\)을 모르는 경우

\((\overline{x}-t(\alpha/2, n-1)\cdot \frac{s}{\sqrt{n}},\ \ \overline{x}+t(\alpha/2, n-1)\cdot \frac{s}{\sqrt{n}})\)

 

ex)

분산이 주어지지 않았으므로 일표본 t-test를 시행한다.

\(t=\frac{39.857-35}{16.557/\sqrt{7}}=0.776\)

t(0.05, 6) = 1.943 > t 이므로 유의수준 0.05 하에서 귀무가설을 기각하지 못한다.

 

전구의 수명에 대한 점추정량은 39.857시간이며

95% 신뢰구간은 \(39.857\pm t(0.025, 6)\cdot \sqrt{\frac{274.143}{7}} = (24.54, 55.17)\) 이다.

 

이제 같은 문제에 대해 비모수적 방법을 알아보자.

 

 

 

 

 

 

비모수적 방법

1. 부호검정

 

가정

1) \(X_i = \theta + e_i, i=1, 2, \cdots, n\)

2) n개의 오차항 e들은 서로 독립이다.

3) n개의 e들은 서로 동일한 연속분포에 따른다.

 

부호검정통계량 \(B = \sum_{i=1}^{n}\psi (X_i-\theta_0)\) 으로 정의된다.

정의는 어렵지만 이해하면 쉽다.

 

나올 수 있는 경우의 수는 총 \(2^7\) 개 이고, 지시함수 \(\psi\)를 만족하는 k개에 대한 확률만 계산하면 된다.

 

ex)

35시간보다 더 큰 전구수명을 가진 전구의 수는 5개 이므로

\(P_0(n=7,\ B\geq5) = \frac{_7 C_5 + _7 C_6 + _7 C_7}{2^7} = 0.2266\) 이므로 유의수준 0.05 하에서 귀무가설을 기각하지 못한다.

 

전구의 수명에 대한 점추정량 \(\theta\)는 중앙값인 38이 된다.

 

일표본 위치문제에서의 구간추정은 통계량의 특성상 정확한 신뢰구간은 구할 수 없고

목표하는 신뢰구간안에서 가장 큰 신뢰구간의 상한값과 하한값으로 추정하면 된다.

 

즉, 전구의 수명에 대한 90% 신뢰구간을 구하려면

90% 대신 87.5%를 만족하는 \(2 \leq B \leq 6\) 이 된다.

따라서 87.5% 신뢰구간은 (25, 58)이 된다.

* 2번째로 작은 수, 6번째로 작은 수(혹은 두 번째로 큰 수)

 

 

 

2. 윌콕슨 부호순위검정

 

부호검정과는 다르게 가정이 하나 추가된다.

4) 오차항 e는 0에 대하여 대칭인 분포에 따른다.

이정도면 대칭이라고 봐도 크게 무리가 없다.

\(Z_i = X_i - \theta_0, i=1, 2, \cdots , n\) 에 대하여

크기 \(|Z_i|\) 의 순위를 \(R_i^{+}\) 라 하면

윌콕슨 부호검정 통계량 \(W^{+} = \sum_{i=1}^{n}\psi (X_i-\theta_0)\cdot R_i^{+}\)로 정의된다.

 

ex)

각 수명에 35시간을 빼고, 절댓값에 따라 순위를 매기면 다음과 같다.

전구 1 2 3 4 5 6 7
수명 25 16 44 62 36 58 38
수명 - 35 -10 -19 9 27 1 23 3
크기 순위 4 5 3 7 1 6 2

이 때, 가설을 검정하기 위한 35보다 큰 값의 순위합 \(W^{+} = 19\) 이다.

 

n=7일때 순위합의 크기의 경우의 수는 총 \(\frac{n(n+1)}{2} = 28\)이고,

순위합의 경우의 수는 \(2^7 = 128\)이다.

순위합의 크기별로 나올 수 있는 경우의 수는

1, 2, 3, 4, 5, 6, 7을 최대 한 번 씩만 사용해서 그 크기가 나오는 경우의 수로 정리하면 다음과 같다.

\(W^{+}\) 경우의 수
28 1
27 1
26 1
25 2
24 2
23 3
22 4
21 5
20 5
19 6

예를 들어 25의 경우 1, 2가 빠지거나 3이 빠지거나 2가지의 경우가,

22의 경우 (1, 2, 3), (1, 5), (2, 4), (6)이 빠지면 22가 나오므로 총 4가지 이다.

경우의 수의 합은 30이고,

30/128 = 0.2344 > 0.05 이므로 유의수준 0.05하에서 귀무가설을 기각할 수 없다.

 

윌콕슨 부호순위검정의 경우 부호검정보다는 추정이 조금 복잡하다.

분포의 대칭성에 대한 가정이 추가되므로 다음 개념을 사용한다.

\(W_{ij} = \frac{X_i +X_j}{2}, i \leq j, i, j = 1, 2, \cdots, n\)

이를 왈쉬평균이라 한다.

X 16 25 36 38 44 58 62
16 16 20.5 26 27 30 37 39
25   25 30.5 31.5 34.5 41.5 43.5
36     36 37 40 47 49
38       38 41 48 50
44         44 51 53
58           58 60
62             62

여기서 점추정량은 왈쉬평균값들의 중앙값으로 정의된다.

 

따라서 전구의 수명에 대한 점추정량은 왈쉬평균값의 개수가 7*8/2 = 28개 이므로

중앙값은 14번째 값과 15번째 값의 평균인 (39 + 40)/2 = 39.5 이다.

 

마찬가지로 전구의 수명에 대한 90% 신뢰구간을 구해보면

5/128 = 0.0391 < 0.05 < 7/128 = 0.5469 이므로

89.06% 신뢰구간은 \(5 \leq W^{+} \leq 24\) = (27, 51)이다.

'통계&머신러닝' 카테고리의 다른 글

모수통계 비모수통계 정리  (0) 2022.08.01
비모수통계(이표본 위치문제)  (0) 2022.07.25
상관계수  (0) 2022.07.11
차원 축소와 PCA개념  (0) 2022.05.31
서포트 벡터 머신 (SVM) 과 마진(margin)  (0) 2022.04.06

댓글