대부분의 경우 모집단에 대한 분포를 가정하고 추정 및 검정을 행하게 된다.
하지만 모수가 특정 모집단을 따른다고 보기 힘든 경우도 있다.
이 때, 모집단의 분포에 관계없이 추론할 수 있는 분포무관 검정에 대해 알아보자.
이번 포스팅에서는 일표본 위치문제만 다룬다.
Q. 주어진 전구수명(x)이 35시간보다 크다고 할 수 있는가?
전구 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
수명 | 25 | 16 | 44 | 62 | 36 | 58 | 38 |
\(H_0\) : 전구의 수명이 35시간보다 크지 않음
\(H_1\) : 전구의 수명이 35시간보다 큼
E(X) = 39.857
\(S^2\) = 274.143
모수적 방법
점추정량 \(\theta\)는 \(\theta = \overline{x}\) 라고 할 수 있다.
구간추정량(신뢰구간)은 모수가 정규분포를 따른다고 가정하면 \(\sigma^2\)을 아는 경우와 모르는 경우 두 가지로 나눌 수 있다.
1) \(\sigma^2\)을 아는 경우
\((\overline{x}-z_{\alpha/2}\cdot \frac{\sigma}{\sqrt{n}},\ \ \overline{x}+z_{\alpha/2}\cdot \frac{\sigma}{\sqrt{n}})\)
2) \(\sigma^2\)을 모르는 경우
\((\overline{x}-t(\alpha/2, n-1)\cdot \frac{s}{\sqrt{n}},\ \ \overline{x}+t(\alpha/2, n-1)\cdot \frac{s}{\sqrt{n}})\)
ex)
분산이 주어지지 않았으므로 일표본 t-test를 시행한다.
\(t=\frac{39.857-35}{16.557/\sqrt{7}}=0.776\)
t(0.05, 6) = 1.943 > t 이므로 유의수준 0.05 하에서 귀무가설을 기각하지 못한다.
전구의 수명에 대한 점추정량은 39.857시간이며
95% 신뢰구간은 \(39.857\pm t(0.025, 6)\cdot \sqrt{\frac{274.143}{7}} = (24.54, 55.17)\) 이다.
이제 같은 문제에 대해 비모수적 방법을 알아보자.
비모수적 방법
1. 부호검정
가정
1) \(X_i = \theta + e_i, i=1, 2, \cdots, n\)
2) n개의 오차항 e들은 서로 독립이다.
3) n개의 e들은 서로 동일한 연속분포에 따른다.
부호검정통계량 \(B = \sum_{i=1}^{n}\psi (X_i-\theta_0)\) 으로 정의된다.
정의는 어렵지만 이해하면 쉽다.
나올 수 있는 경우의 수는 총 \(2^7\) 개 이고, 지시함수 \(\psi\)를 만족하는 k개에 대한 확률만 계산하면 된다.
ex)
35시간보다 더 큰 전구수명을 가진 전구의 수는 5개 이므로
\(P_0(n=7,\ B\geq5) = \frac{_7 C_5 + _7 C_6 + _7 C_7}{2^7} = 0.2266\) 이므로 유의수준 0.05 하에서 귀무가설을 기각하지 못한다.
전구의 수명에 대한 점추정량 \(\theta\)는 중앙값인 38이 된다.
일표본 위치문제에서의 구간추정은 통계량의 특성상 정확한 신뢰구간은 구할 수 없고
목표하는 신뢰구간안에서 가장 큰 신뢰구간의 상한값과 하한값으로 추정하면 된다.
즉, 전구의 수명에 대한 90% 신뢰구간을 구하려면
90% 대신 87.5%를 만족하는 \(2 \leq B \leq 6\) 이 된다.
따라서 87.5% 신뢰구간은 (25, 58)이 된다.
* 2번째로 작은 수, 6번째로 작은 수(혹은 두 번째로 큰 수)
2. 윌콕슨 부호순위검정
부호검정과는 다르게 가정이 하나 추가된다.
4) 오차항 e는 0에 대하여 대칭인 분포에 따른다.
\(Z_i = X_i - \theta_0, i=1, 2, \cdots , n\) 에 대하여
크기 \(|Z_i|\) 의 순위를 \(R_i^{+}\) 라 하면
윌콕슨 부호검정 통계량 \(W^{+} = \sum_{i=1}^{n}\psi (X_i-\theta_0)\cdot R_i^{+}\)로 정의된다.
ex)
각 수명에 35시간을 빼고, 절댓값에 따라 순위를 매기면 다음과 같다.
전구 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
수명 | 25 | 16 | 44 | 62 | 36 | 58 | 38 |
수명 - 35 | -10 | -19 | 9 | 27 | 1 | 23 | 3 |
크기 순위 | 4 | 5 | 3 | 7 | 1 | 6 | 2 |
이 때, 가설을 검정하기 위한 35보다 큰 값의 순위합 \(W^{+} = 19\) 이다.
n=7일때 순위합의 크기의 경우의 수는 총 \(\frac{n(n+1)}{2} = 28\)이고,
순위합의 경우의 수는 \(2^7 = 128\)이다.
순위합의 크기별로 나올 수 있는 경우의 수는
1, 2, 3, 4, 5, 6, 7을 최대 한 번 씩만 사용해서 그 크기가 나오는 경우의 수로 정리하면 다음과 같다.
\(W^{+}\) | 경우의 수 |
28 | 1 |
27 | 1 |
26 | 1 |
25 | 2 |
24 | 2 |
23 | 3 |
22 | 4 |
21 | 5 |
20 | 5 |
19 | 6 |
예를 들어 25의 경우 1, 2가 빠지거나 3이 빠지거나 2가지의 경우가,
22의 경우 (1, 2, 3), (1, 5), (2, 4), (6)이 빠지면 22가 나오므로 총 4가지 이다.
경우의 수의 합은 30이고,
30/128 = 0.2344 > 0.05 이므로 유의수준 0.05하에서 귀무가설을 기각할 수 없다.
윌콕슨 부호순위검정의 경우 부호검정보다는 추정이 조금 복잡하다.
분포의 대칭성에 대한 가정이 추가되므로 다음 개념을 사용한다.
\(W_{ij} = \frac{X_i +X_j}{2}, i \leq j, i, j = 1, 2, \cdots, n\)
이를 왈쉬평균이라 한다.
X | 16 | 25 | 36 | 38 | 44 | 58 | 62 |
16 | 16 | 20.5 | 26 | 27 | 30 | 37 | 39 |
25 | 25 | 30.5 | 31.5 | 34.5 | 41.5 | 43.5 | |
36 | 36 | 37 | 40 | 47 | 49 | ||
38 | 38 | 41 | 48 | 50 | |||
44 | 44 | 51 | 53 | ||||
58 | 58 | 60 | |||||
62 | 62 |
여기서 점추정량은 왈쉬평균값들의 중앙값으로 정의된다.
따라서 전구의 수명에 대한 점추정량은 왈쉬평균값의 개수가 7*8/2 = 28개 이므로
중앙값은 14번째 값과 15번째 값의 평균인 (39 + 40)/2 = 39.5 이다.
마찬가지로 전구의 수명에 대한 90% 신뢰구간을 구해보면
5/128 = 0.0391 < 0.05 < 7/128 = 0.5469 이므로
89.06% 신뢰구간은 \(5 \leq W^{+} \leq 24\) = (27, 51)이다.
'통계&머신러닝' 카테고리의 다른 글
모수통계 비모수통계 정리 (0) | 2022.08.01 |
---|---|
비모수통계(이표본 위치문제) (0) | 2022.07.25 |
상관계수 (0) | 2022.07.11 |
차원 축소와 PCA개념 (0) | 2022.05.31 |
서포트 벡터 머신 (SVM) 과 마진(margin) (0) | 2022.04.06 |
댓글