본문 바로가기

통계&머신러닝9

계층적 군집화 계층적 군집(Hierarchical Clustering)은 n개의 군집으로 시작해 점차 군집의 개수를 줄여 나가는 방법입니다. 유클리디안 거리를 사용해서 계층적 군집분석을 시행해 보겠습니다. import matplotlib.pyplot as plt import numpy as np from scipy.cluster.hierarchy import dendrogram, linkage X = np.array([[1, 4], [2, 1], [4, 6], [4, 3], [5, 1]]) labels = ['a', 'b', 'c', 'd', 'e'] plt.figure(figsize=(7, 7)) plt.xlim(0, 7) plt.ylim(0, 7) plt.scatter(X[:, 0], X[:, 1]) for lab.. 2022. 8. 15.
변수선택기법 보스턴 하우징 데이터셋을 이용해서 여러가지 변수선택기법들에 대해 알아보자. import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sklearn.datasets import load_boston from sklearn.feature_selection import RFE, SelectFromModel, SequentialFeatureSelector from sklearn.linear_model import LinearRegression, ElasticNet, Ridge, Lasso from sklearn.model_selection import train_test_split from sk.. 2022. 8. 8.
모수통계 비모수통계 정리 일표본 - 모수 검정 모수적 방법 i) \(\sigma^2\) 을 아는 경우 검정통계량 \(Z = \frac{\overline{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\) 를 계산하여 정규성 검정을 시행한다. ii) \(\sigma^2\) 을 모르는 경우 1) n < 30 인 소표본 검정통계량\(T = \frac{\overline{X}-\mu_0}{\frac{S}{\sqrt{n}}}\) 을 계산하여 일표본 t-검정을 시행한다. 2) n \(\geq\) 30인 대표본 검정통계량 \(Z = \frac{\overline{X}-\mu_0}{\frac{S}{\sqrt{n}}}\) 를 계산하여 정규성 검정을 시행한다. 비모수적 방법 i) 대칭성을 가정할 수 없는 경우 부호검정을 시행한다, ii.. 2022. 8. 1.
비모수통계(이표본 위치문제) 이번 포스팅에서는 표본이 두 종류일때의 비모수 통계를 알아본다. Q. 식이요법간에 체중감소의 효과가 같다고 할 수 있는가? 식이요법 A (X) 5.7 7.3 7.6 6.0 6.5 5.9 식이요법 B (Y) 4.9 7.4 5.3 4.6 \(H_0\) : 식이요법간에 체중감소 효과가 같다 \(H_1\) : 식이요법간에 체중감소 효과가 같지 않다 E(X) = 6.5 E(Y) = 5.55 모수적 방법 이표본 t-검정을 실시한다. Var(X) = 3.1 Var(Y) = 4.81 \(S_p^2 = \frac{3.1+4.81}{6+4-2} = 0.98875\) t 통계량을 구해보면 \(t = \frac{6.5-5.55}{\sqrt{0.98875\cdot(\frac{1}{6}+\frac{1}{4})}}=1.48\) t.. 2022. 7. 25.
비모수통계 (일표본 위치문제) 대부분의 경우 모집단에 대한 분포를 가정하고 추정 및 검정을 행하게 된다. 하지만 모수가 특정 모집단을 따른다고 보기 힘든 경우도 있다. 이 때, 모집단의 분포에 관계없이 추론할 수 있는 분포무관 검정에 대해 알아보자. 이번 포스팅에서는 일표본 위치문제만 다룬다. Q. 주어진 전구수명(x)이 35시간보다 크다고 할 수 있는가? 전구 1 2 3 4 5 6 7 수명 25 16 44 62 36 58 38 \(H_0\) : 전구의 수명이 35시간보다 크지 않음 \(H_1\) : 전구의 수명이 35시간보다 큼 E(X) = 39.857 \(S^2\) = 274.143 모수적 방법 점추정량 \(\theta\)는 \(\theta = \overline{x}\) 라고 할 수 있다. 구간추정량(신뢰구간)은 모수가 정규분포를.. 2022. 7. 18.
상관계수 공분산 (Covariance) 두 확률변수 X 와 Y의 선형관계를 나타내는 값 \(Cov(X, Y) = E[(X-E(X))\cdot(Y-E(Y))\)] \(=E(XY)-E(X)\cdot E(Y)\) \(= \frac{\sum_{i=1}^{n}(X_i-\overline{X})\cdot(Y-\overline{Y})}{n}\) * 표본공분산의 경우 n 대신 n-1로 나눔! 공분산은 척도에 민감해서 선형 정도를 알기에는 부적합하다. 따라서 공분산에서 각 확률변수의 표준편차로 나눈 상관계수를 사용한다. 이 때, 상관계수는 \(-1 \leq \rho \leq 1\) 의 값을 가진다. 이 상관계수는 절댓값이 1에 가까울수록 강한 선형연관성을, 절댓값이 0에 가까울수록 선형독립성을 나타낸다. 또한 양수라면 양의 상관성.. 2022. 7. 11.
차원 축소와 PCA개념 차원(속성) 스무고개란 것을 아시나요? 출제자는 머릿속에 무언가를 떠올리고, 나머지는 질문을 하면서 출제자가 떠올린 것이 무엇인지 맞추는 게임입니다. 제가 떠올린 것을 다음 질문들에 대한 답을 보면서 직접 맞춰보세요. 여러분은 몇 번째 질문까지 듣고 정답을 맞출 수 있을까요? Q1. 먹을 수 있는 건가요? A1. 네. Q2. 둥근 모양인가요? A2. 네. Q3. 부드러운가요? A3. 아니요. Q4. 녹는건가요? A4. 아니요. Q5. 들고 다닐 수 있나요? A5. 네. Q6. 가공식품인가요? A6. 아니요. Q7. 과일인가요? A7. 네. Q8. 붉은색인가요? A8. 네. Q9. 정답이 사과인가요? A9. 네 여기서 질문은 차원(속성)을 나타내며, 대답은 속성값을 나타냅니다. 즉, 사과라는 데이터는 먹을.. 2022. 5. 31.
서포트 벡터 머신 (SVM) 과 마진(margin) 서포트 벡터 머신(Support Vector Machine)은 선형이나 비선형 분류, 회귀등의 다양한 문제들을 해결할 수 있는 모델입니다. 다음 그림을 통해 서포트 벡터 머신을 이해해 봅시다. 유명한 데이터셋인 Iris 데이터셋 중에서 versicolor품종과 setosa품종의 꽃잎의 정보를 플로팅한 것입니다. 이 두 품종을 가장 잘 분류할 수 있는 선은 어떻게 그어야 할까요? 두 품종을 분류하기 위해서 3가지의 선을 임의로 그어 보았습니다. 모든 선이 두 품종을 완벽하게 분류하지만 어떤 선이 가장 최적의 선인지는 잘 모르겠습니다. 서포트 벡터 머신은 두 클래스를 분류하는 여러 선들 중에서 각 집단과의 거리가 가장 가까운 점과의 거리가 가장 넓도록 정의된 선을 찾는 머신러닝 기법입니다. 위 사진에서 분홍.. 2022. 4. 6.
선형회귀와 정규방정식 사람은 미래를 알고 싶어한다. 누구나 그러할 것이다. 앞으로 일어날 일을 예측할 수만 있다면 얻어낼 수 있는 일은 무궁무진할 테니까. 로또 번호를 미리 알고 수 억을 벌 수도 있고, 갑작스레 닥칠 죽음을 피할 수도 있을 것이다. 하지만 우리는 앞으로 일어날 일을 정확하게 예측하는 것은 불가능하다. 우리는 신이 아니니까. 다만 확실한 것은 일어날 모든 일은 '인과'에 얽혀 있다는 것이다. 원인과 결과, 즉 원인을 정확하게 알고 있다면 미래는 예측이 가능하다. 그럼에도 불구하고 모든 원인을 분석하는 것 역시 불가능하니 정확한 미래는 예측이 힘들다. '나비효과'라고 나비 한마리가 일으킨 날갯짓이 지구 반대편에 엄청난 태풍을 일으킬 수도 있다는 이론이다. 지구 반대편의 나비 한마리가 일으킨 날갯짓에 분석이 가능.. 2022. 3. 31.