기초통계

예제를 활용한 가설검정과 분석도구

2023. 9. 4. 22:54

📢 본 포스팅은 통계청 통계교육원(https://sti.kostat.go.kr/coresti/site/main.do) 의 이러닝 교육과정

통계패키지 학습을 위한 필수 통계지식(2023) 교육 자료를 기반으로 한 학습입니다. 

교육자료 원본은 하단 사이트 내 수강 신청하시면 강의와 함께 열람하실 수 있습니다.

https://sti.kostat.go.kr/coresti/site/edu/edu_ulearn/list.do?gmenu=3&rmenu=01&cmenu=0104 


   가설검정과 분석도구   

일표본 평균 검정에 대한 문제이다.

 

Q

1인 가구의 생활비가 (N=170, σ=10)를 따른다고 알려져 있다.
 하지만 최근 1인 가구 생활비가 170만원보다 커졌다고 하는 반론이 강하게 제기되었다.
이를 검정하려고 한다.

 

1인 가구 생활비가 평균 170만원인지 검정하기 위해 임의 표본 1인 가구를 25명을 추출했다.

 

이 표본(25명)의 표본평균(X ̅)은 174만원, 표준편차(s)는 9만원이었다.

이를 검정하는 유의수준은 5%로 하기로 하였다.

 

예제 풀이해보기

1️⃣ 가설수립

H0(귀무가설) : μ ≤ 170

H1(대립가설) : μ > 170

 

📌 

가설은 모집단에 관한 입장으로 X ̅ 가 아닌 μ 를 사용한다.

귀무가설에만 등호(=) 가 표시된다.

 

2️⃣ 기각역 결정

귀무가설이 '참'이라는 전제 하에 특정값(C)를 넘으면 귀무가설을 기각하겠다는 규칙

이 특정값을 '기각치'라고 하고

이 특정값을 일정하게 하기 위해 유의수준(귀무가설이 참일 때, 귀무가설을 기각할 최대 확률)을 정하는 것이다.

 

Z- 표준화를 활용해서 기각치를 구하면 C = 173.29

 X ̅  > 173.29

 

→ 유의수준 5%에 대한 기각역은 표본평균이 173.29 이상으로 표본평균이 173.29 이상이면 귀무가설을 기각하겠다는 것을 의미한다.

 

귀무가설이 참일 때(가정)

유의수준이 5% 이상이고 선정한 표본이 유의수준을 넘지 않는다면 표본이 모집단을 잘 대표하는 것으로 볼 수 있다.

 

그러나 표본을 잘 선정하였지만, 귀무가설을 참이라고 가정한 것이 오류가 될 수 있다.
즉, 모집단인 1인 가구의 생활비 평균이 170만원일 것이라고 가정한 부분이 오류인 것이며, 그에 따라 귀무가설이 잘못되었다고 기각하게 되는 것이다.

 

3️⃣ 검정

유의수준 5%에서 기각치가 173.29 였는데 추출된 표본으로부터 계산된 평균(X ̅)은 174로 나타났다.
기각치를 벗어나는 값이 추출되었으므로, 즉 기각역에 속한 표본평균이 조사된 것으로 귀무가설을 기각한다.
결론적으로, 1인 가구의 평균생활비가 170만원 이상이라는 대립가설을 채택하게 된다.


 

가설검정 단계별 주요사항


1️⃣ 가설 수립 단계

귀무가설 대립가설
기존 입장 주장하고자 하는 입장

검정 이론이 갖고 있는 한계 → 등호(=)는 반드시 귀무가설에 포함되어야 한다.

가설을 설정하기 모호한 경우 → 실증적으로 보일 수 없거나 보이기 힘든 것을 귀무가설로 한다.

 


2️⃣ 기각역 결정과 해석

기각역을 결정할 때에는

① 항상 '귀무가설이 참일 때' 전제되는 것.

② 유의수준이 핵심적인 역할을 함.

 

 표본을 추출하였을 때, 추출된 표본으로부터 구해진 통계량이 기대되어지는 값은 귀무가설이 참이라는 전제하에 계산된다.
 따라서 우리는 귀무가설이 참이라면 이것에 강력하게 반하는 자료가 추출되었을 때, 더 이상 귀무가설을 참이라고 할 수 없다.


즉, 귀무가설이 참일 때 어느 정도 수준이상이 아니면 기존입장인 귀무가설을 유지하겠다는 것인데
이때 어느 정도 수준이상을 결정하기가 쉽지 않다.0
그래서 귀무가설이 참일 때 귀무가설을 기각할 최대 확률을 먼저 정할 수 있다. 이를 유의수준이라고 한다.

 

예제를 통해 다시 살펴보면 우리의 문제로 돌아가 보면,

 귀무가설은 μ는 170보다 작거나 같다'이므로 μ는 170보다 크다'라고 하는 대립가설에 대하여 귀무가설을 인정하는 연구자라면 당연히 μ를 170만원으로 놓고 연구를 진행할 것이다.
그러나 1인 가구의 생활비가 170만원이라고 생각하는 사람의 입장에서 이 집단에서 임으로 뽑은 25명의 평균 생활비를 어느 정도로 예상하겠는가? 🙄

 

아마도 170만원 근처라고 생각할 것이다.


✔ 다시 살펴보면 25명의 생활비가 평균 174만원으로 조사되었는데 이는 우연히 생활비가 많은 사람들로 구성된 표본으로 추출되었다고 생각할까?

 표본으로 추출된 25명의 평균이 171만원 혹은 172만원이라면 어떤 생각을 할까?
만일 25명의 평균이 180만원이라면, 우연히 추출된 25명이 생활비가 높은 사람들이 뽑혔다고 생각하나?


즉, 유의수준은 생활비가 얼마 이상이면 귀무가설이 참일 때 추출되기에는 너무 높은 생활비로 조사되었다고 할 수 있는지를 결정하기 쉽지 않게 된다는 것이다.

 

그래서 바로 여기서  유의수준 5% 가 그 답을 줄 수 있다.

 


3️⃣ 검정

이 예에서는

임의 추출된 25명의 1인 생활비 평균이 174만원이므로 모평균 170만원보다 4만원이 왜 커졌는지 따져보는 입장을 택한다.
그럼 이때 어떤 것들을 따져 볼 수 있을까?

 

여기서는 1인 가구의 생활비가 정규분포를 따른다는 것에 대해

 

✅ 모집단에서 일반적으로 받아들여지는 가정

 연구자들이 자료에 대한 분포를 정규분포로 가정

가정에 다소 의심이 간다고 하더라도 표본의 크기가 30이상이라면 중심극한정리에 의하여 표본평균 의 표본추출분포가 정규분포에 가깝다는 사실을 사용할 수 있다.


그리고 z-표준화를 이용하면 유의수준에 해당하는 기각역을 세울 수 있다.
그리고 귀무가설을 채택할 여부를 판단하게 된다.
기각역으로부터 계산을 해보면 다음의 식으로 제시되며, 173.29로 기각되게 된다.


즉, 기각역은 X ̅는 C보다 크게 된다.

결국 유의수준 5%에서 귀무가설을 기각하고 μ가 170보다 크다는 대립가설을 지지하게 된다.


 

4️⃣ 검정의 다른 측면 - 유의수준과 유의확률

“유의수준 5%에서” 의 의미를 생각해 보자.

25명의 1인 가구 생활비 평균은 170만원 보다 상당히 큰 값이 추출될 수도 있다.

 

그러나 귀무가설이 참이라면 평균은 170만원 근처 값이 추출될 것이며 170만원 보다 상당히 큰 값이 추출될 수는 없을 것이다.
따라서 우리가 추출한 25명의 평균이 상당히 큰 값이 아니라면 귀무가설이 참이라는 것이다.


여기서 상당히 큰 값을 어떻게 정해야 할까?

173만원? 174만원? 쉽지 않다.😂

우리가 관심을 갖고 있는 모집단에 따라 상당히 큰 값을 매번 고민해야 한다.

 

그렇다면 어떤 모집단이던 상당히 큰 값을 상위 5%이내라고 본다면 어떨까?

이를 유의수준이라고 한다.

 

그리고 실제로 추출된 25명의 1인 가구 생활비 평균은 174만원이었다.
이 값이 상위 몇%인지를 알아낸다면 상당히 큰 값인지 아닌지 판단할 수 있다.


이를 위해 우리가 앞에서 학습했던 표본추출분포 내용으로 돌아가보자.
25명의 평균의 표준화값을 구하면, 2

표준화값이 2보다 더 큰 값이 나올 확률을 구하면 2.28%로 이를 유의확률이라고 한다.


이 둘을 비교하면 유의수준 5%에서 귀무가설을 기각하고 μ가 170보다 크다는 대립가설을 지지한다고 말하는 것이다.

 

 

'기초통계' 카테고리의 다른 글

[통계학의 이해] 14. 통계적 추정  (0) 2023.09.23
[통계학의 이해] 13. 표본 분포의 이해  (0) 2023.09.23
가설검정  (0) 2023.09.04
표본추출분포  (0) 2023.09.04
[텍스트 분석] 희소행렬  (0) 2022.10.11