기초통계

[통계학의 이해] 17. 가설검정의 원리

2023. 9. 30. 16:54

📌 본 포스팅은 통계교육원(https://sti.kostat.go.kr/)

 이러닝 교육과정  '통계학의 이해(2023)' 강의에 대한 복습 기록입니다.

 모든 내용은 강의 교안을 기준으로 작성했으며 원본 자료는 하단 통계교육원 - 교육과정 - 이러닝 - '통계학의 이해'  교육 수강을 통해 무료로 열람 가능하고 교육자료는 저작권자의 동의 없이 무단 복제 및 배포할 수 없습니다.


🎯 

통계적 가설검정의 기본 용어

통계적 가설검정의 원리와 절차

 

💡 

1. 통계적 가설검정

2. 통계적 가설검정의 절차

 

 

📖 가설검정, 통계적 가설검정, 귀무가설, 대립가설, 제1종오류, 제2종오류


1. 통계적 가설검정

 

# 통계적 가설검정

모집단에서 추출한 표본의 정보를 이용해서 미지의 모수에 대한 주장 혹은 단순한 추축, 즉 가설의 옳고 그름을 판단하는 과정.

서로 상반된 두 가설을 설정한 후, 표본으로부터 얻은 정보를 바탕으로 두 가설중 어느 하나의 가설을 주장하는 과정.

 

# 통계적 가설

모집단의 특성(모수)에 관한 예상, 주장 혹은 단순한 추측

 

예시)1. 새로운 진통제 효과는 기존 진통제 효과보다 더 좋다.2. 새로운 타이어 수명은 40,000km 이상이다.3. 모 회사의 휴대폰 배터리 완충 후 평균 사용시간은 기존 배터리 평균 시간인 100시간보다 더 길다.

 

통계적 가설검정에서는 이러한 주장을 모수의 값에 대해 서술하는 형태로 통계적 가설을 설정한다.

위 예시를 가지고 통계적 가설을 세운다면 🤔


1. 기존 진통제 효과 시간이 10시간이라고 알려져 있다면 새로운 진통제의 평균 효과시간을 μ라고 하면

    가설은  μ > 10 

2. 타이어 평균 수명을 μ라 하면 가설은   μ > 40,000 

3. 배터리 평균 사용시간을 μ 라 하면 가설은   μ > 100 


# 귀무가설

가능한 한 채택하기 위해 세운 가설

특별한 문제가 없는 한 나타날 것이라고 예상하는 기존 입장으로 H로 표기한다

 

예)

1. 동전의 앞면이 나올 확률은 0.5 이다. ( H: p = 0.5) 

2. 배터리 평균 사용시간은 100시간이다. ( H: μ = 100)

 

✔ 귀무가설에는 항상 등호(=)가 포함되도록 한다.

 


# 대립가설

귀무가설(기존의  생각)과 상반되는 가설로 어떤 새로운 주장이나 생각으로

H로 표기한다

 

예)

1. 동전의 앞면이 나올 확률은 0.5 가 아니다. ( H: p ≠ 0.5) 

2. 배터리 평균 사용시간은 100시간보다 길다. ( H₁  : μ > 100)

 

양측(two-side) 대립가설 : ≠와 같이 모수의 영역이 양 방향으로 주어진 대립가설 ( H₁ : p ≠ 0.5)

✔ 단측(one_side) 대립가설 : > 혹은 <와 같이 모수 영역이 단 방향으로 주어진 대립가설 ( H₁ : μ > 100)  


# 가설검정

모수의 값에 대한 주장 또는 단순한 추측 등의 옳고 그름에 대한 결정을 하는 과정

 

귀무가설 ( H )의 반증에 대한 강도를 제공해서

귀무가설 ( H)의 기각 여부(대립가설 H₁  의 채택 여부)를 판정하는 것.

 

가설검정에서는 전체 모집단이 아닌 표본으로부터 얻은 불충분한 정보를 기반으로

가설의 진위여부를 판단하기 때문에 잘못된 결정을 내릴 위험이 항상 존재한다.

실제 상황에서 귀무가설이 참인 경우와 거짓인 경우 두 가지 중 하나이므로 다음 두가지 오류가 존재한다.


# 제1종오류와 제2종오류

 

실제 H。 가 '참' 일 경우 

 - H를 받아들임(채택) : 옳은 결정 (확률은 1- α)

 - H를 기각 : 잘못된 결정 → 이것을 제1종 오류( type I error)라고 한다.

                            이 오류를 범할 확률을 보통 그리스 문자로 α 로 나타낸다. 

 

실제 H。 가 '거짓'일 경우

 - H를 받아들임(채택) : 잘못된 결정 → 이것을 제1종 오류( type I error)라고 한다.

                            이 오류를 범할 확률을 보통 그리스 문자로 β 로 나타낸다. 

 - H를 기각 : 옳은 결정 (확률은 1- β)

 

제1종 오류를 범할 최대허용한계를 유의수준(significance level)이라 하고 α 로 나타낸다.

 

일반적으로 통계적 가설검정은 유의수준은 α 를 미리 정해놓고, 제2종 오류를 최소화하는 검정방법을 사용한다.

    흔히 유의수준은 α = 0.05, α = 0.1, α = 0.01 을 사용한다.


2. 통계적 가설검정의 절차

 1. 가설설정

  - 가설을 수립한다.

  - 이 때, 대립가설의 형태에 따라 양측/단측 검정을 결정한다.

 

 2. 검정통계량 설정

  - 가설검정에 필요한 적절한 검정통계량을 선택한다.

 

 3. 유의수준 및 검정규칙 설정

  - 유의수준 α를 정하고 대립가설 형태를 고려하여 임계값 및 기각역을 결정해서 검정규칙을 만든다.

 

 4. 검정통계량의 관측값 계산

  - 확률표본을 추출해서 검정통계량 값을 계산한다.

 

 5. 가설 채택, 기각 결정

  - 검정통계량과 검정 규칙응ㄹ 비교해서 귀무가설의 기각/채택을 결정한다.