기초통계

다중회귀분석 : 단계적 회귀분석

2022. 9. 6. 13:00

다중회귀분석 : 단계적 회귀분석

 


단계적 회귀분석 Stepwise regression

독립변수를 하나씩 추가/제거하여 종속변수를 잘 예측하는 변수들을 선택하는 기법

독립변수의 후보가 k개 있으면 가능한 독립변수의 조합은 2^k개

 

•  독립변수의 후보가 많으면 모든 조합으로 회귀분석을 실시하는 것은 현실적으 로 불가능
•  예측력이 (통계적으로) 유의미한 예측변수들만을 골라줌
•  오직 자료만으로 변수를 선택하기 때문에 이상한 결과가 생길 수 있음
•  단계적 회귀분석은 탐색적으로 주요 변수를 파악하는 목적으로만 실시해야 한다.


  KEYWORD  

전진선택
후진선택
단계적 회귀분석에서 주의할 점
위계적 회귀분석


전진 선택 forward selection

독립변수를 하나씩 추가

 

예) A, B, C, D를 가지고 Y를 예측하는 전진 방식의 단계적 회귀분석을 한다면,

단계 선택
•   A, B, C, D 중 설명력이 제일 큰 예측변수?   A
 •   A+B, A+C, A+D 중에 설명력이 가장 큰 조합은? A+B
 •   A와 A+B의 설명력이 유의미하게 차이가 나지 않으면 중단
•   설명력이 유의미하게 차이가 나면 A+B+C, A+B+D 중에 설명력이 가장 큰 조합을 찾음
 - 이상의 과정을 계속 -

> 변수별 AIC를 구해서 오차가 작은 변수를 기준 조합으로 시작

 


 

후진선택 backward seletion

독립변수를 하나씩 제거

 

예) A, B, C, D를 가지고 Y를 예측하는 후진 방식의 단계적 회귀분석을 한다면,

독립변수 제거 선택
•    A+B+C+D에서 설명력이 가장 적게 줄어드는 변수를 제거 D 라고 가정
•    A+B+C와 A+B+C+D 설명력이 유의미하게 차이가 나면 중단
•    차이가 나지 않으면 A+B+C 에서 설명이 가장 적게 줄어드는 변수를 제거
 - 이상의 과정을 계속 -

> 모든 독립변수의 조합에서 하나씩 제거해가면서 오차 감소치가 제일 작은 변수부터 제거


 

단계적 회귀 분석에서 주의할 점

변수를 순서대로 선택하기 때문에 검토하지 못하는 조합이 생기게 된다.

 예)  A → A+B → A+B+C... 순으로 탐색하면 B+C 조합은 검토할 기회가 없다.

 

전진 방식과 후진 방식의 결과가 항상 같은 것은 아니다.

 대체로 전진 방식이 후진 방식보다 적은 변수를 선택하는 경향이 있음.

 


위계적 회귀분석

분석가가 의도/가설을 가지고 기존 회귀분석 모형에 한 뭉텅이(chunk) 의 변수들을 추가하여 설명력의 차이를 비교/검증하는 방법

 

• 주로 통계적인 통제를 하거나, 기존 모형을 확장하기 위해 사용하는 기법
•  연구자가 가설을 가지고 접근하더라도, 실제로 유의미하지 않은 예측 변수들이 포함되어 있을 수도 있기 때문에
    이를 확인하는 기법