다중회귀분석 : 단계적 회귀분석
단계적 회귀분석 Stepwise regression
독립변수를 하나씩 추가/제거하여 종속변수를 잘 예측하는 변수들을 선택하는 기법
독립변수의 후보가 k개 있으면 가능한 독립변수의 조합은 2^k개
• 독립변수의 후보가 많으면 모든 조합으로 회귀분석을 실시하는 것은 현실적으 로 불가능
• 예측력이 (통계적으로) 유의미한 예측변수들만을 골라줌
• 오직 자료만으로 변수를 선택하기 때문에 이상한 결과가 생길 수 있음
• 단계적 회귀분석은 탐색적으로 주요 변수를 파악하는 목적으로만 실시해야 한다.
KEYWORD
전진선택
후진선택
단계적 회귀분석에서 주의할 점
위계적 회귀분석
전진 선택 forward selection
독립변수를 하나씩 추가
예) A, B, C, D를 가지고 Y를 예측하는 전진 방식의 단계적 회귀분석을 한다면,
단계 | 선택 |
• A, B, C, D 중 설명력이 제일 큰 예측변수? | A |
• A+B, A+C, A+D 중에 설명력이 가장 큰 조합은? | A+B |
• A와 A+B의 설명력이 유의미하게 차이가 나지 않으면 중단 | |
• 설명력이 유의미하게 차이가 나면 A+B+C, A+B+D 중에 설명력이 가장 큰 조합을 찾음 | |
- 이상의 과정을 계속 - |
> 변수별 AIC를 구해서 오차가 작은 변수를 기준 조합으로 시작
후진선택 backward seletion
독립변수를 하나씩 제거
예) A, B, C, D를 가지고 Y를 예측하는 후진 방식의 단계적 회귀분석을 한다면,
독립변수 제거 | 선택 |
• A+B+C+D에서 설명력이 가장 적게 줄어드는 변수를 제거 | D 라고 가정 |
• A+B+C와 A+B+C+D 설명력이 유의미하게 차이가 나면 중단 | |
• 차이가 나지 않으면 A+B+C 에서 설명이 가장 적게 줄어드는 변수를 제거 | |
- 이상의 과정을 계속 - |
> 모든 독립변수의 조합에서 하나씩 제거해가면서 오차 감소치가 제일 작은 변수부터 제거
단계적 회귀 분석에서 주의할 점
변수를 순서대로 선택하기 때문에 검토하지 못하는 조합이 생기게 된다.
예) A → A+B → A+B+C... 순으로 탐색하면 B+C 조합은 검토할 기회가 없다.
전진 방식과 후진 방식의 결과가 항상 같은 것은 아니다.
대체로 전진 방식이 후진 방식보다 적은 변수를 선택하는 경향이 있음.
위계적 회귀분석
분석가가 의도/가설을 가지고 기존 회귀분석 모형에 한 뭉텅이(chunk) 의 변수들을 추가하여 설명력의 차이를 비교/검증하는 방법
• 주로 통계적인 통제를 하거나, 기존 모형을 확장하기 위해 사용하는 기법
• 연구자가 가설을 가지고 접근하더라도, 실제로 유의미하지 않은 예측 변수들이 포함되어 있을 수도 있기 때문에
이를 확인하는 기법
'기초통계' 카테고리의 다른 글
로지스틱 회귀분석 (0) | 2022.09.06 |
---|---|
다중회귀분석 : 변수의 변형 (로그함수, I 함수, 2차항의 추가, 절편) (0) | 2022.09.06 |
다중회귀분석 : 교차검증 (0) | 2022.09.06 |
회귀분석 : 다중회귀분석 (0) | 2022.09.05 |
상관과 회귀 : 회귀분석 (0) | 2022.09.05 |