기초통계 39

상호작용과 인과 : 인과효과

상호작용과 인과 : 인과효과 인과관계는 예측이 가능해야 한다. 증거의 사다리 각각의 기법이 주는 증거의 수준 '어떤 증거가 더 우월한 증거인가? 더 높은 수준의 기법이 주는 결과는 더 진실에 가까움 1. 실험적 통제 2. 무작위 대조군 3. 준실험 4. 반사실 실험적 통제 처치를 제외한 다른 모든 조건을 동일하게 유지 • 인과관계를 확인할 수 있는 최선의 조건 • 물리학, 화학 등 일부에서만 가능 예) 실험용 쥐(유전자가 다 똑같은 일란성 쌍둥이임)로 실험 : 즉 실험조건 왜 모든 것을 동일하게 맞춰줌. 무작위 대조군 모든 조건을 완벽하게 통제할 수 없을 경우 • 실험군과 대조군에 무작위 할당 • 표집 오차가 있을 수 있음 • 생물학, 사회과학 등에서 주로 사용 ☑ 일반적으로 무작위 대조군 실험이 까다로..

기초통계 2022.09.13

상호작용과 인과 : 상호작용

상호작용과 인과 : 상호작용 상호작용 Interaction 두 독립변수의 곱으로 이뤄진 항(xm) • 관계식으로 쓸 때는 : 을 사용 y ~ x + m + x:m • 관계식에서 x*m 은 x+m + x:m 과 같음. (즉 더하기랑 곱하기를 다 해라) 예 시 • x 는 연속형 • m 은 0 또는 1만 갖는 범주형 변수 (설명의 편의를 위한 단순화) > 상호작용이 없는 경우 > 기울기가 달라지는 경우 > 기울기와 절편 모두 달라지는 경우 수식형태로 쓰면 y = ax + bm + c 계수를 포함해서 수식 형태로 쓰면 y = ax + bxm + c 계수를 포함해서 수식 형태로 쓰면 y = ax + bm + cxm + d • m에 따라 x의 절편이 바뀌는 것으로 해석 • m에 따라 x의 기울기가 바뀌는 것으로 해..

기초통계 2022.09.13

로지스틱회귀분석 : 혼동행렬, ROC_Curve

로지스틱 회귀분석 : 혼동행렬 KEYWORD 혼동행렬 (Confusion-Matrix) 정확도 (Accuracy) 정밀도 (Precision) 재현도 (Recall) 특이도 (Specision) F1 - score ROC Curve 혼동행렬 confusion matrix Python 에서의 혼동행렬 from statsmodels.formula.api import logit from sklearn.metrics import confusion_matrix m = logit('y ~ x1 + x2', df).fit() m.summary() # 로지스틱 회귀분석 import pandas as pd df = pd.read_excel('churn.xlsx') from statsmodels.formula.api im..

기초통계 2022.09.13

로지스틱 회귀분석

로지스틱 회귀분석 KEYWORD 일반화 선형모형 로지스틱 함수 승산 한계효과 로그우도 이탈도 유사 R제곱 일반화 선형모형 Generalized Linear Model 다양한 종속변수를 분석할 수 있도록 선형 모형을 확장한 것 • 𝜇(뮤) : 종속 변수의 기댓값 • 𝑔 : 연결 함수 link function 로지스틱 함수 logistic function 0 ~ 1 사이의 출력을 갖는 함수 '확률'은 0~1 사이의 값이므로 확률을 출력하는 함수를 만들 수 있다. 연습 import pandas as pd ch = pd.read_excel('churn.xlsx') ch.head() has_churned : 고객이 이탈을 했는가 (0 유지, 1이탈) join : 가입기간 (표준화된 상태) 0이 평균적인 가입기간 ..

기초통계 2022.09.06

다중회귀분석 : 변수의 변형 (로그함수, I 함수, 2차항의 추가, 절편)

변수의 변형 KEYWORD 변수의 변형 로그 함수 왜도 회귀분석과 산점도 I함수 절편이 없는 모형 절편 이동 변수의 변형 선형 모형은 독립변수와 종속변수의 선형적 관계를 가정한다는 한계 • 독립변수를 비선형 변환하면 이 한계를 일부 극복할 수 있음. • Python은 관계식에 수학 함수를 사용하면 자동으로 변수 변환 로그함수 오른쪽 위로 갈수록 완만해지는 형태 • 가로축에서 1, 10, 100이 세로축에서 같은 간격(예: 0, 1, 2) • 데이터에 적용하면 오른쪽을 왼쪽으로 끌어당기는 효과 - 일반함수 눈금 : 1 2 3 4 5 ... - 로그함수 눈금 : 1 10 100 1000 10000 ... • 독립변수에 오른쪽으로 크게 떨어져 있는 값이 있는 경우, 로그 함수를 적용해주면 간격을 일정하게 만들..

기초통계 2022.09.06

다중회귀분석 : 단계적 회귀분석

다중회귀분석 : 단계적 회귀분석 단계적 회귀분석 Stepwise regression 독립변수를 하나씩 추가/제거하여 종속변수를 잘 예측하는 변수들을 선택하는 기법 독립변수의 후보가 k개 있으면 가능한 독립변수의 조합은 2^k개 • 독립변수의 후보가 많으면 모든 조합으로 회귀분석을 실시하는 것은 현실적으 로 불가능 • 예측력이 (통계적으로) 유의미한 예측변수들만을 골라줌 • 오직 자료만으로 변수를 선택하기 때문에 이상한 결과가 생길 수 있음 • 단계적 회귀분석은 탐색적으로 주요 변수를 파악하는 목적으로만 실시해야 한다. KEYWORD 전진선택 후진선택 단계적 회귀분석에서 주의할 점 위계적 회귀분석 전진 선택 forward selection 독립변수를 하나씩 추가 예) A, B, C, D를 가지고 Y를 예측..

기초통계 2022.09.06

다중회귀분석 : 교차검증

다중회귀분석 : 교차검증 교차검증 수정R제곱, AIC, BIC 등은 이론적 보정이므로 과적합을 정확히 반영하지 못한다. 그래서 데이터가 충분히 많다면, 데이터를 여러 개의 셋으로 나누어 교차 검증을 한다. • 한 데이터셋의 분석 결과를 다른 데이터셋에 적용하여 예측 오차를 확인 (예측 오차가 적은 모형이 좋은 모형) • 이론적 가정에 의존하지 않으므로 데이터가 충분히 많을 때는 교차 검증을 권장 KEYWORD 교차검증 종류 교차검증 결과 Python에서의 교차검증 교차검증 종류 데이터를 훈련 데이터와 테스트 데이터로 분할 모형을 훈련 데이터에 적합시켜, 테스트 데이터를 예측 검증 종류 방법 LpOCV (Leave-p-out) : p개를 제외한 모든 사례로 추정에 사용. p개는 가능한 모든 방법으로 조합...

기초통계 2022.09.06

회귀분석 : 다중회귀분석

상관과 회귀 : 다중회귀분석 KEYWORD 다중회귀분석 통계적 통제 표준화 모형선택 과적합 AIC, BIC 다중회귀분석 독립변수가 2개 이상인 회귀분석 Python에서는 관계식에서 +로 변수를 구분 예) 'price ~ mileage + model' from statsmodels.formula.api import ols m = ols('price ~ mileage + model' , df).fit() m.summary() price = (-0.0052 × mileage) + (22.3125 x model) + 1251.1755 > 'K3'라면 model에 1 대입 다중회귀 분석을 하는 이유 22만원 차이는 주행거리를 통제했을 때의 차이인 것이다. 단순히 k3와 아반떼의 가격비교 질문을 받으면 k3와 av..

기초통계 2022.09.05

상관과 회귀 : 회귀분석

상관과 회귀 : 회귀분석 KEYWORD 지도학습 예측 회귀분석, 분류분석 잔차 최소제곱법 R제곱과 피어슨 상관계수 더미코딩 범주 설정하기 지도학습 독립변수 x를 이용해서 종속변수 y를 예측하는 것 독립변수 independent variable 종속변수 dependent variable 예측의 바탕이 되는 정보, 인과관계에서 원인, 입력값 예측의 대상, 인과관계에서 결과, 출력값 통계에서 '예측'이란? 어떤 값에 대한 추론을 의미함 (시간적인 의미는 아님) 지도학습에서 예측은 변수들 사이의 패턴을 파악해서 한 변수로 다른 변수를 추론하는 것 시계열 분석 등에서 하는 미래에 대한 예측은 forecasting. 종속변수에 따른 지도학습 구분 회귀분석 regression 분류분석 classification • ..

기초통계 2022.09.05