표준화 2

[기초통계] 차원 축소와 군집 분석

차원 축소와 군집 분석 비지도 학습 unsupervised learning 주어진 데이터의 내재적 구조를 분석 지도학습과 달리 데이터 자체에 정답이 없음 • 종류: - 차원 축소 dimensionality reduction (점수만들기) - 군집 분석 clustering (비슷한 것끼리 모으기) 차원 축소 Dimensionality Reduction 데이터에서 차원 = 변수의 수 차원이 크면 ? • 시각화가 어려움 (대부분 시각화는 2차원) • 이해하기 어려움 (사람이 생각할 수 있는 차원에는 한계) • 분석하기 어려움 (차원이 클수록 과적합이 일어나기 쉬움) > 변수가 늘어난다 = 차원이 늘어난다. (수정 R제곱, AIC, BIC는 이런 것을 보정해준다.) • 차원 축소: 차원을 줄이는 다양한 기법들 ..

기초통계 2022.09.15

회귀분석 : 다중회귀분석

상관과 회귀 : 다중회귀분석 KEYWORD 다중회귀분석 통계적 통제 표준화 모형선택 과적합 AIC, BIC 다중회귀분석 독립변수가 2개 이상인 회귀분석 Python에서는 관계식에서 +로 변수를 구분 예) 'price ~ mileage + model' from statsmodels.formula.api import ols m = ols('price ~ mileage + model' , df).fit() m.summary() price = (-0.0052 × mileage) + (22.3125 x model) + 1251.1755 > 'K3'라면 model에 1 대입 다중회귀 분석을 하는 이유 22만원 차이는 주행거리를 통제했을 때의 차이인 것이다. 단순히 k3와 아반떼의 가격비교 질문을 받으면 k3와 av..

기초통계 2022.09.05