분류 전체보기 299

[기초통계] 차원 축소와 군집 분석

차원 축소와 군집 분석 비지도 학습 unsupervised learning 주어진 데이터의 내재적 구조를 분석 지도학습과 달리 데이터 자체에 정답이 없음 • 종류: - 차원 축소 dimensionality reduction (점수만들기) - 군집 분석 clustering (비슷한 것끼리 모으기) 차원 축소 Dimensionality Reduction 데이터에서 차원 = 변수의 수 차원이 크면 ? • 시각화가 어려움 (대부분 시각화는 2차원) • 이해하기 어려움 (사람이 생각할 수 있는 차원에는 한계) • 분석하기 어려움 (차원이 클수록 과적합이 일어나기 쉬움) > 변수가 늘어난다 = 차원이 늘어난다. (수정 R제곱, AIC, BIC는 이런 것을 보정해준다.) • 차원 축소: 차원을 줄이는 다양한 기법들 ..

기초통계 2022.09.15

상호작용과 인과 : 횡단 비교와 종단 비교

횡단 비교와 종단 비교 KEYWORD 횡단비교와 종단비교 이중차분법 횡단비교 & 종단비교 • 횡단(cross-sectional) 비교: 동일 시점에 다른 대상이나 집단을 비교 • 종단(longitudinal) 비교: 동일 대상을 다른 시점 간 비교 이중차분법 Difference-in-Differences 실험이 불가능한 상황에서 사용하는 준실험적 방법 • 실험군 A에 어떤 처치를 했으나 대조군 B가 없을 때 • A와 비슷한 집단 B를 이용하여 비교 > 결과 해석 d = (A2 - A1) - (B2 - B1) d = 0, 실험군 A에서 변화는 대조군 B에서의 변화와 비슷 → 처치 효과 X d ≠ 0, 실험군 A에서 대조군 B와 다른 변화를 관찰 → 처치 효과 O 평행 추세의 가정 parallel trend..

기초통계 2022.09.13

상호작용과 인과 : 인과효과

상호작용과 인과 : 인과효과 인과관계는 예측이 가능해야 한다. 증거의 사다리 각각의 기법이 주는 증거의 수준 '어떤 증거가 더 우월한 증거인가? 더 높은 수준의 기법이 주는 결과는 더 진실에 가까움 1. 실험적 통제 2. 무작위 대조군 3. 준실험 4. 반사실 실험적 통제 처치를 제외한 다른 모든 조건을 동일하게 유지 • 인과관계를 확인할 수 있는 최선의 조건 • 물리학, 화학 등 일부에서만 가능 예) 실험용 쥐(유전자가 다 똑같은 일란성 쌍둥이임)로 실험 : 즉 실험조건 왜 모든 것을 동일하게 맞춰줌. 무작위 대조군 모든 조건을 완벽하게 통제할 수 없을 경우 • 실험군과 대조군에 무작위 할당 • 표집 오차가 있을 수 있음 • 생물학, 사회과학 등에서 주로 사용 ☑ 일반적으로 무작위 대조군 실험이 까다로..

기초통계 2022.09.13

상호작용과 인과 : 상호작용

상호작용과 인과 : 상호작용 상호작용 Interaction 두 독립변수의 곱으로 이뤄진 항(xm) • 관계식으로 쓸 때는 : 을 사용 y ~ x + m + x:m • 관계식에서 x*m 은 x+m + x:m 과 같음. (즉 더하기랑 곱하기를 다 해라) 예 시 • x 는 연속형 • m 은 0 또는 1만 갖는 범주형 변수 (설명의 편의를 위한 단순화) > 상호작용이 없는 경우 > 기울기가 달라지는 경우 > 기울기와 절편 모두 달라지는 경우 수식형태로 쓰면 y = ax + bm + c 계수를 포함해서 수식 형태로 쓰면 y = ax + bxm + c 계수를 포함해서 수식 형태로 쓰면 y = ax + bm + cxm + d • m에 따라 x의 절편이 바뀌는 것으로 해석 • m에 따라 x의 기울기가 바뀌는 것으로 해..

기초통계 2022.09.13

로지스틱회귀분석 : 혼동행렬, ROC_Curve

로지스틱 회귀분석 : 혼동행렬 KEYWORD 혼동행렬 (Confusion-Matrix) 정확도 (Accuracy) 정밀도 (Precision) 재현도 (Recall) 특이도 (Specision) F1 - score ROC Curve 혼동행렬 confusion matrix Python 에서의 혼동행렬 from statsmodels.formula.api import logit from sklearn.metrics import confusion_matrix m = logit('y ~ x1 + x2', df).fit() m.summary() # 로지스틱 회귀분석 import pandas as pd df = pd.read_excel('churn.xlsx') from statsmodels.formula.api im..

기초통계 2022.09.13

[Hacker Rank] Draw The Triangle 1

📢 본 포스팅에 활용되는 기본 문제 및 자료 출처는 HackerRank 임을 밝힙니다. https://www.hackerrank.com ■ 문제 https://www.hackerrank.com/challenges/draw-the-triangle-1/problem?isFullScreen=true Draw The Triangle 1 | HackerRank Draw the triangle pattern using asterisks. www.hackerrank.com P(R) represents a pattern drawn by Julia in R rows. The following pattern represents P(5): * * * * * * * * * * * * * * * Write a query to ..