기초통계 39

[실습] 집단분석 : Depression.xlsx 데이터

집단분석 [1단계] 데이터 불러오기 # 데이터셋 불러오기 import pandas as pd dp = pd.read_excel('c:\\data\\depression.xlsx') dp.head() dp.head() dp.info() y : 치료효과 [2단계] 집단의 등분산성 비교하기 levene 검정 · 귀무가설 : 분산이 같다. import pingouin as pg pg.homoscedasticity(dv='y', group='TRT', data=dp) > 결과 : pval가 0.000416 으로 0.05 보다 작다. 분산이 같다는 귀무가설을 기각하고, 등분산성을 만족하지 않는 것으로 보고 진행한다. 집단 분석에서 등분산성을 만족하지 않을 때 > welch_anova [3단계] 분산분석 · 귀무가설 ..

기초통계 2022.08.25

[기초통계] 상관과 회귀 : 상관분석, 상관계수, 상관과 인과

상관과 회귀 : 상관분석 KEYWORD 상관계수 기울기 공분산 피어슨 적률 상관계수 스피어만 상관계수 켄달 상관계수 상관과 인과 • 제3 변인의 존재 • 이질적인 집단들의 합 (심슨의 역설) • 극단치(outliers) 상관계수 두 변수의 연관성을 -1 ~ +1 범위의 수치로 나타낸 것 • 두 변수의 연관성을 파악하기 위해 사용 • 어휘력과 독해력의 관계 • 주가와 금 가격의 관계 • 엔진 성능과 고객만족도의 관계 상관계수의 해석 부호와 크기 • 부호: - + : 두 변수가 같은 방향으로 변화(하나가 증가하면 다른 하나도 증가) - - : 두 변수가 반대 방향으로 변화(하나가 증가하면 다른 하나는 감소) • 크기: - 0 : 두 변수가 독립, 한 변수의 변화로 다른 변수의 변화를 예측하지 못함 - 1 :..

기초통계 2022.08.20

[기초통계] 집단 비교 : 분산분석 - 다중비교, 사후검정, 카이제곱검정

분산분석 다중비교 multiple comparison • 분산 분석은 한 번에 여러 집단 비교 가능 • 독립표본 t-검정은 한 번에 두 집단만 비교 가능 • 집단이 여러 개 있을 경우 독립표본 t-검정은 집단 간의 모든 짝을 비교해야 함. - 집단이 k개일 경우 필요한 비교 횟수 = k(k-1) / 2 FWER Familywise Error Rate 다중 비교를 할 경우 적어도 한 번 1종 오류가 발생할 확률 • 세 집단이 모집단에서 평균이 모두 같은 경우 유의수준 5%인 비교를 3번해서, 3번 모두 1종 오류를 피할 확률(독립적이라고 가정할 경우): 95% × 95% × 95 % ≈ 86% • 바꿔 말하면 적어도 한 번 1종 오류가 발생할 확률(FWER)은 14% • 비교를 많이 할 수록 FWER은 증..

기초통계 2022.08.19

[기초통계] 집단 비교 : 독립표본 t검정, 검정력, 효과크기, 분산분석, 분할표

집단비교 A/B 테스트와 MVP를 만들어 실험을 했다. 그럼 통계적으로는 어떻게 분석해야 할까? Multi - Armed Bandit 솔루션 딜레마를 해결하기 위해 대규모 서비스 같은 경우에는 이 솔루션을 사와서 실험 추이를 보며 리소스 통제 계획을 정한다. 예) optimizely 집단 비교 통계 처리 순서도 '종속변수'의 예 - A와 B군중 어디가 매출이 더 잘 나오는가? > 매출은 연속된 값 > 연속형 - 가입을 하느냐, 탈퇴를 하느냐? > 가입 아니면 탈퇴 > 범주형 독립표본 t-검정 두 집단의 평균 차이 𝑋1: 대조군 평균 𝑋2: 실험군 평균 • 두 집단의 모집단이 모두 정규분포를 따르거나, 또는 각 집단의 크기가 충분히 큰 경우 (𝑛 > 30) t-분포를 이용해서(𝑋1 − 𝑋2)의 신뢰구간을 ..

기초통계 2022.08.18

[기초통계] A/B 테스트

A/B 테스트 A/B 테스팅 과학 분야에서 무작위 대조군 실험 (Randomized Controlled Trials) • 주로 웹 서비스 등의 분야에서 A/B 테스팅이라는 명칭을 사용 • 고객들에게 서로 다른 웹 페이지나 광고를 보여주고 목표 지표(예: 전환율)를 측정 • https://goodui.org/leaks/ Leaks | GoodUI goodui.org 예시: 중고거래 키워드 알림 등록 UI 근거 기반 의학에서 근거의 수준 • Level I : 무작위 대조군 실험에서 얻어진 근거 ▲ 가장 강한 근거로 보는 것 (A/B testing) • Level II-1 : 대조군 실험에서 얻어진 근거(무작위 할당이 아님) • Level II-2 : 동일 집단 연구 등 • Level II-3 : 대조군이 없..

기초통계 2022.08.18

[기초통계] 통계적 가설 검정

통계적 가설 검정 Karl Pearson, Ronald Fisher 등 통계학의 초기 인물들이 개발한 절차 • 반증주의 철학에 기반하고 있어 일반적인 과학적 가설 검정과 다르며, 많은 비판이 있었으나, 오랫동안 쓰여왔기 때문에 여전히 널리 쓰임. 통계적 가설 검정의 절차 귀무가설 수립 → 유의수준(α) 결정 → p-값 계산 → p값과 유의수준 비교 (1) 귀무가설 수립 • 귀무가설 null hypothesis : 기각하고자 하는 가설 • 대립가설 alternative hypothesis : 주장하고자 하는 가설 (2) 유의수준 결정 • 유의 수준 (α) significance level : (100% - 신뢰수준) (3) p-값 계산 • p-값 : 귀무가설이 참일 때 검정통계량 이상이 나올..

기초통계 2022.08.18

확률과 통계 II : 모집단, 표본 그리고 표집

확률과 통계 II 모집단과 표본 • 모집단 population : 연구의 관심이 되는 집단 전체 • 표본 sample : 특정 연구에서 선택된 모집단의 부분 집합 • 표집 sampling : 모집단에서 표본을 추출하는 절차. "표본 추출"이라고도 함 대부분의 경우 집단 전체를 전수조사하기는 어려우므로 무작위로 표본을 추출하여 모집단에 대해 추론한다. 모수 population parameter 파라미터 parameter : 어떤 시스템의 특성을 나타내는 값 모수 : 모집단 population의 파라미터 → 모집단의 특성을 나타내는 값 예시: • 모집단의 평균 (모평균) • 모집단의 분산 (모분산) 주의. "표본의 크기"를 "모수"라고 하는 경우도 있으나 이는 잘못된 표현 모수를 구하기 위해서는 전수조사가 ..

기초통계 2022.08.16

확률과 통계 I

확률과 통계 I 사례와 변수 • 사례 case 데이터 수집의 단위 (예: 고객, 제품, …) • 변수 variable 사례에 따라 달라지는 값 (예: 나이, 가격, …) 데이터를 표로 정리해보면, • 행(row) : 표에서 가로 방향 한 줄/ 하나의 사례 • 열(column) :표에서 세로 방향 한 줄 / 하나의 변수 변수 변수 ? 범주형 변수 종류, 이름 등에 해당한다. • 숫자로 표시하더라도 양적인 개념이 아니며, 덧셈 등 대부분의 연산이 의미가 없음 즉, 범주형 변수는 평균을 내면 안된다. • 순서가 있을 수도 있으나, 간격이 일정하지 않음 예: 주거 형태, 고향, 학력, 출석 연속형 변수 연속적인 형태 정수나 실수로 표현할 수 있는 것 • 간격이 일정하고 덧셈, 뺄셈 등의 계산이 의미가 있음 예:..

기초통계 2022.08.16

실험설계

실험설계 '통계' 왜 필요한가? '통계' 는 이야기, 특정한 사례, 유사성, 결정론적인것에서 우리를 벗어나게 해준다. 휴리스틱과 편향 휴리스틱 그리스어로 발견( eureka). 경험적으로 괜찮은 답을 찾는 방법, 발견법, 추단법, 어림법 등으로 번역 심리학자 아모스 트버스키와 다니엘 카네만의 연구 사람들은 쉽고 간단한 휴리스틱으로 생각하고 어떤 경우에 휴리스틱은 잘 맞지 않는다. (카네만은 이 연구로 2002 노벨 경제학상 수상) 휴리스틱에 휘둘리지 않으려면 통계가 중요하다. 과신 (overconfidence) 사람들이 자신의 능력을 과대평가하는 경향 예) 운전자의 90%는 자신이 평균 이상의 운전 실력을 가지고 있다고 생각한다. ↑ 자신의 능력을 휴리스틱으로 판단하기 때문에 생기는 현상 보통은 잘하는 ..

기초통계 2022.07.26