기초통계 39

예제를 활용한 가설검정과 분석도구

📢 본 포스팅은 통계청 통계교육원(https://sti.kostat.go.kr/coresti/site/main.do) 의 이러닝 교육과정 통계패키지 학습을 위한 필수 통계지식(2023) 교육 자료를 기반으로 한 학습입니다. 교육자료 원본은 하단 사이트 내 수강 신청하시면 강의와 함께 열람하실 수 있습니다. https://sti.kostat.go.kr/coresti/site/edu/edu_ulearn/list.do?gmenu=3&rmenu=01&cmenu=0104 가설검정과 분석도구 일표본 평균 검정에 대한 문제이다. Q 1인 가구의 생활비가 (N=170, σ=10)를 따른다고 알려져 있다. 하지만 최근 1인 가구 생활비가 170만원보다 커졌다고 하는 반론이 강하게 제기되었다. 이를 검정하려고 한다. 1인..

기초통계 2023.09.04

[텍스트 분석] 희소행렬

희소행렬 Sparse matrix 희소행렬 Sparse matrix 문서 단어 행렬에서 대부분의 값은 0 이다. 이러한 행렬을 희소(sparse) 행렬이라 함 ↔ 조밀(dense) > 행렬 형식으로 저장하면 용량을 많이 차지하므로 용량을 아끼기 위해 0을 빼고 저장하는 압축 방법을 사용. 압축방식 · Coordinate list · Compressed Sparse Row Coordinate list Compressed Sparse Row 0이 아닌 값을 (행, 열, 값) 형식으로 저장 예: [(0, 0, 10), (0, 1, 20),(1, 1, 30), (1, 2, 40), (2, 3, 50)] • 값과 열번호를 별도로 저장. • 행번호 대신, 값에서 각 행의 시작과 끝 인덱스를 저장하여 행번호를 압축...

기초통계 2022.10.11

[텍스트 분석] 자연어 : 문서 단어 행렬

텍스트 분석 : 자연어 KEYWORD 자연어 문서단어행렬 자연어 Natural Language 자연어 natural language : 한국어, 영어 등 자연스럽게 생겨난 언어 인공어 constructed language - 에스페란토(1887): 자멘호프가 국제적 의사소통을 위해 개발 - 나비 : 영화 아바타의 외계인 언어로 사용하기 위해 개발 통제 자연어 controlled natural language 형식어 formal language : 수식, 프로그래밍 언어 등 자연어 특징 • 규칙이 복잡하고, 예외가 많음 • 음운론, 통사론, 의미론 등 다양한 수준으로 이뤄져 있음 종 류 설 명 예 음소 phoneme - 언어에서 소리의 가장 작은 단위, 그 자체로는 의미없음 형태소 morpheme - 의미..

기초통계 2022.10.04

[차원축소와 군집분석] 군집분석 : Clustering

군집분석 군집분석 Clustering • 비슷한 사례들을 '군집'으로 묶음 예: 비슷한 성향의 고객들을 묶어 군집별로 프로모션/상품 추천 등 • K-means, 위계적 군집분석, 가우시안 혼합 모형 등의 방법 군집분석의 필요성 보통 고객을 성별, 연령 등 인구학적 변수에 따라 그룹화하는 것이 흔함. 그러나, 고객들은 그렇게 단순하게 나눠지지 않으며, 정확성도 떨어짐 ∴ 데이터에 기반해서 고객들을 그룹화할 필요가 있음 → '군집 분석' 필요 분류분석과 군집분석의 차이 로지스틱 회귀분석과 같은 분류분석에서는 각 사례의 범주가 관찰변수 군집분석에서는 각 사례의 범주가 직접 관찰되지 않은 잠재변수 K-Means 가장 널리 사용되는 클러스터링 방법 > 군집의 평균(중심점)을 구해서, 사례를 중심점이 가장 가까운 ..

기초통계 2022.10.04

[기초통계] 차원 축소와 군집 분석

차원 축소와 군집 분석 비지도 학습 unsupervised learning 주어진 데이터의 내재적 구조를 분석 지도학습과 달리 데이터 자체에 정답이 없음 • 종류: - 차원 축소 dimensionality reduction (점수만들기) - 군집 분석 clustering (비슷한 것끼리 모으기) 차원 축소 Dimensionality Reduction 데이터에서 차원 = 변수의 수 차원이 크면 ? • 시각화가 어려움 (대부분 시각화는 2차원) • 이해하기 어려움 (사람이 생각할 수 있는 차원에는 한계) • 분석하기 어려움 (차원이 클수록 과적합이 일어나기 쉬움) > 변수가 늘어난다 = 차원이 늘어난다. (수정 R제곱, AIC, BIC는 이런 것을 보정해준다.) • 차원 축소: 차원을 줄이는 다양한 기법들 ..

기초통계 2022.09.15

상호작용과 인과 : 횡단 비교와 종단 비교

횡단 비교와 종단 비교 KEYWORD 횡단비교와 종단비교 이중차분법 횡단비교 & 종단비교 • 횡단(cross-sectional) 비교: 동일 시점에 다른 대상이나 집단을 비교 • 종단(longitudinal) 비교: 동일 대상을 다른 시점 간 비교 이중차분법 Difference-in-Differences 실험이 불가능한 상황에서 사용하는 준실험적 방법 • 실험군 A에 어떤 처치를 했으나 대조군 B가 없을 때 • A와 비슷한 집단 B를 이용하여 비교 > 결과 해석 d = (A2 - A1) - (B2 - B1) d = 0, 실험군 A에서 변화는 대조군 B에서의 변화와 비슷 → 처치 효과 X d ≠ 0, 실험군 A에서 대조군 B와 다른 변화를 관찰 → 처치 효과 O 평행 추세의 가정 parallel trend..

기초통계 2022.09.13