기초통계

실험설계

2022. 7. 26. 00:57

실험설계

 


'통계'  왜 필요한가?


'통계' 는 이야기, 특정한 사례, 유사성, 결정론적인것에서 우리를 벗어나게 해준다.


휴리스틱과 편향

휴리스틱

그리스어로 발견( eureka).

경험적으로 괜찮은 답을 찾는 방법, 발견법, 추단법, 어림법 등으로 번역

심리학자 아모스 트버스키와 다니엘 카네만의 연구

사람들은 쉽고 간단한 휴리스틱으로 생각하고 어떤 경우에 휴리스틱은 잘 맞지 않는다.

(카네만은 이 연구로 2002 노벨 경제학상 수상)

 

휴리스틱에 휘둘리지 않으려면 통계가 중요하다.

 

과신 (overconfidence)

사람들이 자신의 능력을 과대평가하는 경향

 예) 운전자의 90%는 자신이 평균 이상의 운전 실력을 가지고 있다고 생각한다.

        ↑ 자신의 능력을 휴리스틱으로 판단하기 때문에 생기는 현상

 

보통은 잘하는 일만 함 → 나는 모든 일을 잘 한다라고 착각

 

 

사후 확신 편향 (hindsights bias)

어떤 일이 지나고 난 뒤에 "내 그럴 줄 알았지"라고 생각
실제로는 몰랐음
과신의 한 형태

 

 

사후 판단 편향 : 잠행성 결정론(creeping determinism)

결과를 알고 나서 생각해보면 모든 것이 그렇게 될 수 밖에 없었던 것처럼 결정론적으로 느껴지는 것

 •  결정론: 모든 사건이 이전의 원인에 의해 결정되어 있다는 관점

 •  잠행성(creeping) 결정론: 후견지명의 한 형태

 


우리가 생각하는 법의 여러가지 특징들의 공통적인 문제점

: 불확실성과 다양한 가능성에 대한 고려가 없다.

 


 

'통계'  왜 어려운가?


 통계학은 매우 늦게 형성되었다. 19세기 후반 - 20세기 초반에 시작

대학에 "통계학과"가 설립된 것은 1911년이 처음(영국 UCL)

기존에 인류의 자연스러운 사고방식과는 동떨어져 있다.

 

 통계학은 특성상 많은 계산이 필요하다.

→  그러나 초기 통계학이 형성된 20세기 초반에는 현대적 컴퓨터가 없었다

→  이해하기 쉬운 논리보다 손으로 쉽게 계산할 수 있는 형태의 특정한 방법론들이 발전했다.

 

통계학의 개념들은 일상적, 직관적 관점에서는 이해가 어렵다

해결책? 직관적 관점에서 이해하지 말고, 통계적 관점을 "수용"할 필요가 있다.

 

 


'통계'  무엇을 할 수 있을까?


• 대상의 특성을 수치로 표현하기
부분을 통해 전체를 추측하기
•  비교하기
•  예측하기
•  영향력을 미치는 변수 찾기
•  지수(index) 만들기
•  비슷한 것끼리 모으기

 

대상의 특성을 수치로 표현하기

대상의 관찰할 수 있는 특성은 무엇이든 수치로 표현할 수 있다.

양적인 것은 물론, 질적인 것도 수치화 가능

그 수치는 객관적이지 않아도 된다 (예 : 만족도)

 수치가 대상을 파악하기에 좋은 성질을 가지고 있는가?

 수치들을 잘 요약하여 효과적으로 정보를 전달

 

 

부분을 통해 전체 추측하기

대부분 우리는 대상의 일부만을 관찰할 수 있다.

 - 여론조사 : 전국민 중 소수를 대상으로 조사

 - 면접 : 한 개인의 인생에서 한 순간만을 조 사

 

현실에서는 우연과 불확실성이 존재

 - 성실한 사람도 면접에 늦을 수 있음

 

부분을 통해 전체를 합리적으로 추측하는 것이 중요하다

 

 

비교하기

여러개의 대상을 비교해야 하는 경우가 많이 있다.

- 임상시험

-  A/B 테스트

 

대상들 차이에 어떤 차이가 있는가?

그 차이는 정말로 존재하는 것인가?

그 차이가 대상들 자체의 특성에 기인한 것인가?

 

예측하기

어떤 특성을 다른 특성들 보다 쉽게 알 수 있음.

 예) 주택 입지, 교통, 환경 등은 쉽게 파악 가능하지만 가격은 거래가 성사되어야 알 수 있다.

 

한 대상의 여러가지 특성들은 서로 관련을 맺고 있다

쉽게 알 수 있는 다른 특성들로부터 알기 어려운 어떤 특성을 예측할 수 있다

여기서 예측은 미래에 대한 예측만을 의미하는 것은 아님.

 

 

영향력을 미치는 변수 찾기

대상의 한가지 특성은 여러가지 특성으로부터 영향을 받는다

  예) 고객의 만족도는 가격, 친절한 응대, 서비스질, 경쟁 서비스의 특성 등에 영향

 

어떤 특성은 다른 특성보다 직접적으로 변화시키기 쉽다.

  예) 고객의 만족도를 직접 높일 수는 없지만, 더 친절하게 응대하도록 변하는 것은 쉬움

 

목적으로 하는 특성에 영향이 큰 변수를 분별

해당 변수를 높이거나 낮추어 목적으로 하는 특성을 조절

 

지수 만들기

대상의 특성 중에는 직접적으로 관찰하기 어려운 것이 있다.

   예) 고객 만족도, 사랑, 유전자 등

이러한 특성은 관찰 가능한 다른 특성들과 연관을 맺고 있다

   예) 고객 만족도가 높으면, 재구매, 추천 등 행동을 많이 한다.

 

관찰 가능한 특성들을 바탕으로 관찰하기 어려운 특성을 지표화 할 수 있다.

 이들 지표를 통해 관찰하기 어려운 대상을 통계적으로 다룰 수 있다.

 대상 자체가 실재하지 않는다 해도, 이 지표를 통해 의사결정이 쉬워진다.

    예) 고객 만족도가 존재하지 않아도, 그 지표가 매출에 선행한다면 고객 만족도 향상을 통해 매출을 높일 수 있음(도구주의)

 

 

비슷한 것끼리 모으기

비슷한 것을 모아서 하나의 집단으로 인식하면 편리한 경우가 있음

  예) 비슷한 고객들에게 같은 프로모션 추천 가능

  예) 합정-홍대는 같은 상권으로 보지만 신촌은 별개의 상권으로 인식됨.

 

애상의 다양한 특성을 바탕으로 비슷한 것끼리 모을 수 있다

 

 

 


데이터 분석 주제 선정에 있어서

정책 데이터 분석의 어려운 점

정책을 비교하기

정책은 전국적으로 적용된다.

 

 <경우의 수>

  여당 지지자 : 이번 정책을 잘해서 100만 명 확산될 것을 50만 명에서 막았다. 

  야당 지지자 : 정책을 잘못 수립해서 10만 명 정도로 막을 수 있었던 것이 50만 명으로 확산되었다.  

  미국 연방제 주마다 정책이 다름

 

과거 시간 변화로 인사이트 도출하여 미래예측이 어렵다는 것

 

- 과거에 아이폰을 쓰던 사람은 그 다음에도 아이폰을 쓸까?

- 애플이 앞으로도 잘 나갈까?

- 애플은 하나밖에 없고 시간적 단위가 크다. 

  [필립 테틀록] 전문가들 5년 이상 지나면 예측 잘 못함.

 

예측이 쉬우려면, 시간적으로든 사람이나 사례가 반복이어야 한다.

반복되는 현상이 없거나 사례가 적거나 과거의 경험이 계속 유효할지 알 수 없다면 미래 예측이 어렵다.

 

개별 주택 가격(300만채)이 얼마면 적정할까? -> 예측 쉬움

서울 주택 시장의 동향은 어떻게 될까? -> 예측 어려움

 


 

' 데이터 모으기 ' 


  • 공공데이터
  • 인터넷 스크래핑
  • 기업 등 내부자료
  • 직접수집

 

데이터를 직접 수집하는 방법들

  물리적 측정을 해야 하는 경우보다 정성적, 주관적 반응을 수집해야 할 경우가 많음
•  사람에게 직접 물어볼 경우 → 설문
•  관찰을 할 경우 → 구체적 행동이나 현상을 코드화하여 채점
•   고객들이 많은 관심을 보였다 → 쳐다보기, 만지기, 손으로 가리키기, 질문하기 등

 

설문의 장·단점

장점 : 낮은 비용,  다양한 주제, 다양한 도구와 분석기법,  많은 노하우

단점 : 정직하지 않은 답변, 무응답, 편향
            문항 형식의 제한

            문항 설계의 어려움, 피로도
            구체적인 행동을 관찰하는 것이 가장 바람직

 

 

질문 작성하기

작성방법 수정 전 수정 후
질문은 간단 명료하게  ~하지 않는 것에 반대하십니까?  ~에 찬성하십니까?
답변을 유도하는 질문을 하지 않도록 ~라는 불법적 행위에 반대하십니까? ~에 반대하십니까?
하나의 문항에서는 한 가지만 질문 A와 B에 대해 어떻게 생각하십니까? A에 대해 어떻게 생각하십니까?
양이나 빈도는 최근 일정 기간에 대해 영화를 자주 보십니까? 지난 1개월간 영화를 몇 편 보셨습니까?
가상적 상황보다는 
구체적인 경험에 대해 질문
~라는 제품이 나오면 
구매 하시겠습니까?
~한 제품을 구매하신 적이 있습니까?
응답자가 알고 있거나 기억할 수 있는 질문    
정치적 견해, 사생활 등에 
관련된 질문에는 주의
   

 

 

문항형식

· 여러개 중에 하나를 고르기보다 각각의 항목에 대해 빈도나 정도를 질문.

   예) 유튜브, 넷플릭스, 틱톡 중 가장 많이 시청하는 것은 무엇입니까?    유튜브를 얼마나 시청하십니까?

 

· 구체적인 수치로 답할 수 있는 경우 주관식으로 질문.

· 구체적으로 답하기 어려운 경우 기준을 단계별로 제시하여 고르게 할 수 있음

    예) 거의 하지 않는다  / 시간 날 때만 한다  /  그것을 하기 위해 시간을 따로 낸다 /  그것을 하느라 중요한 것을 못한 적이 있다

            전혀 그렇지 않다(1) ~ 매우 그렇다(5) 형식도 가능