본문 바로가기

통계학(Statistics)

중학생도 이해하는 쉬운 데이터 분석(수정중...)

- 본 글은 강의를 듣고 정리한 내용입니다. 그래서 다소 이해도가 떨어질 수 있습니다.

 

 

1. 프로젝트 순서

 

 문제 인식 - 관련 연구 조사 - 모형화 - 자료 수집 - 자료 분석 - 결과

 

 학부 때 진행했던 대부분의 프로젝트는 엉망인 걸 인지했다. 위 순서는 일반적으로 프로젝트가 흘러가야할 순서다. 근데 주제를 선정할 때 문제를 찾은게 아니라 그냥 우리가 알고 익숙한 기법을 정하고 그거에 맞는 어떤 대상을 찾아 문제가 아닌데 문제로 만들어 프로젝트를 진행했다. 두 번째는 관련 연구 조사이다. 부끄럽지만 자료를 찾는 법도 잘 모른다. 회사에 업무를 할 때도 모르는 게 나오면 혼자 고민해봐야 답이 안나오고 과거에 비슷한 문서를 찾아봐야하는 경우가 많다. 그 다음에서야 어떠한 요소들이 필요한지 파악하고 자료를 수집해야한다. 

 

2. 평균에 관하여 

 

"No one is average" 

 

인간공학 시간 ppt에 적힌 말이었다. 가슴둘레, 팔둘레, 어깨 등의 칫수를 평균내어 옷을 제작하면 실제로는 그 옷을 아무도 입을 수 없다고 한다. 하지만 우리는 일상 생활에서 평균이라는 단어를 자주 사용한다. 왜냐하면 평균은 가장 집단을 나타내기 쉬운 대표값이기 때문이다.

https://www.youtube.com/watch?v=4eBmyttcfU4

다음 주소는 TED에서 The myth of average를 주제로 강연한 자료이다. 원래 평균에 관한 내용을 보려고 들어 갔다가 교육 전반에 있어 design for edge의 철학을 느낄 수 있었다. 

 

평균에도 다양한 종류의 평균이 존재한다. 

1. 산술 평균(Arithmetic mean)

2. 기하 평균(Geometric mean)

3. 조화 평균(Harmonic mean)

4. 중앙값(Median)

5. 최빈값(Mode)

 

데이터의 분포에 따라 어떤 평균을 사용할지 정해야한다. 예를 들어 종모양의 분포(키, 몸무게) 등의 경우는 중앙값, 평균, 최빈수 등이 다 비슷할 것이다. 하지만 소득같은 경우는 오른쪽이 긴 꼬리 모양을 뛰기 때문에 평균값이 의미가 적다. 

 

3. 흩어저 있는 정도에 관하여

 

 데이터가 얼마나 흩어져있는지 보려면 표준편차(std) 혹은 범위(range)를 보면된다. 

 

4. 퍼센트에 관하여

 

퍼센트는 2개의 숫자를 한 눈에 보기위해 사용한다. 

하지만 속임수가 많아 유심히 봐야한다. 예를 들어 타율이 3할3푼인 타자와 2할9푼인 타자를 비교할 때, 퍼센트만 보면 3할 3푼인 타자가 좋아보일지 모르지만 만약 2할 9푼인 타자가 타석수가 훨씬 많다면 후자가 더 좋은 타자일 것이다. 

% VS %p의 차이 : %p는 같은 기준의 퍼센트 차이를 나타냄

 

5. 확률에 관하여

 

"Most important issue in life is just probablilstic choices." 

선험적 확률(mathematical probability= 수학적 확률)

경험적 확률(empirical probabilty = 통계적 확률)

ex -) Benford`s law - 사람들의 행동을 분석하면 통계적 확률이 계산 가능해진다, 그걸 시스템에 이용? 

 

도박사의 오류(Gambler's Fallacy; Monte Calro Fallacy), Law of lagre number

유용성의 오류(availability bias), Murphy's Law

모집단(population) , 표본(smaple) ----> estimate, 독일 세계전쟁

신뢰성 있는 추정을 하기 위해서는 좋은 표본을 뽑아야한다.

 

얼마나 많이 뽑아야 모집단을 대표할 수 있는지 아는 것도 중요함.

(모집단의 다양성, 얼마나 좋은 정확도) 

https://www.qualtrics.com/experience-management/research/determine-sample-size/

how to determine sample size.

population size, confidence level, confidence interval, std

 

6. 상관관계와 인과관계

상관관계가 높다고 해서 인과관계가 높은 것은 아님.

ex) 아이스크림 판매량, 익사 사고량

 

7. 비교

무엇을 비교해야하는 가?

비교의 특성이 동일 한가, 비교되는 특성 이외의 것들은 비슷해야 한다. 

ex ) 해군 사망률 vs 뉴욕시 사망률

- 해군은 건강한 청년, 뉴욕시는 전체 집단이므로 비교가 불가능. 

오류

- 맑은 날이 비온 날 보다 교통사고가 더 많이 난다. 

- 빠르게 달릴 때 보다 보통 속도로 달릴 때 더 사고가 많이 난다.

 

8. 통계로 사기침

나쁜 사람들

메카시즘(Mccarthysim), 숫자를 인용함. (? 근데 요즘은 킹튜브가... 다 증명해주지 않을까)

 

9. 창의성은 통계로부터

창의력과 분석은 밀접하게 연관되어있다. 

어떤 현상을 계량적(Quantitative)으로 분석 하는 것.

ex) 아르키메데스