JMP/기본 통계

기본 통계 2. 기술통계 - 대표값

Notbee 2024. 2. 22. 21:02

기본 통계 2. 기술통계 - 대표값

 

지난 시간에는 기술통계를 수행하기 전에 앞서 데이터 품질 체크 및 정규성 검정을 수행하는 법을 정리하였다. 오늘은 기술통계 중 대표값을 얻어내는 작업을 해보고자 한다.

기술통계 순서

1. 데이터 품질을 시각적으로 체크 (그래프를 눈으로 확인하기)
2. 정규성 검정
3. 기술통계 분석 수행

 

대표값이란 모집단을 가장 잘 대변하는 값이라고 할 수 있다. 다음과 같은 종류가 있다.

 

평균값 (Mean)
- 관측치의 총합을 관측치의 개수로 나눈 값

중앙값 (Median)
- 데이터를 크기에 따라 정렬하였을 때 가운데에 위치하는 값

최빈값 (Mode)
- 데이터의 빈도수가 가장 큰 값

 

평균값이 아마 가장 자주 사용하는 값일 것이다. 유의해야 할 점은 평균값은 극단값이 포함되어 있을 때 왜곡 될 수 있다는 것이다. 또한, 값이 정규분포가 아니거나 skewed distribution일 경우 대표성이 떨어질 수 있다.

 

극단값에 의한 영향을 낮추기 위해서는 양 극단의 5%나 10% 정도를 삭제하고 분석하는 절삭평균 (Trimmed Mean)을 활용할 수 있다. 단, 데이터의 표본 갯수가 적을 시에는 이 역시 데이터의 왜곡을 야기할 수 있다.

 

중앙값의 경우 데이터가 홀수 일 때는 가운데 두 값의 평균을 중앙값으로 선정한다.

 

최빈값은 측정값과 별개로 가장 빈도수가 많은 데이터를 선정한다.

 

1. 지난 정규성 검정 글을 참고하여 정규성 검정을 수행한다.

https://notbee.tistory.com/71

 

기본 통계 2. 기술통계 - 정규성 검정

기본 통계 2. 기술통계 - 정규성 검정 정규분포(Normal Distribution)는 종 모양의 좌우대칭 그래프이다. 영어 단어에서 알 수 있듯이 자연스러운, 정상의, 표준의 뜻을 가지고 있으며 데이터가 자연스

notbee.tistory.com

 

 

2. p-value가 0.05 이상이므로 해당 데이터 세트는 정규분포를 따른다고 가정할 수 있다.

2

 

 

3. 정규분포를 따르므로 평균값을 대표값으로 생각할 수 있다. Summary Statistics에 Mean 값을 확인할 수 있다.

3

 

4. 위에서 배운 중앙값, 최빈값, 절삭평균을 같이 확인해보자. Summary Statistics 핫스팟 - Customize Summary Statistics를 클릭한다.

 

4

 

5. Median, Mode, Trimmed Mean을 체크한다. 밑에 절삭할 퍼센트를 입력한다 (Default: 5)

5

6. 원하던 값들을 Summary Statistics에서 확인할 수 있다. 정규분포를 따르므로, 값들에 큰 차이가 없음을 알 수 있다.

 

6

 

https://notbee.tistory.com/69

 

기본 통계 0. 목차

0. 목차 1. Intro - 생명공학 전공자가 통계를 배워야 하는 이유 (https://notbee.tistory.com/67) - 통계적 사고와 문제해결 (https://notbee.tistory.com/68) 2. 기술통계 - 모집단과 표본 - 정규성 검정 - 대표값 - 산

notbee.tistory.com

글쓴이는 통계 전공자가 아니라는 점 참고 부탁드리며 관련하여 틀린 사항에 대한 지적이나 질문은 언제든지 환영합니다.