기본 통계 2. 기술통계 - 대표값
지난 시간에는 기술통계를 수행하기 전에 앞서 데이터 품질 체크 및 정규성 검정을 수행하는 법을 정리하였다. 오늘은 기술통계 중 대표값을 얻어내는 작업을 해보고자 한다.
기술통계 순서
1. 데이터 품질을 시각적으로 체크 (그래프를 눈으로 확인하기)
2. 정규성 검정
3. 기술통계 분석 수행
대표값이란 모집단을 가장 잘 대변하는 값이라고 할 수 있다. 다음과 같은 종류가 있다.
평균값 (Mean)
- 관측치의 총합을 관측치의 개수로 나눈 값
중앙값 (Median)
- 데이터를 크기에 따라 정렬하였을 때 가운데에 위치하는 값
최빈값 (Mode)
- 데이터의 빈도수가 가장 큰 값
평균값이 아마 가장 자주 사용하는 값일 것이다. 유의해야 할 점은 평균값은 극단값이 포함되어 있을 때 왜곡 될 수 있다는 것이다. 또한, 값이 정규분포가 아니거나 skewed distribution일 경우 대표성이 떨어질 수 있다.
극단값에 의한 영향을 낮추기 위해서는 양 극단의 5%나 10% 정도를 삭제하고 분석하는 절삭평균 (Trimmed Mean)을 활용할 수 있다. 단, 데이터의 표본 갯수가 적을 시에는 이 역시 데이터의 왜곡을 야기할 수 있다.
중앙값의 경우 데이터가 홀수 일 때는 가운데 두 값의 평균을 중앙값으로 선정한다.
최빈값은 측정값과 별개로 가장 빈도수가 많은 데이터를 선정한다.

1. 지난 정규성 검정 글을 참고하여 정규성 검정을 수행한다.
기본 통계 2. 기술통계 - 정규성 검정
기본 통계 2. 기술통계 - 정규성 검정 정규분포(Normal Distribution)는 종 모양의 좌우대칭 그래프이다. 영어 단어에서 알 수 있듯이 자연스러운, 정상의, 표준의 뜻을 가지고 있으며 데이터가 자연스
notbee.tistory.com
2. p-value가 0.05 이상이므로 해당 데이터 세트는 정규분포를 따른다고 가정할 수 있다.

3. 정규분포를 따르므로 평균값을 대표값으로 생각할 수 있다. Summary Statistics에 Mean 값을 확인할 수 있다.

4. 위에서 배운 중앙값, 최빈값, 절삭평균을 같이 확인해보자. Summary Statistics 핫스팟 - Customize Summary Statistics를 클릭한다.

5. Median, Mode, Trimmed Mean을 체크한다. 밑에 절삭할 퍼센트를 입력한다 (Default: 5)

6. 원하던 값들을 Summary Statistics에서 확인할 수 있다. 정규분포를 따르므로, 값들에 큰 차이가 없음을 알 수 있다.

기본 통계 0. 목차
0. 목차 1. Intro - 생명공학 전공자가 통계를 배워야 하는 이유 (https://notbee.tistory.com/67) - 통계적 사고와 문제해결 (https://notbee.tistory.com/68) 2. 기술통계 - 모집단과 표본 - 정규성 검정 - 대표값 - 산
notbee.tistory.com
글쓴이는 통계 전공자가 아니라는 점 참고 부탁드리며 관련하여 틀린 사항에 대한 지적이나 질문은 언제든지 환영합니다.
'JMP > 기본 통계' 카테고리의 다른 글
| 기본 통계 3. 추론통계 - 점 추정과 구간 추정 (1) | 2024.02.24 |
|---|---|
| 기본 통계 2. 기술통계 - 히스토그램 (1) | 2024.02.24 |
| 기본 통계 2. 기술통계 - 모집단과 표본 (0) | 2024.02.21 |
| 기본 통계 1. Intro - 통계적 사고와 문제해결 (0) | 2024.02.20 |
| 기본 통계 1. Intro - 생명공학 전공자가 통계를 배워야 하는 이유 (0) | 2024.02.20 |