카테고리 없음

기본 통계 2. 기술통계 - 정규성 검정

Notbee 2024. 2. 22. 20:18

기본 통계 2. 기술통계 - 정규성 검정

 

정규분포(Normal Distribution)는 종 모양의 좌우대칭 그래프이다. 영어 단어에서 알 수 있듯이 자연스러운, 정상의, 표준의 뜻을 가지고 있으며 데이터가 자연스러운 산포에 의하여 갖게 되는 분포 형태이다. 기술통계는 데이터가 정규분포를 따르는지 여부에 따라서 분석이 달라지기 때문에 다음과 같은 과정을 거친 후 수행한다.

 

기술통계 순서

1. 데이터 품질을 시각적으로 체크 (그래프를 눈으로 확인하기)
2. 정규성 검정
3. 기술통계 분석 수행

 

오늘은 이 중 정규성 검정을 JMP 프로그램으로 수행하는 방법을 정리하였다.

 

 

 

1. 아래 예제파일을 다운로드한다. 

 

정규성검정 예제파일_Height.xlsx
0.01MB

 

 

2. 예제파일의 데이터를 다음과 같이 A 혹은 B 방법 중 하나로 Import 한다.

 

A.

A-1. File-Open-정규성검정 예제파일_Height 선택한다.

A-1

A-2. 아래와 같이 Data Starts on row를 2로 설정하고 Import를 클릭한다.

 

A-2

 

B.

B-1. 데이터 테이블 생성하기 (File - New - Data Table)

B-1

B-2. Excel파일의 데이터가 있는 열을 전체 선택하여 복사한다.

B-2

B-3. Edit - Paste With Column Names (Ctrl+Shift+V)

 

B-3

 

3. Analyze-Distribution

3

4. Height (cm)를 더블클릭하거나 Height (cm) 클릭 후 Y, Columns를 클릭하여 아래 그림과 같이 설정 후 OK를 누른다.

4

 

5. Distribution 창이 뜰 것이다. 데이터의 이상치는 없는지, 분포는 정규분포 같은지 눈으로 살펴본다.

5

6. Height (cm) 옆에 핫스팟을 누른다.

6

7. Continuous Fit - Normal을 선택한다.

7

 

8. 밑에 Fitted Normal이라는 항목이 새로 생겼을 것이다. Fitted Normal의 Hotspot을 누르고 Goodness of Fit을 선택한다.

8

9. 정규성 검정 방법인 Shapiro-Wilk W Test 결과가 나타난다.

- Prob<W는 p-value라고 생각하면 된다. p-value가 0.05 이상이면 정규분포일 가능성이 있다. 0.05 미만이면 주황색으로 표시된다. 

 

9

 

물론, 해당값만을 기준으로 정규분포다 아니다를 판단해서는 안 된다. 표본의 숫자가 너무 적을 경우 해당 검정은 신뢰성이 높지 않을 수 있다. 혹은, 중심극한 정리에 의해 표본 크기가 커질수록 정규분포라고 가정하고 분석을 진행할 수도 있다.

 

추후 가설검정 파트에서 자세히 설명하겠지만, p-value는 귀무가설 (Ho: 데이터가 정규분포와 일치한다)이 참임에도 불구하고, 관측된 현상이 우연히 발생했다고 볼 확률의 최대값을 의미한다. 이해를 돋기 위해 다시 설명하자면, p-value가 유의 수준 0.05 미만이라는 것은 데이터와 정규분포에 차이가 없는데 있다고 잘못 판단할 확률이 5%도 안 된다는 것이므로, 데이터와 정규분포에 차이가 있을 것이라고 판단하고 귀무가설을 기각할 수 있는 것이다. 관련하여서는 추가로 설명하는 글을 작성하겠다.

 

https://notbee.tistory.com/69

 

기본 통계 0. 목차

0. 목차 1. Intro - 생명공학 전공자가 통계를 배워야 하는 이유 (https://notbee.tistory.com/67) - 통계적 사고와 문제해결 (https://notbee.tistory.com/68) 2. 기술통계 - 모집단과 표본 - 정규성 검정 - 대표값 - 산

notbee.tistory.com

 

글쓴이는 통계 전공자가 아니라는 점 참고 부탁드리며 관련하여 틀린 사항에 대한 지적이나 질문은 언제든지 환영합니다.