왜 표본분산을 구할때 n-1로 나눌까?
구글에 이 질문을 검색하면 많은 포스트와 유튜브영상이 나온다.
하지만 나오는 것들은 복잡한 수식과 증명들 뿐이었다.
고등학생 때 진작 수학과 데면데면한 사이가 된 나로써는
증명이 이해가 안되었고 어찌저찌 증명을 이해해도
결국 “그래서 왜 n-1 인데?” 라는 질문에 해답을 얻진 못했다.
그렇게 구글을 헤메다 발견한 유튜브 채널 ASDF 오터의 통계
에서
나는 이 질문의 해답을 들을 수 있었고 아래에 작성하는 내용은
해당 채널의 영상 몇개를 요약해서 정리한 것이다.
모집단과 표본의 분산을 구하는 방법은 다르다.
모분산과 표본분산을 구하는 공식은 아래와 같다.
$편차제곱합 = \displaystyle\sum_{i=0}^{n}(\mu - x_i)^2$
$\mu : 평균$
$x : 데이터$
- 평균에서 각 데이터값을 빼고 제곱한것을 모두 더한 것.
$모분산 =\frac {모집단의\,편차제곱합}{n}$
- 모집단의 편차제곱합을 모집단의 데이터 수로 나눈 것.
$표본분산 =\frac {표본의\,편차제곱합}{n-1}$
- 표본의 편차제곱합을 표본의 데이터 수 - 1로 나눈 것.
여기서 편차제곱합에 주목해보자
우리가 하는 것은 모분산을 추론하는 것이고
모분산과 표본분산이 같아지는 것이 목표다.
$\frac {모집단의\,편차제곱합}{n} = \frac {표본의\,편차제곱합}{n-1}$ 이라면
표본의 편차제곱합의 분모에서 1을 빼주는 이유는
표본의 편차제곱합이 모집단의 편차제곱합보다 ‘항상’ 작기 때문이다.
하나만 기억하고 다음으로 넘어가자
표본집단의 편차제곱합은 모집단의 편차제곱합 보다 항상 더 작다.
표본집단의 편차제곱합은 모집단보다 항상 더 작다. 왜?
결과부터 말하면
우리가 구한 표본평균은 표본값들에 너무 가깝기 때문이다.
우리는 표본값을가지고 표본평균을 구한다.
그래서 이 평균은 표본값들에 가장 가까운 값이다.
그래서 편차제곱합을 구하면 가장 작은 값이 나오게 된다.
$표본편차제곱합 = (표본평균 - 데이터)^2$
예시를 보자
지인 5명의 몸무게를 조사한 결과가 다음과 같다고 하자.
[ 50, 60, 70, 80, 90 ]
표본평균은 70 이다.
여기서 편차제곱합을 구해보면 이렇게 된다.
$(50-70)^2=400$
$(60-70)^2=100$
$(70-70)^2=0$
$(80-70)^2=100$
$(90-70)^2=400$
$편차제곱합 = 1000$
만약 여기서 실제 모평균이 65 라고 하면
$(50-65)^2=225$
$(60-65)^2=25$
$(70-65)^2=25$
$(80-65)^2=225$
$(90-65)^2=625$
$편차제곱합 = 1125$
편차제곱합이 더 커진다.
그런데 이것은 모평균이 65일 때 뿐만 아니라
75일때, 혹은 70.000001 일때도 무조건 더 커지게 된다.
편차제곱합은 (평균-데이터) 결과를 제곱한 값이므로
추출한 표본에서는 표본 평균과 다른 값은 무조건 클 수 밖에 없는 것이다.
따라서
표본평균으로 계산한 편차제곱합은
모평균으로 계산한 편차제곱합 보다 항상 더 작다.
이 차이를 줄이기 위해 표본분산을 구할 때 분모에서 1을 빼 주는 것이다.
그렇다면 왜 하필 n-1일까?
이것은 자유도에 대한 문제라고 한다.
아직까지 나도 이 부분에 대한 이해가 부족하기 때문에
좀 더 공부를 하고 정리를 한 다음 기회에 포스팅 하려한다.
Leave a comment