구글에 이 질문을 검색하면 많은 포스트와 유튜브영상이 나온다.
하지만 나오는 것들은 복잡한 수식과 증명들 뿐이었다.

고등학생 때 진작 수학과 데면데면한 사이가 된 나로써는
증명이 이해가 안되었고 어찌저찌 증명을 이해해도
결국 “그래서 왜 n-1 인데?” 라는 질문에 해답을 얻진 못했다.

그렇게 구글을 헤메다 발견한 유튜브 채널 ASDF 오터의 통계에서
나는 이 질문의 해답을 들을 수 있었고 아래에 작성하는 내용은
해당 채널의 영상 몇개를 요약해서 정리한 것이다.

모집단과 표본의 분산을 구하는 방법은 다르다.Permalink

모분산과 표본분산을 구하는 공식은 아래와 같다.

=ni=0(μxi)2

μ:
x:

  • 평균에서 각 데이터값을 빼고 제곱한것을 모두 더한 것.

=n

  • 모집단의 편차제곱합모집단의 데이터 수로 나눈 것.

=n1

  • 표본의 편차제곱합표본의 데이터 수 - 1로 나눈 것.

여기서 편차제곱합에 주목해보자

우리가 하는 것은 모분산을 추론하는 것이고
모분산과 표본분산이 같아지는 것이 목표다.

n=n1 이라면

표본의 편차제곱합의 분모에서 1을 빼주는 이유는
표본의 편차제곱합이 모집단의 편차제곱합보다 ‘항상’ 작기 때문이다.

하나만 기억하고 다음으로 넘어가자

표본집단의 편차제곱합은 모집단의 편차제곱합 보다 항상 더 작다.

표본집단의 편차제곱합은 모집단보다 항상 더 작다. 왜?Permalink

결과부터 말하면
우리가 구한 표본평균은 표본값들에 너무 가깝기 때문이다.

우리는 표본값을가지고 표본평균을 구한다.
그래서 이 평균은 표본값들에 가장 가까운 값이다.

그래서 편차제곱합을 구하면 가장 작은 값이 나오게 된다.

=()2

예시를 보자

지인 5명의 몸무게를 조사한 결과가 다음과 같다고 하자.
[ 50, 60, 70, 80, 90 ]
표본평균은 70 이다.

여기서 편차제곱합을 구해보면 이렇게 된다.
(5070)2=400
(6070)2=100
(7070)2=0
(8070)2=100
(9070)2=400

=1000

만약 여기서 실제 모평균이 65 라고 하면
(5065)2=225
(6065)2=25
(7065)2=25
(8065)2=225
(9065)2=625

=1125

편차제곱합이 더 커진다.

그런데 이것은 모평균이 65일 때 뿐만 아니라
75일때, 혹은 70.000001 일때도 무조건 더 커지게 된다.

편차제곱합은 (평균-데이터) 결과를 제곱한 값이므로
추출한 표본에서는 표본 평균과 다른 값은 무조건 클 수 밖에 없는 것이다.

따라서

표본평균으로 계산한 편차제곱합은
모평균으로 계산한 편차제곱합 보다 항상 더 작다.
이 차이를 줄이기 위해 표본분산을 구할 때 분모에서 1을 빼 주는 것이다.

그렇다면 왜 하필 n-1일까?

이것은 자유도에 대한 문제라고 한다.
아직까지 나도 이 부분에 대한 이해가 부족하기 때문에
좀 더 공부를 하고 정리를 한 다음 기회에 포스팅 하려한다.

출처Permalink

ASDF 오터의 통계
수식없이 설명하는 표본분산 n-1 나누는 이유

Leave a comment