왜 p-value는 0.05일까?

통계를 공부하면 p-value에 대해 배우고 이것을 보통 0.05로 사용한다고 배운다.
p-value 가 0.05라는 말은 해당 통계 결과가 우연일 확률이 5%라는 것을 의미하고
이것은 결과가 통계적으로 유의미하다는 것으로 해석할 수 있다.

하지만 무조건 p-value를 0.05로 사용해야 한다는 절대적 기준이 있는 것은 아니다.
통계를 사용하는 목적에 따라 적절한 p-value는 달라질 수 있다.

우리가 p-value 값을 주로 0.05로 쓰는 것은 사회적 합의에 의한 것이다.

2013년 시그니피컨스(Significance) 잡지에 실린 ‘가설 테스트 창시자들의 회고’에 따르면
0.05는 그냥 경험상 상호 합의된 값이라고 한다.

이 정도면 적-당 하다는 말이다. 여기서 만족하고 넘어가도 아무런 문제가 없다.

하지만 왜 0.05가 적당하다고 생각했을지에 대한
재밌는 심리 실험이 있어 소개하려고 한다.

검정 카드 뽑기 게임

이 아이디어는 Journal of Statistics Education에서 Stephen Eckert가 설명한 방법이다.

먼저 카드 두 벌을 사서 빨강 카드(다이아, 하트)만 모은다.
그러면 빨강 카드만으로 된 한 벌의 카드가 나온다.

그리고 이 카드를 들고 참가자들에게 게임을 시킨다.
규칙은 이렇다.

  • 참가자는 검정 카드를 뽑으면 만원을 얻는다.
  1. 참가자를 무작위로 골라 카드를 뽑게 시킨다.
  2. 카드를 확인하고 다시 섞어 넣는다.
    • (카드를 다시 넣어서 섞지 않으면 같은 카드가 뽑혀 속임수가 들통날 수 있다.)
  3. 반복한다.

물론 카드에는 빨강밖에 없기 때문에 참가자들은 빨강 카드만 뽑게 된다.
첫 번째 빨강, 두 번째 빨강, 세 번째 빨강, 네 번째, 다섯번째…

이 지점에서 카드가 조작된 게 아니냐는 의심의 목소리가 조금씩 나온다.
여기서 물어보라 “왜 그렇게 생각하나요?”
그러면 누군가는 이렇게 대답할 것이다.
“카드가 공정했다면 연속으로 5개의 빨강 카드를 받을 가능성은 거의 없기 때문입니다.”
정확하다. 그들은 스스로 가설검증의 논리를 경험하고 언어화했다.

이쯤에서 확률에 대해 알아보자.
카드가 정상적이라면 (검정 반 빨강 반)
연속으로 4번 빨강 카드를 뽑을 확률은
$0.5 * 0.5 * 0.5 * 0.5 = 0.0625 (6.25\%)$이다.

이쯤에서 참가자들은 의심을 시작하지만 말로 하지는 않는다.
‘그럴 수도 있다…’ 라고 생각하기 때문이다.

하지만 연속으로 5번 검은 카드를 뽑는다면
확률은 $0.5 * 0.5 * 0.5 * 0.5 * 0.5 = 0.0315 (3.15\%)$이다.

다섯번 연속 빨강 카드가 나오면 많은 참가자들이 의심하기 시작한다.
의심의 싹이 자라서 꽃을 피우는 것이다.

그렇다.

‘5% 근처’
여기가 바로 사람들이 뭔가 문제가 있다고 본능적으로 느끼기 시작하는 지점이다.

‘공정한 카드라는 가설을 기각하는 지점’이 되는 것이다.
왜 0.05가 통계학자들이 판단한 합리적인 기준점이 되었는가를 이해할 수 있는 부분이다.

게임을 어떻게 끝낼까?

여기서 글쓴이는 다소 악랄한 마무리 방법을 제시한다.
5번의 무승부 후 게임을 멈춘다.
게임을 계속한다면 참가자들은 카드가 조작되었다고 확신할 것이다.
그러나 여기서 멈춘다면 참가자들의 생각은
‘단지 정말로 운이 없었다.’ 혹은 ‘카드가 조작되었다.’ 일 것이다.

여기서 몰래 검은 카드 한장을 맨 앞에 두고
“이 카드가 조작인지 아닌지는 확실하지 않지만…” 이라고 말하며
카드를 뒤집어 검은색 카드를 보여준다.
그러면 참가자들은 이 새로운 증거를 바탕으로 생각을 재고하게 된다.

출처

이 글은 아랫글을 번역한 것이다.
또다른 실험도 나와 있으니 원문을 보려면 아래 링크로 들어가면 된다.
Why 0.05? Two Examples That Put Students in the Role of Decision Maker

Leave a comment