본문 바로가기
카테고리 없음

P-value

by 콕스 2023. 10. 2.

1. P-Value 구하기(이산형 확률 분포를 가지는 범주형 변수)

P-value = 특정한 경우의 수가 발생할 가능성 + 그것과 동일한 확률이 나올 가능성 + 그것보다 희귀한 경우가 발생할 가능성

*단 양측 검정일 경우에 해당

  • 특정한 사건이 일어날 확률과 그 사건의 P-Value는 다르다.
  • 동일한 확률이 나올 다른 가능성이나 그것보다 희귀한 경우 발생할 가능성을 더해주는 이유는, 구하고자 하는 사건의 P-value에 해당 사건이 특별한 일인 것 같아도 그것과 같은 확률값을 가지거나 그것보다 희귀한 사건들이 존재할 경우 그 사건의 특별함이 떨어진다는 것을 의미하고, 이에 대한 정보를 함께 반영해주기 위함.

Probability와 P-value의 차이

Pr(4H1T)= 5/32 = 0.15625

P-Value(4H1T)= Pr(4H1T)+ Pr(1H4T)+ Pr(5H)+Pr(5T)=5/32+5/32+1/32+1/32=12/32=0.375

 

2. 연속형 변수일 때, P-Value 구하기

통계 분포의 형태를 지닌 "density"곡선을 이용하여 특정사건 a에 대한 P-value를 계산한다.

density곡선

142~169cm인 구간 면적이 전체의 95%를 차지하는데, 이는 측정값들의 95%가 해당 구간 내에 존재한다는 뜻.

 

142cm의 p-value 계산

 

키가 142cm인 사람의 p-value는,

Pr(=<142)+Pr(>=169)=0.05

  • "142cm 미만이면, 파란색 분포의 값에서 유래되었다"는 귀무가설 기각시킬 수 있다. 
  • "141cm"의 사람이 있으면 파란 분포 내에서 관찰되는데 특별한 케이스다."
  • 좀 더 낮은 평균의 통계 분포 곡선이 있다면 그것에서 유래되었다고 보는게 더 적합하다.

 

3. 가설 검정에서의 P-value 활용법

  • 가설 검정에서는 검정의 대상이 되는 귀무가설과, 대립되는 대립가설이 존재
  • 귀무가설 옳다고 가정, 기각이 목표
  • 대립가설은 채택이 목표
  • 임계값(critical value) 의 정의: 주어진 유의 수준에서 귀무가설의 채택/기각 의사 결정의 기준이 되는 값
  • 유의수준(level of signifacance): 귀무가설이 참인데 기각할 오류, 귀무가설 기각 시 따르는 리스크. 일반적으로 주어진 값 사용
  • 모집단을 알 경우에는 표준 정규 분포를 이용하여 z값 변환 후 임계값을 구할 수 있음. 
  • 가설 검정 방법 2가지

      - 임계값 활용법: 유의수준 (ex.0.05)에 해당하는 임계값 구한 후, 그것보다 표본 평균이 더 극단적인 값일 경우 대립가설 채택

      -p-value 활용법: 표본 평균의 검정 통계량에 대한 누적확률을 구한 후, 나머지 면적(1-표본 평균의 누적확률)로 p-value구함, p-value가 유의수준보다 낮다면 대립가설 채택

 

  • 가설 검정 오류 2가지

      - 제 1종 오류: 귀무가설이 참인데 기각

      - 제 2종 오류: 귀무가설이 거짓인데 채택

 

  • 생물학에서의 가설검정, p-value<0.05의 의미

      - 귀무가설로 흔히 "두 그룹 간 차이가 없다" 혹은 " 두 특징 사이에 상관관계가 없다"로 설정

      - p-value <0.05이면 두 그룹간 차이가 없다는 가정이 틀릴 확률이 5% 미만이라는 뜻. 귀무가설의 기각 근거로 사용(두 값이 서로 다른 분포에서 유래되었다. 동시에 100번 실험해서 거짓양성이 나올 확률이 5% 미만)

     

 

 

 

*출처:

Komok's Sight 

 

[Statistics] p-value 구하는 원리 + 가설검정에서 p-value 활용

1. What is the p-value? - 생물학을 포함한 데이터 다루는 일을 하다보면 통계학은 뗄래야 뗄 수 없고, 그 중에 p-value와 0.05라는 숫자는 "유의성 있는" 데이터를 선별하는 general threshold로 등장 - p-value =

komok.tistory.com

 

StatQuest with Josh Starmer