본문 바로가기
카테고리 없음

A/B 테스트와 P값을 활용한 가설 검증법

by 콕스 2023. 10. 2.

A/B테스트: 새로운 디자인이나 기능에 노출된 B그룹 고객들이 A그룹과 비교했을 때 어떤 결과를 나타내는지 확인해 보는 테스트.

  • A그룹: 신규 디자인 또는 기능에 노출되지 않는 이용자
  • B그룹: 신규 디자인 또는 기능에 노출되는 이용자

새로운 기능 배포 후, A그룹과 B그룹이 50% 씩의 트래픽 수용하면 테스트할 준비 완료

 

P값(유의확률): 테스트 결과의 신뢰도를 나타내는 값. 실험의 결과가 우연히 나타난 것인지 아닌지 판단할 때 사용

  • A/B테스트의 통계적 유의도가 100%에 가까워야 신뢰할 수 있다. 이 통계적 유의도를 산출하려면, 1에서 P값을 빼야 한다. ex) A/B테스트 진행 시, P값이 0.02가 나오면 98%의 유의도를 가진 것. 
  • P값이 0으로 수렴할 수록 A/B테스트의 통계적 유의도의  100%에 가까워진다. P값이 일정 기간에 걸쳐 매우 낮게 수렴하는 트렌드를 보일 때 유의미하다고 해석할 수 있다. 0.01보다 낮으면 신뢰할 만 함.
  • A/B테스트 설계 시, 어떤 수치를 봐야할 지 결정 필요. 각 수치마다 P값 보고 유의미한지 판단 필요하므로.

새로운 기능이 끼치는 영향을 세밀하게도 보고, 거시적으로도 보려면 다음과 같이 두 가지 타입의 지표를 모두 봐야 한다. 

  종류 예시
1 특정기능과 직결된 수치 -동영상의 볼륨 조절 버튼을 사용한 평균 횟수
-주문 화면의 메모 기능을 사용한 빈도
-코멘트의 추천 버튼을 누른 횟수
2 프로덕트 전반의 수치 -고객 1인당 주문 횟수
-고객 1인당 동영상 시청 횟수
-고객 1인당 이미지 업로드 횟수

ex) P값은 모두 0.001

주문 화면의 메모 기능 사용 빈도 고객 1인당 평균 매출
시나리오 1 A그룹 주문당 10% A그룹 16,800원
B그룹 주문당 75% B그룹 12,300원
시나리오 2 A그룹 주문당 30% A그룹 16,800원
B그룹 주문당 25% B그룹 19,500원

첫번째 시나리오에서 B그룹의 메모 기능 사용 빈도가 월등히 높지만 고객 1인당 평균 매출이 감소했다.

두 번째 시나리오에서는 B그룹의 메모 기능 사용 빈도가 조금 더 낮지만 고객 1인당 평균 매출이 증가했다. 

주문을 많이 하는 게 프로덕트 성공에 더 중요하므로, 시나리오 1 테스트 중단, 시나리오 2는 B그룹 Win

 

A/B테스트 방법

  1. 유의미한 사용자가 각 그룹에 노출될 때까지 기다린다. A와 B그룹이 각 50%가 될 때 테스트 시작
  2. 최소 7일 이상 각 주요 수치별 P값 지켜보며 테스트 지속 여부 결정
  3. P값이 낮아지지 않는다면..

       - 더 많은 고객에게 노출될 때까지 며칠 더 진행

       - 테스트 중단, 신규 디자인/기능 의미 없다 판단

       - 유의미한 결과는 없었지만 프로덕트 전체에 악영향 없으므로 B그룹 Win으로 판정(다른 지표 추가 검토 필요)

 

*출처: 김성한, 조직을 성공으로 이끄는 프로덕트 오너, 세종서적(2020)