A/B 테스트와 P값을 활용한 가설 검증법

A/B테스트: 새로운 디자인이나 기능에 노출된 B그룹 고객들이 A그룹과 비교했을 때 어떤 결과를 나타내는지 확인해 보는 테스트.

새로운 기능 배포 후, A그룹과 B그룹이 50% 씩의 트래픽 수용하면 테스트할 준비 완료

P값(유의확률): 테스트 결과의 신뢰도를 나타내는 값. 실험의 결과가 우연히 나타난 것인지 아닌지 판단할 때 사용

A/B테스트의 통계적 유의도가 100%에 가까워야 신뢰할 수 있다. 이 통계적 유의도를 산출하려면, 1에서 P값을 빼야 한다. ex) A/B테스트 진행 시, P값이 0.02가 나오면 98%의 유의도를 가진 것.
P값이 0으로 수렴할 수록 A/B테스트의 통계적 유의도의 100%에 가까워진다. P값이 일정 기간에 걸쳐 매우 낮게 수렴하는 트렌드를 보일 때 유의미하다고 해석할 수 있다. 0.01보다 낮으면 신뢰할 만 함.
A/B테스트 설계 시, 어떤 수치를 봐야할 지 결정 필요. 각 수치마다 P값 보고 유의미한지 판단 필요하므로.

새로운 기능이 끼치는 영향을 세밀하게도 보고, 거시적으로도 보려면 다음과 같이 두 가지 타입의 지표를 모두 봐야 한다.

	종류	예시
1	특정기능과 직결된 수치	-동영상의 볼륨 조절 버튼을 사용한 평균 횟수 -주문 화면의 메모 기능을 사용한 빈도 -코멘트의 추천 버튼을 누른 횟수
2	프로덕트 전반의 수치	-고객 1인당 주문 횟수 -고객 1인당 동영상 시청 횟수 -고객 1인당 이미지 업로드 횟수

ex) P값은 모두 0.001

첫번째 시나리오에서 B그룹의 메모 기능 사용 빈도가 월등히 높지만 고객 1인당 평균 매출이 감소했다.

두 번째 시나리오에서는 B그룹의 메모 기능 사용 빈도가 조금 더 낮지만 고객 1인당 평균 매출이 증가했다.

주문을 많이 하는 게 프로덕트 성공에 더 중요하므로, 시나리오 1 테스트 중단, 시나리오 2는 B그룹 Win

A/B테스트 방법

- 더 많은 고객에게 노출될 때까지 며칠 더 진행

- 테스트 중단, 신규 디자인/기능 의미 없다 판단

- 유의미한 결과는 없었지만 프로덕트 전체에 악영향 없으므로 B그룹 Win으로 판정(다른 지표 추가 검토 필요)

*출처: 김성한, 조직을 성공으로 이끄는 프로덕트 오너, 세종서적(2020)

Numbers