A/B테스트: 새로운 디자인이나 기능에 노출된 B그룹 고객들이 A그룹과 비교했을 때 어떤 결과를 나타내는지 확인해 보는 테스트.
- A그룹: 신규 디자인 또는 기능에 노출되지 않는 이용자
- B그룹: 신규 디자인 또는 기능에 노출되는 이용자
새로운 기능 배포 후, A그룹과 B그룹이 50% 씩의 트래픽 수용하면 테스트할 준비 완료
P값(유의확률): 테스트 결과의 신뢰도를 나타내는 값. 실험의 결과가 우연히 나타난 것인지 아닌지 판단할 때 사용
- A/B테스트의 통계적 유의도가 100%에 가까워야 신뢰할 수 있다. 이 통계적 유의도를 산출하려면, 1에서 P값을 빼야 한다. ex) A/B테스트 진행 시, P값이 0.02가 나오면 98%의 유의도를 가진 것.
- P값이 0으로 수렴할 수록 A/B테스트의 통계적 유의도의 100%에 가까워진다. P값이 일정 기간에 걸쳐 매우 낮게 수렴하는 트렌드를 보일 때 유의미하다고 해석할 수 있다. 0.01보다 낮으면 신뢰할 만 함.
- A/B테스트 설계 시, 어떤 수치를 봐야할 지 결정 필요. 각 수치마다 P값 보고 유의미한지 판단 필요하므로.
새로운 기능이 끼치는 영향을 세밀하게도 보고, 거시적으로도 보려면 다음과 같이 두 가지 타입의 지표를 모두 봐야 한다.
종류 | 예시 | |
1 | 특정기능과 직결된 수치 | -동영상의 볼륨 조절 버튼을 사용한 평균 횟수 -주문 화면의 메모 기능을 사용한 빈도 -코멘트의 추천 버튼을 누른 횟수 |
2 | 프로덕트 전반의 수치 | -고객 1인당 주문 횟수 -고객 1인당 동영상 시청 횟수 -고객 1인당 이미지 업로드 횟수 |
ex) P값은 모두 0.001
주문 화면의 메모 기능 사용 빈도 | 고객 1인당 평균 매출 | |||
시나리오 1 | A그룹 | 주문당 10% | A그룹 | 16,800원 |
B그룹 | 주문당 75% | B그룹 | 12,300원 | |
시나리오 2 | A그룹 | 주문당 30% | A그룹 | 16,800원 |
B그룹 | 주문당 25% | B그룹 | 19,500원 |
첫번째 시나리오에서 B그룹의 메모 기능 사용 빈도가 월등히 높지만 고객 1인당 평균 매출이 감소했다.
두 번째 시나리오에서는 B그룹의 메모 기능 사용 빈도가 조금 더 낮지만 고객 1인당 평균 매출이 증가했다.
주문을 많이 하는 게 프로덕트 성공에 더 중요하므로, 시나리오 1 테스트 중단, 시나리오 2는 B그룹 Win
A/B테스트 방법
- 유의미한 사용자가 각 그룹에 노출될 때까지 기다린다. A와 B그룹이 각 50%가 될 때 테스트 시작
- 최소 7일 이상 각 주요 수치별 P값 지켜보며 테스트 지속 여부 결정
- P값이 낮아지지 않는다면..
- 더 많은 고객에게 노출될 때까지 며칠 더 진행
- 테스트 중단, 신규 디자인/기능 의미 없다 판단
- 유의미한 결과는 없었지만 프로덕트 전체에 악영향 없으므로 B그룹 Win으로 판정(다른 지표 추가 검토 필요)
*출처: 김성한, 조직을 성공으로 이끄는 프로덕트 오너, 세종서적(2020)