A/B테스트가 무엇이고 설계는 어떻게 해야하는지를 정리합니다.
A/B 테스트란?
- 두 개의 변형 A와 B를 사용하는 종합 대조 실험(controlled experiment)이다.
- 마케팅과 웹 분석에서, 버킷 테스트 또는 분할-실행 테스트라고 불린다.
A/B 테스트가 필요한 이유
서비스를 만드는 과정에서 자유롭게 가설을 세우고 사용자로부터 피드백을 받아 서비스에 적용하는 과정에서 실제 반응을 테스트 해보는 방법
세운 가설이 기존 데이터를 토대로 추측했기 때문에 적용 결과가 좋을 거란 기대는 있지만 실제 반응은 그렇지 않을 수도 있다!
- → 우리는 새로운 기능을 출시하지 않음으로 인해 많은 비용을 줄일 수도 있다
A/B 테스트의 단계 예시
1. 실험 계획
- 실험 목표 및 가설 생성
- 실험의 목표가 명확하지 않으면 가설을 세울수 없고 좋은 결과를 기대할 수 없음
2. 실험 실행
- 실험군(대상) 할당
- 사용자를 다양하게 정의/식별하는 것이 중요
- 실험 대상과 비 대상을 구분
- 버켓 할당
- Control: 대조군 또는 비교집단, 어떤 변경도 없는 기존 그대로의 상태를 제공받는 유저 그룹
- Treatment: 실험집단, 변경된 상태를 제공받는 유저 그룹(Experimental Group)
- 일반적으로 A, B라고 표기하면 각각 Control, Treatment이라고 생각하면 됨
- 비 실험 대상을 할당하는 Fallback버켓이 있는데 장애 상황에 대비한 응답을 처리하는 방안으로 활용할 수 있음
Fallback 버켓이란? 실험대상이 아니거나 장애 시 잠시 할당되는 버켓으로 실험에 따라 Control 버켓과 동일하게 설정하기도 한다.
- 노출 수집
- 노출 결과 기록
- 전환 수집
- 가입, 구매 등 요구한 액션 실행 시 전환 결과 기록
- a-d의 과정 속에서는 중복 호출을 하더라도 동일한 결과를 줄 수 있어야 한다.
3. 데이터 분석 및 위너 버켓 선정
A/B 테스트 진행 시 지켜야하는 원칙
!) 조직은 데이터 중심 결정을 내리고 OEC(Overall Evaluation Criterion=핵심지표)를 공식화한다.
- 조직의 장기적 전략목표를 추진하는 원인이 되어야 한다.
- 전사적 이해관계와 일치해야 한다.
- 전사적으로 합의된 하나의 지표여야 한다.
!) 조직은 종합 대조 실험을 실행하고 그 결과가 신뢰할 수 있는지 확인하기 위해 인프라와 실험에 기꺼이 투자한다.
- 사용자에 대한 랜덤화, 고객군 설정, 핵심 지표 변화에 대한 트랙킹(및 p-value)를 확인할 수 있어야 한다.
!) 조직은 아이디어의 가치를 평가하는데 서툴다는 것을 인지한다.
- 마이크로소프트는 매년 2/3의 A/B테스트 실험에 실패하고, 넷플릭스는 시도하는 90% 실험은 틀린것으로 간주한다.
- 많은 실험, 빠른 실패를 통해 성공확률을 올리도록 한다.