A/B тесты — главный инструмент продуктовых решений. И главный источник неправильных решений, если читать результаты неверно.
Базовые понятия
Статистическая значимость (p-value): вероятность что наблюдаемая разница случайна. p < 0.05 означает: менее 5% вероятности что это случайность. Обычный порог — 95% confidence level.
Размер выборки: чем меньше эффект вы хотите обнаружить, тем больше нужна выборка. Калькуляторы размера выборки: statsig.com, optimizely.com.
Минимальный детектируемый эффект (MDE): минимальное улучшение которое имеет практический смысл. Если MDE = 1%, нет смысла запускать тест ради 0.3%.
Типичные ошибки при интерпретации
Остановка теста рано: «ура, уже 90% confidence, останавливаем» — это ложное открытие. Дожидайтесь предварительно рассчитанного размера выборки.
P-hacking: смотреть на много метрик и «находить» победителя. Если проверяете 20 метрик, одна покажет значимость случайно.
Статистическая ≠ практическая значимость: конверсия выросла с 5.00% до 5.02% с 99% confidence. Стоит ли это внедрять? Зависит от стоимости разработки.
Игнорирование guardrail метрик: победила основная метрика, но ухудшилась вторичная — это не победа.
Когда останавливать тест
- По достижении запланированного размера выборки (не раньше!)
- Если guardrail метрика сильно ухудшилась
- Если есть технические проблемы
Итог: правильная интерпретация A/B теста требует трёх вещей: рассчитать размер выборки заранее, дождаться его, смотреть на комплекс метрик. Поспешные решения по ранним данным — самая частая ошибка.