Как правильно интерпретировать результаты A/B теста: гайд для PM

A/B тесты — главный инструмент продуктовых решений. И главный источник неправильных решений, если читать результаты неверно.

Базовые понятия

Статистическая значимость (p-value): вероятность что наблюдаемая разница случайна. p < 0.05 означает: менее 5% вероятности что это случайность. Обычный порог — 95% confidence level.

Размер выборки: чем меньше эффект вы хотите обнаружить, тем больше нужна выборка. Калькуляторы размера выборки: statsig.com, optimizely.com.

Минимальный детектируемый эффект (MDE): минимальное улучшение которое имеет практический смысл. Если MDE = 1%, нет смысла запускать тест ради 0.3%.

Типичные ошибки при интерпретации

Остановка теста рано: «ура, уже 90% confidence, останавливаем» — это ложное открытие. Дожидайтесь предварительно рассчитанного размера выборки.

P-hacking: смотреть на много метрик и «находить» победителя. Если проверяете 20 метрик, одна покажет значимость случайно.

Статистическая ≠ практическая значимость: конверсия выросла с 5.00% до 5.02% с 99% confidence. Стоит ли это внедрять? Зависит от стоимости разработки.

Игнорирование guardrail метрик: победила основная метрика, но ухудшилась вторичная — это не победа.

Когда останавливать тест

По достижении запланированного размера выборки (не раньше!)
Если guardrail метрика сильно ухудшилась
Если есть технические проблемы

Итог: правильная интерпретация A/B теста требует трёх вещей: рассчитать размер выборки заранее, дождаться его, смотреть на комплекс метрик. Поспешные решения по ранним данным — самая частая ошибка.

Как правильно интерпретировать результаты A/B теста: гайд для PM

Базовые понятия

Типичные ошибки при интерпретации

Когда останавливать тест

Прокачайте навыки на практике