Что такое А/А-тест
А/А-тест — это как весы. Если вы взвешиваете один и тот же предмет на одних весах, а потом на других и видите, что результаты различаются, то понимаете, что одним (или обоими) весам доверять нельзя. А/А-тест работает по тому же принципу: он «взвешивает» вашу систему.
| Критерий | A/A-тест | A/B-тест | Заголовок 7 | |||||
|---|---|---|---|---|---|---|---|---|
| Что сравнивают | Идентичные версии | Разные версии | ||||||
| Цель | Проверить корректность работы системы тестирования и сбора данных | Оценить эффективность конкретного изменения | ||||||
| Когда запускают | Перед серией A/B-тестов, после изменений в инфраструктуре, для периодического аудита | Когда есть конкретная гипотеза для проверки | ||||||
| Ожидаемый результат | Отсутствие статистически значимой разницы между группами | Наличие или отсутствие значимой разницы в пользу одной из версий |
Зачем нужны А/А-тесты
Платформа для A/B-тестов — это сложный программный продукт. При его настройке, обновлении или интеграции с аналитическими системами могут возникать ошибки. Например:
- система неверно учтет пользователей;
- события (например, «покупка») из одной группы окажутся в другой;
- данные попадут в системы аналитики в некорректном виде.
Основа любого корректного A/B-теста — случайное и равномерное разделение пользователей на группы. Если в одной оказывается больше, например, лояльных покупателей, людей из одного региона и др., это предопределит результат.
Бизнес-метрики (конверсия, средний чек и др.) по своей природе колеблются. Задача — отличить естественные колебания от эффекта, вызванного изменениями в продукте, и правильно интерпретировать данные. Например, А/B-тест может показать прирост — но неизвестно, это случайный всплеск или результат изменений продукта?
P-value < 0,05 означает, что вероятность случайно получить наблюдаемый результат составляет 5%. Если не знать, где ложноположительный результат, а где реальные данные, можно внедрить гипотезу, которая на самом деле не работает. Но регулярные А/А-тесты — способ проверить систему.
Как провести А/А-тест: пошаговый план
В А/А-тесте нет бизнес-гипотезы, но есть нулевая гипотеза: «Нет статистически значимого различия в ключевых метриках между группой А1 и А2». В ходе проверки вы будете проверять стабильность метрик и корректность системы.
Например: «Мы предполагаем, что при показе идентичного опыта двум разным группам пользователей метрика конверсии в целевое действие не будет иметь статистически значимого различия (p-value > 0,05) в течение двух недель».
1. Определите целевую аудиторию. Подумайте, кто будет участвовать в тесте. Например, все пользователи мобильного приложения из определенного региона.
2. Рассчитайте длительность теста. Опирайтесь на сроки, которые планировали выставлять для A/B-тестирования.
3. Рассчитайте размер выборки. Используйте те же калькуляторы, что и для A/B-тестов. Введите базовую конверсию и минимальный детектируемый эффект (MDE). Для А/А-теста MDE можно поставить в пределах 2%, чтобы поймать даже мелкие отклонения.
4. Разбейте трафик на группы. Стандартное и самое простое разделение — когда у вас две группы одного размера. Убедитесь, что пользователи попадают в них рандомно.
Создайте новый эксперимент в вашей платформе для тестов и назначьте обе группы (А1 и А2) на один и тот же вариант — текущую (контрольную) версию продукта. Убедитесь, что инструменты аналитики корректно отслеживают пользователей из обеих групп. Рекомендуем использовать параметры UTM, чтобы позже можно было фильтровать данные.
Сведите к минимуму любые внешние воздействия. Не запускайте параллельно мощные маркетинговые кампании, которые могут повлиять на пользователей.
Запустите тест. Собирайте данные в течение срока, который определили на втором шаге. Не поддавайтесь соблазну заглядывать в предварительные результаты и останавливать тест раньше времени — это может привести к ложным выводам. Настройки в процессе работы тоже менять нельзя.
Прежде чем смотреть на результаты, необходимо убедиться, что группы А1 и А2 схожи по составу. Учтите базовые характеристики:
- демография: пол, возраст, геолокация;
- технические параметры: тип устройства, браузер, источник трафика;
- поведенческие метрики: глубина просмотра, время на сайте — на этом этапе они не должны значимо различаться.
Когда тест завершился, а вы собрали все данные, сравните ключевые метрики, оцените статистическую значимость. Если тест прошел успешно, а нулевая гипотеза оказалась верной, можно запускать A/B-тесты в этой системе. Если тест выявил проблемы, ищите причину: перепроверьте группы пользователей, настройки аналитики. Пока не подтвердите нулевую гипотезу, A/B-тесты запускать нельзя.
Ошибки и подводные камни при А/А-тестировании
Если запускать тест на слишком малом количестве пользователей или на слишком короткий срок, можно неверно интерпретировать статистическую погрешность. Например, за ней могут быть не видны реальные проблемы. Либо наоборот: даже незначительные колебания могут казаться весомыми.
Рассчитывайте размер выборки, как для A/B-теста. Используйте калькуляторы мощности, учитывайте базовый уровень метрики (например, текущую конверсию) и минимальный детектируемый эффект (лучше не больше 2%).
Неслучайное или несбалансированное распределение пользователей по группам — как раз одна из проблем, которую должен выявить А/А-тест. Но если разбивка изначально неверная, например, есть перекосы по времени активности, по региону, гендеру, возрасту, платформе или размеру групп, то и тест бесполезен. Убедитесь, что пользователи распределены в случайном порядке.
Если выбрать метрику, которая сильно скачет сама по себе (например, среднее время на сайте), А/А-тест почти наверняка покажет значимую разницу, даже если проблемы нет. В итоге вы будете бороться с несуществующей проблемой. А если выбрать вторичные метрики вместо первичных, то вы не узнаете, как ведет себя ключевая бизнес-метрика. В итоге данные теста будут некорректными.
1. Подождите. Случайные колебания на ранних этапах — это норма. Возможно, перекос сгладится.
2. Разбейте данные на слои и проверьте метрики внутри них. Например, если увидели, что в группе А1 выше конверсия, разделите данные по полу, сравните конверсию мужчин в А1 и А2, а затем женщин. Если внутри слоев разница исчезла, проблема крылась в распределении пользователей. Если не исчезла, то в измерении метрики.
3. Исправьте ситуацию. Если перекос небольшой, найдите причину, исправьте баг в алгоритме разбивки трафика, убедитесь, что на систему не виляют внешние факторы. Только после этого можно запускать тест заново.
Как понять, что А/А-тест прошел успешно
- P-value. Хорошо, когда показатель больше 0,05, например, 0,3, 0,5 или 0,8. Это значит, что разница между группами (когда она есть) возникла случайно.
- Равномерность распределения пользователей по полу, возрасту, региону, типу устройства, источнику трафика. Хорошо, когда нет статистически значимых перекосов ни по одному из ключевых параметров.
- Графики основной метрики для обеих групп на протяжении всего теста. Хорошо, когда они практически идентичны.
Отрицательный результат — тоже результат. Главное, что вы получили его на этапе А/А-теста, а не A/B. Но найти причину ошибки все равно надо. Проверьте, корректно ли система разбивает пользователей на группы, нет ли привязки к геолокации или ко времени, нет ли потерь данных или их дублирования.
Часто задаваемые вопросы об А/А-тестах
Да, возможно, даже больше, чем крупной, так как у малого бизнеса нет ресурсов на внедрение неработающих изменений. Один ошибочный A/B-тест может стать причиной значительных трат.
- При настройке новой системы A/B-тестирования.
- После крупных технических или других изменений, например, вы перенесли серверы или обновили алгоритм.
- Раз в 6–12 месяцев, чтобы убедиться, что в системе нет ошибок, которые искажают результаты.
- Если начали замечать подозрительные результаты в A/B-тестах или есть расхождение между результатом тестирования и данными от аналитиков.
- При запуске новой функции или продукта.
Да, и это нормально. При уровне значимости p < 0,05 примерно один из 20 А/А-тестов может случайно показать разницу. Если тест провалился, запустите его повторно. Если проблема возникла снова — это система, а не случайность.
Столько же, сколько и обычный A/B-тест. Тест должен собирать данные до тех пор, пока не будет достигнут размер выборки, а не пока не закончится произвольно выбранный интервал.
Успешный А/А-тест дает уверенность в технической исправности системы. Он не отменяет необходимости правильно формировать гипотезы, выбирать метрики и следить за ходом самих A/B-тестов.
Можно проводить А/А/Б-тест, то есть тестировать сразу три продукта: два идентичных и один с изменениями. Но если одинаковые варианты покажут разницу, придется проводить эксперимент заново. Еще можно использовать инструменты аналитики, чтобы сверять результаты.