Работая в продуктовой, электронной коммерции или медиакомпании, вы можете быть недовольны показателями вовлеченности. Возможно, вы захотите оценить, как отреагируют клиенты, если вы повысите цену или измените пользовательский интерфейс. Многие люди часто считают, что знают своих клиентов, но вряд ли все складывается так, как они ожидали. A/B-тестирование — это способ, с помощью которого компании одновременно тестируют несколько функций, чтобы определить, какие из них дают наилучшие результаты. В этом посте мы рассмотрим, что такое A/B-тестирование и как его проводить.

‍Что такое A/B-тестирование?

A/B-тестирование — это статистический подход к сравнению двух или более версий/функций для оценки не только того, какая из них работает лучше, но и того, является ли различие статистически значимым.

A/B-тестирование может использоваться для различных целей, в том числе:

  • Уточните сообщения и дизайн маркетинговых кампаний
  • Увеличьте коэффициент конверсии за счет улучшения пользовательского опыта
  • Учитывайте участие пользователей при оптимизации ресурсов, таких как веб-страницы, реклама и т. д.

‍Почему важно A/B-тестирование?

Проводя эксперимент или A/B-тест, вы можете обнаружить что-то новое, и результаты могут быть довольно скромными. Компании часто сталкиваются с проблемой, когда думают, что понимают своих клиентов, но на самом деле клиенты ведут себя совсем не так, как вы думаете. В результате важно проводить тесты, а не полагаться на интуицию.

Вопрос куда более сложный и текучий.

  • Все пользователи разные: разного возраста, пола, новые и вернувшиеся и так далее.
  • Пользователи проводят на сайте разное количество времени. Кто-то заходит на сайт сразу, кто-то не торопится.
  • Пользователи идут многими путями. Они перемещаются по веб-сайту, посещая различные страницы, прежде чем столкнуться с событием и целью.
  • Моделирование A/B-тестирования в такой среде часто может привести к неправильной интерпретации подлинного повествования.

Преимущества A/B-тестирования:

  • Быстрая итерация
  • Решение на основе данных
  • Улучшенное взаимодействие с пользователем
  • Увеличение доходов и конверсий
  • Использует реальных пользователей для выполнения тестов

‍Что такое A/B-тестирование в машинном обучении?

С помощью A/B-тестирования можно оценить и улучшить модели машинного обучения. Этот подход можно использовать, чтобы увидеть, лучше ли новая модель, чем уже существующая. Организация должна выбрать показатель для сравнения контрольной и новой моделей для этой цели. Этот показатель используется для оценки успеха развертывания и различия между ними. Обе модели должны применяться к выборке данных одновременно в течение заранее определенного периода. Половина пользователей должна использовать контрольную модель, а другая половина — новую.‍

Выполнение A/B-тестирования

Давайте рассмотрим пошаговый процесс, чтобы понять, как выполнять A/B-тестирование.

Идея/определение

Постановка цели эксперимента – это первый этап. Как вы думаете, что произойдет, если вы обновитесь до версии B? Возможно, вы думаете об увеличении:

  • Коэффициент конверсии
  • Регистрация продукта
  • Вовлечение пользователей и так далее.

Проще говоря, это похоже на изложение цели теста или того, чего вы надеетесь достичь к концу.

Предмет

Вам понадобится пул предметов, как только вы установите свои критерии. Это может быть группа пользователей или клиентов. Возможно, вы не сможете провести A/B-тестирование, если у вас недостаточно испытуемых. Например, точки на рисунке ниже отражают количество субъектов.

Рандомизация

Мы разделим испытуемых на две разные группы, А и Б. Это не обязательно должно быть разделение 50 на 50. Это может быть 60–40 или 70–30. Вам нужно выяснить, какое разделение необходимо для запуска A/B-теста. В этом эксперименте вам также нужно будет определить, на какую группу населения вы ориентируетесь — например, на пользователя, который ищет, на посетителя и т. д.

Теперь вам нужно определить размер выборки. Общая формула:

N = 16σ²/δ²

Здесь,

σ — стандартное отклонение выборки.

δ — разница между контролем и лечением.

После того, как вы определились с размером выборки, вам нужно определить продолжительность эксперимента. Обычно она составляет около 1–2 недель. Вы должны экспериментировать в течение как минимум недели, чтобы увидеть, как пользователи взаимодействуют с продуктом в течение недели и в выходные дни. Наконец, проведите эксперимент.

Полученные результаты

На этом этапе субъекту будут представлены варианты A и B, измерены результаты и рассчитана статистика теста. В приведенном выше примере мы разделили испытуемых на две группы. Зеленые точки обозначают коэффициент конверсии субъекта; так, A получил конверсию 70%, а B получил конверсию 40%; таким образом, теперь у нас есть результаты.

проверка гипотезы

Теперь посмотрим, является ли наблюдаемое изменение статистически значимым. Проверка гипотез — это статистическая методология, которая включает получение выводов о статистическом параметре или распределении рисков с использованием данных из выборки. Теперь давайте снова возьмем приведенный выше пример.

Проверка гипотезы может быть сведена к четырем этапам:

  1. Сформулируйте утверждения гипотезы.
  2. Установите уровень значимости.
  3. Установите статистическую мощность.
  4. Установите минимальный обнаруживаемый эффект.

Значения будут намного выше в реальном мире; это просто для иллюстрации. Мы получили коэффициент конверсии пользователей 70% в A и 40% в B. Давайте посмотрим на нашу тестовую статистику, которую мы будем использовать, чтобы определить, есть ли реальная разница между A и B.

Статистика теста: (A-B)% = 70–40% = 30%

Итак, это наша наблюдаемая разница; теперь вопрос в том, является ли это статистически значимым? Таким образом, чтобы ответить на этот вопрос, мы должны сначала определить, вызвана ли разница в 30% реальной разницей между A и B или же она вызвана случайностью. Вот тут-то и начинается проверка гипотез. .

В результате любое наблюдаемое различие между A и B связано либо с:

  • Нулевая гипотеза (Ho): случайный шанс
  • Альтернативная гипотеза (Ha): Реальная разница.

Вы можете увидеть, как работает тест на графике ниже; в нашем случае А было более значимым, чем В, что указывало на то, что эксперимент был лучше, чем В.

‍Теперь мы рассмотрим уровень значимости. Уровень значимости — это, по сути, порог принятия решения; более низкий уровень значимости указывает на основную разницу между исходным уровнем и контролем.

P-значение — это вероятность того, что разница между двумя значениями связана со случайностью. P-значение опровергает нулевую гипотезу. Чем ниже p-значение, тем больше вероятность того, что Ho будет отброшен. В результате то, что вы видели, произошло не случайно. В большинстве случаев альфа-значение составляет около 0,05.

Альфа = 0,05; значение p меньше 0,05, отклонить Ho и сделать вывод Ha.

Теперь мы установим статистическую мощность, которая представляет собой вероятность обнаружения эффекта, если альтернативная гипотеза верна. Обычно он равен 0,80.

Наконец, вы должны установить минимальный обнаруживаемый эффект (MDE). Это означает, что если изменение по крайней мере на 1 % выше дохода в день на пользователя, то оно является практически значительным. В этой статье мы не сможем охватить все аспекты проверки гипотез. Итак, предложу варианты.

Тесты статистической значимости для сравнения алгоритмов машинного обучения

"Проверка гипотезы"

Тест гипотез для сравнения алгоритмов машинного обучения

Проверка достоверности

На этом этапе мы проверим вменяемость эксперимента. Неправильный эксперимент может привести к неверному решению. Вы можете искать внешние факторы, такие как влияние инструментария, предвзятость при отборе и т. д. Например, если вы экспериментировали в праздничные дни или в период экономическая нестабильность, вы можете принимать неверные решения.

Действие/решение

Последний шаг — сделать выбор на основе результатов вашего эксперимента. Это можно использовать для обновления версии/функции.

‍Когда проводить A/B-тестирование в ML?

A/B-тестирование — это стратегия для определения того, как изменение одной переменной влияет на аудиторию или вовлеченность пользователей. Это систематическая стратегия улучшения кампаний и целевых коэффициентов конверсии в маркетинге, веб-дизайне, разработке продуктов и дизайне взаимодействия с пользователем. Вы можете проводить A/B-тестирование, если:

  • Вы хотите сравнить, какой продукт работает лучше
  • Определить, какой тип почвы способствует лучшему прорастанию семян в сельском хозяйстве.
  • Чтобы увидеть, какой эксперимент вызвал наибольшее вовлечение пользователей в продукт и продажи
  • Установление цены на продукт, который приносит большую прибыль или приводит к большему количеству новых клиентов

Возьмем реальный пример;

  • Компания Bing провела A/B-тестирование, в ходе которого они изменили способ отображения заголовков объявлений в поисковой системе Bing.
  • Этот небольшой эксперимент привел к увеличению доходов на 12% или более чем на 100 миллионов долларов в год только в Соединенных Штатах.

A/B-тестирование неэффективно при тестировании больших изменений, таких как новые товары, новый брендинг или совершенно новый пользовательский опыт. Могут быть воздействия, которые способствуют более высокой, чем обычно, вовлеченности или эмоциональным реакциям, которые заставляют людей вести себя по-разному в определенных ситуациях‍.

Распространенные ошибки A/B-тестирования, которых следует избегать

При взаимодействии с другими профессионалами в организации существует вероятность того, что некоторые концепции будут неправильно поняты. Как специалист по данным, вы можете обучать или помогать другим понять, как правильно обрабатывать данные. Давайте рассмотрим некоторые из наиболее распространенных ошибок A/B-тестирования:

Неверная гипотеза. Весь эксперимент основан на гипотезе. Что нужно изменить? В чем причина изменения? Каков предполагаемый эффект? И так далее. Вероятность успеха теста уменьшается, если вы начинаете с неверной гипотезы. Убедитесь, что результаты гипотезы верны, прежде чем переходить к следующему шагу.

Одновременное тестирование нескольких элементов: это может произойти, когда вы запускаете A/B-тестирование с несколькими показателями или одним показателем с различными группами обработки. Когда вы тестируете слишком много вещей одновременно, трудно определить, какая из них привела к успеху или неудаче. В результате расстановка приоритетов тестов имеет решающее значение для успешного A/B-тестирования.

Чтобы преодолеть эту проблему, вы можете разделить все метрики на три группы. Во-первых, те, которые, по вашему мнению, будут затронуты, затем те, на которые можно повлиять, и, наконец, те, которые вряд ли будут затронуты.

Игнорирование важности статистики: не имеет значения, как вы относитесь к тесту. Позвольте тесту пройти весь его курс, независимо от того, пройден он или нет, чтобы он получил статистическую значимость. Игнорирование этого может привести к неправильному принятию решений и провалу продукта.

Не проверяется. Крайне важно перепроверить правильность результатов. A/B-тестирование может быть ошибочным, если тесты выполняются, когда есть вероятность получения неверных результатов.‍

Заключение

Компаниям будет легко запустить тест и использовать данные для улучшения пользовательского опыта и производительности. A/B-тестирование может проводиться с использованием различных технологий, но как специалист по данным вы должны понимать аспекты, которые в него входят.

Чтобы проверить тест и продемонстрировать его статистическую значимость, вы также должны быть знакомы со статистикой. A/B-тестирование может помочь вам улучшить ваши результаты различными способами. Надеюсь, вам понравилась статья, удачных экспериментов.