Jak przeprowadzić testy A/B w uczeniu maszynowym?

Pracując dla firmy zajmującej się produktami, handlu elektronicznego lub mediów, możesz być niezadowolony z liczby zaangażowania. Możesz ocenić, jak klienci zareagowaliby, gdybyś podniósł cenę lub zmienił interfejs użytkownika. Wiele osób często wierzy, że zna swoich klientów, ale sprawy nie układają się tak, jak tego oczekiwały. Testy A/B to sposób, w jaki firmy testują wiele funkcji jednocześnie, aby sprawdzić, która daje najlepsze wyniki. W tym poście przyjrzymy się, czym są testy A/B i jak je przeprowadzić.

Co to jest testowanie A/B?

Testy A/B to podejście statystyczne polegające na porównaniu dwóch lub więcej wersji/funkcji w celu oceny nie tylko, która z nich działa lepiej, ale także tego, czy różnica jest statystycznie istotna.

Testy A/B można wykorzystać do różnych celów, w tym:

Udoskonalenie przekazu i projektu kampanii marketingowych
Zwiększ współczynniki konwersji, poprawiając doświadczenie użytkownika
Weź pod uwagę zaangażowanie użytkowników podczas optymalizacji zasobów, takich jak strony internetowe, reklamy itp

‍Dlaczego testy A/B są ważne?

Wykonując eksperyment lub test A/B, możesz odkryć coś nowego, a wyniki mogą być dość upokarzające. Firmy często borykają się z problemem przekonania, że rozumieją swoich klientów, ale w rzeczywistości klienci zachowują się znacznie inaczej, niż mogłoby się wydawać. W rezultacie istotne jest przeprowadzanie testów, a nie poleganie na intuicji.

Sprawa jest znacznie bardziej skomplikowana i płynna.

Nie wszyscy użytkownicy są tacy sami: różni się wiek, płeć, nowi i powracający itd.
Użytkownicy spędzają na stronie różną ilość czasu. Niektórzy odwiedzają witrynę od razu, inni poświęcają na to trochę czasu.
Użytkownicy podążają wieloma ścieżkami. Poruszają się po witrynie, odwiedzając różne strony, zanim zetkną się z wydarzeniem i celem.
Modelowanie testu A/B w tym środowisku może często prowadzić do błędnej interpretacji prawdziwej narracji.

Korzyści z testów A/B:

Szybka iteracja
Decyzja oparta na danych
Większe zaangażowanie użytkowników
Zwiększone przychody i konwersje
Wykorzystuje rzeczywistych użytkowników do przeprowadzania testów

Czym są testy A/B w uczeniu maszynowym?

Stosując podejście do testów A/B, modele uczenia maszynowego można oceniać i udoskonalać. Podejście to można zastosować do sprawdzenia, czy nowy model jest lepszy od już istniejącego. Organizacja powinna wybrać w tym celu wskaźnik umożliwiający porównanie kontroli i nowych modeli. Ten wskaźnik służy do oceny powodzenia wdrożenia i rozróżnienia między nimi. Obydwa modele należy zastosować do próbki danych jednocześnie przez określony czas. Połowa użytkowników powinna korzystać z modelu kontrolnego, a druga połowa z nowego.‍

Przeprowadzanie testu A/B

Przyjrzyjmy się procesowi krok po kroku, aby zrozumieć, jak przeprowadzić test A/B.

Idea/definicja

Ustalenie celu eksperymentu to pierwszy etap. Jak myślisz, co się stanie, jeśli dokonasz aktualizacji do wersji B? Może myślisz o zwiększeniu:

Współczynnik konwersji
Rejestracje produktów
Zaangażowanie użytkowników i tak dalej.

Mówiąc najprościej, przypomina to nakreślenie celu testu lub tego, co masz nadzieję osiągnąć na końcu.

Temat

Po ustaleniu kryteriów będziesz potrzebować puli przedmiotów. Może to być grupa użytkowników lub klientów. Jeśli nie masz wystarczającej liczby przedmiotów, możesz nie być w stanie przeprowadzić testów A/B. Na przykład kropki na poniższym rysunku odzwierciedlają liczbę obiektów.

Randomizacja

Podzielimy badanych na dwie różne grupy, A i B. Nie musi to być podział 50–50. Może wynosić 60–40 lub 70–30. Musisz ustalić podział potrzebny do przeprowadzenia testu A/B. W tym eksperymencie musisz także określić, do jakiej populacji kierujesz swoją działalność – na przykład użytkownik wyszukujący, użytkownik odwiedzający witrynę itp.

Teraz musisz zdefiniować wielkość próbki. Ogólna formuła to:

N = 16σ²/δ²

Tutaj,

σ to odchylenie standardowe próbki.

δ Stanowi różnicę pomiędzy kontrolą a leczeniem.

Gdy już zdecydujesz się na wielkość próby, musisz ustalić czas trwania eksperymentu. Zwykle trwa on około 1–2 tygodnie. Powinieneś eksperymentować przez co najmniej tydzień, aby zobaczyć, jak użytkownicy wchodzą w interakcję z produktem w ciągu tygodnia i w weekendy. Na koniec poddaj eksperyment próbie.

Wyniki

Na tym etapie badany będzie miał możliwość zapoznania się z opcjami A i B, zmierzy wyniki i obliczy statystykę testu. W powyższym przykładzie podzieliliśmy badanych na dwie grupy. Zielone kropki wskazują współczynnik konwersji podmiotu; zatem A uzyskał konwersję 70%, a B uzyskał konwersję 40%; zatem mamy już wyniki.

testowanie hipotez

Teraz zobaczymy, czy zaobserwowana zmiana jest istotna statystycznie. Testowanie hipotez to metodologia statystyczna polegająca na wyciąganiu wniosków na temat parametru statystycznego lub rozkładu ryzyka na podstawie danych z próby. Weźmy teraz jeszcze raz powyższy przykład.

Testowanie hipotez można podsumować w czterech etapach:

Podaj stwierdzenia dotyczące hipotez.
Ustaw poziom istotności.
Ustaw moc statystyczną.
Ustaw minimalny wykrywalny efekt.

Wartości będą znacznie wyższe w rzeczywistym świecie; to tylko dla ilustracji. Mamy współczynnik konwersji użytkowników na poziomie 70% w A i 40% w B. Przyjrzyjmy się naszej statystyce testowej, której użyjemy do ustalenia, czy istnieje rzeczywista różnica między A i B.

Statystyka testowa: (A-B)% = 70–40% = 30%

Oto nasza zaobserwowana różnica; teraz pytanie brzmi, czy jest to istotne statystycznie? Aby więc odpowiedzieć na to pytanie, musimy najpierw ustalić, czy 30-procentowa różnica jest spowodowana rzeczywistą różnicą między A i B, czy też jest po prostu wynikiem przypadkowego przypadku. W tym miejscu pojawia się testowanie hipotez .

W rezultacie każda zaobserwowana różnica między A i B jest powiązana z:

Hipoteza zerowa (Ho): Losowa szansa
Hipoteza alternatywna (Ha): Rzeczywista różnica.

Jak działa test, możesz zobaczyć na poniższej grafice; w naszym przypadku A było bardziej znaczące niż B, co wskazywało, że eksperyment był lepszy niż B.

Przyjrzymy się teraz poziomowi istotności. Poziom istotności to w zasadzie próg decyzyjny; niższy poziom istotności wskazuje na zasadniczą różnicę między wartością bazową a kontrolą.

Wartość P to prawdopodobieństwo, że różnica między dwiema wartościami jest powiązana z przypadkową szansą. Wartość P obala hipotezę zerową. Im niższa wartość p, tym większe prawdopodobieństwo, że Ho zostanie odrzucony. W rezultacie to, co zobaczyłeś, nie wydarzyło się przypadkowo. W większości przypadków wartość alfa wynosi około 0,05.

Alfa = 0,05; wartość p jest mniejsza niż 0,05, odrzuć Ho i zawrzyj Ha.

Teraz ustalimy moc statystyczną, czyli prawdopodobieństwo wykrycia efektu, jeśli alternatywna hipoteza jest prawdziwa. Zwykle ustawia się go na poziomie 0,80.

Na koniec musisz ustawić minimalny wykrywalny efekt (MDE). Oznacza to, że jeśli zmiana jest o co najmniej 1% wyższa w przychodach dziennych na użytkownika, to jest praktycznie znacząca. W tym artykule nie będziemy w stanie omówić wszystkich aspektów testowania hipotez. Przedstawię zatem sugestie.

Testy istotności statystycznej do porównywania algorytmów uczenia maszynowego

"Testowanie hipotez"

„Test hipotez do porównywania algorytmów uczenia maszynowego”

Kontrole ważności

Na tym etapie sprawdzimy zasadność eksperymentu. Nieudany eksperyment może prowadzić do podjęcia złej decyzji. Możesz szukać czynników zewnętrznych, takich jak wpływ oprzyrządowania, błąd selekcji itp. Na przykład jeśli eksperymentowałeś podczas wakacji lub w okresie niestabilność gospodarcza, możesz podejmować złe decyzje.

Działanie/decyzja

Ostatnim krokiem jest dokonanie wyboru na podstawie wyników eksperymentu. Można tego użyć do uaktualnienia wersji/funkcji.

Kiedy wykonać test A/B w ML?

Testy A/B to strategia pozwalająca określić, jak zmiana jednej zmiennej wpływa na zaangażowanie odbiorców lub użytkowników. To systematyczna strategia ulepszania kampanii i docelowych współczynników konwersji w marketingu, projektowaniu stron internetowych, rozwoju produktów i projektowaniu doświadczenia użytkownika. Testy A/B możesz przeprowadzić, jeśli:

Chcesz porównać, który produkt działa lepiej
Określenie, który rodzaj gleby sprzyja lepszemu kiełkowaniu nasion w rolnictwie
Aby zobaczyć, który eksperyment wygenerował największe zaangażowanie użytkowników w produkt i sprzedaż
Ustalenie ceny produktu, który przyniesie duże zyski lub który przyciągnie więcej nowych klientów

Weźmy przykład z prawdziwego świata;

Bing przeprowadził test A/B, w którym zmienił sposób wyświetlania nagłówków reklam w wyszukiwarce Bing.
Ten „mały eksperyment” zaowocował wzrostem przychodów o 12%, czyli ponad 100 milionów dolarów rocznie w samych Stanach Zjednoczonych.

Testy A/B są nieskuteczne w przypadku testowania dużych zmian, takich jak nowe towary, nowy branding lub zupełnie nowe doświadczenia użytkowników. Mogą wystąpić oddziaływania sprzyjające większemu niż zwykle zaangażowaniu lub reakcjom emocjonalnym, które powodują, że ludzie zachowują się inaczej w pewnych sytuacjach.‍

Typowe błędy w testach A/B, których powinieneś unikać

Podczas interakcji z innymi specjalistami w organizacji istnieje ryzyko, że pewne koncepcje zostaną źle zrozumiane. Jako analityk danych możesz chcieć edukować lub pomagać innym w zrozumieniu, jak prawidłowo obchodzić się z danymi. Przyjrzyjmy się niektórym najczęstszym błędom w testach A/B:

Niepoprawna hipoteza: cały eksperyment opiera się na hipotezie. Co trzeba zmienić? Jaki jest powód zmiany? Jaki jest zamierzony efekt? I tak dalej. Prawdopodobieństwo powodzenia testu maleje, jeśli zaczniesz od błędnej hipotezy. Zanim przejdziesz do następnego kroku, upewnij się, że wyniki hipotezy są prawidłowe.

Testowanie wielu elementów jednocześnie: może się to zdarzyć, gdy przeprowadzasz test A/B z wieloma wskaźnikami lub jednym wskaźnikiem z różnymi grupami leczenia. Kiedy testujesz zbyt wiele rzeczy na raz, trudno jest określić, która z nich spowodowała sukces, a która porażkę. W rezultacie ustalanie priorytetów testów ma kluczowe znaczenie dla powodzenia testów A/B.

Aby przezwyciężyć ten problem, można podzielić wszystkie metryki na trzy grupy. Po pierwsze, te, na które spodziewasz się wpływu, następnie te, na które może to mieć wpływ, i wreszcie te, na które jest mało prawdopodobne, że będzie to miało wpływ.

Ignorowanie znaczenia statystyk: nie ma znaczenia, co myślisz o teście. Pozwól, aby test przeszedł cały cykl, niezależnie od tego, czy przejdzie pozytywnie, czy nie, aby uzyskał istotność statystyczną. Zignorowanie tego może skutkować podjęciem błędnej decyzji i awarią produktu.

Brak sprawdzenia: bardzo ważne jest, aby dokładnie sprawdzić, czy wyniki są prawidłowe. Testy A/B mogą zakończyć się niepowodzeniem, jeśli są przeprowadzane w sytuacji, w której istnieje ryzyko uzyskania błędnych wyników.‍

Wniosek

Firmy z łatwością przeprowadzą test i wykorzystają dane do poprawy komfortu użytkowania i wydajności. Testy A/B można przeprowadzić przy użyciu różnych technologii, ale jako analityk danych musisz rozumieć aspekty, które się z nimi wiążą.

Aby zwalidować test i wykazać jego istotność statystyczną, trzeba także znać statystyki. Testy A/B mogą pomóc Ci poprawić wyniki na wiele sposobów. Mam nadzieję, że artykuł przypadł Ci do gustu. Życzę miłego eksperymentowania.