Cum se efectuează testarea A/B în Machine Learning?

Când lucrați pentru o companie bazată pe produse, comerț electronic sau media, este posibil să fiți nemulțumit de numerele de implicare. Poate doriți să evaluați modul în care clienții ar răspunde dacă ați mări prețul sau ați modifica interfața cu utilizatorul. Mulți oameni cred adesea că își cunosc clienții, dar lucrurile nu ies așa cum se așteptau. Testarea A/B este o modalitate prin care companiile testează mai multe funcții simultan pentru a vedea care dă cele mai bune rezultate. Vom analiza ce este testarea A/B și cum să le efectuăm în această postare.

Ce este testarea A/B?

Testarea A/B este o abordare statistică pentru a compara două sau mai multe versiuni/funcții pentru a evalua nu numai care dintre ele funcționează mai bine, ci și dacă diferența este semnificativă statistic.

Testarea A/B poate fi utilizată pentru o varietate de scopuri, inclusiv:

Rafinați mesajele și designul campaniilor de marketing
Creșteți ratele de conversie prin îmbunătățirea experienței utilizatorului
Luați în considerare implicarea utilizatorilor în timp ce optimizați elemente precum pagini web, anunțuri etc

De ce este importantă testarea A/B?

Când faci un experiment sau un test A/B, s-ar putea să descoperi ceva nou, iar rezultatele ar putea fi destul de umilitoare. Companiile se confruntă frecvent cu problema de a crede că își înțeleg clienții, dar, în realitate, clienții se comportă mult diferit decât ați putea presupune. Prin urmare, este esențial să efectuați teste, mai degrabă decât să depindeți de intuiții.

Problema este mult mai complicată și mai fluidă.

Toți utilizatorii nu sunt la fel: vârste variate, sexe, noi vs reveniți și așa mai departe.
Utilizatorii petrec perioade diferite de timp pe site. Unii oameni vizitează site-ul imediat, în timp ce alții își iau timpul.
Utilizatorii urmează multe căi. Aceștia navighează pe site, vizitând diverse pagini înainte de a se confrunta cu evenimentul și obiectivul.
Modelarea unui test A/B în acest mediu poate duce adesea la o interpretare greșită a narațiunii autentice.

Beneficiile testării A/B:

Iterație rapidă
Decizie bazată pe date
Îmbunătățirea implicării utilizatorilor
Venituri și conversii crescute
Utilizează utilizatori reali pentru a efectua teste

Ce este testarea A/B în Machine Learning?

Folosind abordarea de testare A/B, modelele de învățare automată pot fi evaluate și îmbunătățite. Abordarea poate fi folosită pentru a vedea dacă un nou model este mai bun decât unul care există deja. Torganizația ar trebui să aleagă o măsurătoare pentru a compara modelele de control și noile în acest scop. Această măsurătoare este utilizată pentru a evalua succesul implementării și pentru a diferenția între cele două. Ambele modele trebuie aplicate unui eșantion de date simultan pentru o perioadă predeterminată. Jumătate dintre utilizatori ar trebui să folosească modelul de control, iar noul model de cealaltă jumătate.‍

Efectuarea testului A/B

Să vedem procesul pas cu pas pentru a înțelege cum să efectuați testul A/B.

Idee/Definiție

Stabilirea unui obiectiv pentru experiment este prima etapă. Ce credeți că se va întâmpla dacă faceți upgrade la versiunea B? Poate te gândești să crești:

Rata de conversie
Înscrieri pentru produse
Implicarea utilizatorului și așa mai departe.

În termeni simpli, este ca și cum ai sublinia obiectivul testului sau ceea ce speri să obții până la sfârșit.

Subiect

Veți avea nevoie de un grup de subiecte după ce v-ați stabilit criteriile. Acestea pot fi un grup de utilizatori sau clienți. Este posibil să nu puteți efectua teste A/B dacă nu aveți suficiente subiecte. De exemplu, punctele din figura de mai jos reflectă numărul de subiecți.

Randomizare

Vom repartiza subiectele în două grupuri diferite, A și B. Nu trebuie să fie o împărțire 50-50. Poate fi 60-40 sau 70-30. Trebuie să vă dați seama de diviziunea de care aveți nevoie pentru a rula testul A/B. În acest experiment, va trebui, de asemenea, să determinați ce populație vizați - de exemplu, un utilizator care caută, un utilizator care vizitează etc.

Acum, trebuie să definiți o dimensiune a eșantionului. Formula generală este:

N = 16σ²/δ²

Aici,

σ este abaterea standard a eșantionului.

δ Este diferența dintre control și tratament.

După ce v-ați decis cu privire la dimensiunea eșantionului, va trebui să vă dați seamadurata experimentului. De obicei, durata este de aproximativ 1-2 săptămâni. Ar trebui să experimentați cel puțin o săptămână pentru a vedea cum interacționează utilizatorii cu produsul pe parcursul săptămânii și în weekend. În cele din urmă, puneți experimentul la încercare.

Rezultate

Acest pas va expune subiectul la opțiunile A și B, va măsura rezultatele și va calcula statistica testului. În exemplul de mai sus, am împărțit subiecții în două grupuri. Punctele verzi indică rata de conversie a unui subiect; deci, A a primit o conversie de 70%, iar B a primit o conversie de 40%; astfel, acum avem rezultatele noastre.

Testarea ipotezei

Acum, vom vedea dacă schimbarea observată este semnificativă statistic. Testarea ipotezelor este o metodologie statistică care implică obținerea de concluzii despre un parametru statistic sau distribuția riscului folosind date dintr-un eșantion. Acum, să luăm din nou exemplul de mai sus.

Testarea ipotezelor poate fi rezumată în patru etape:

Enunţaţi enunţurile ipotezei.
Setați nivelul de semnificație.
Setați puterea statistică.
Setați efectul minim detectabil.

Valorile vor fi mult mai mari în lumea actuală; asta este doar pentru ilustrare. Avem o rată de conversie a utilizatorilor de 70% în A și 40% în B. Să ne uităm la statistica noastră de test, pe care o vom folosi pentru a determina dacă există sau nu o diferență reală între A și B.

Statistică de testare: (A-B)% = 70–40% = 30%

Deci, aceasta este diferența noastră observată; întrebarea acum este dacă este sau nu semnificativ statistic? Așadar, pentru a răspunde la această problemă, trebuie mai întâi să stabilim dacă diferența de 30 la sută se datorată unei diferențe reale dintre A și B sau dacă se datorează doar întâmplării aleatorii. Aici intervine testarea ipotezelor. .

Orice diferență observată între A și B, ca rezultat, este legată fie de:

Ipoteza nulă (Ho): Șansă aleatorie
Ipoteza alternativă (Ha): diferență reală.

Puteți vedea cum funcționează testul în graficul de mai jos; în cazul nostru, A a fost mai semnificativ decât B, ceea ce indică faptul că experimentul a fost mai bun decât B.

Ne vom uita acum la nivelul de semnificație. Nivelul de semnificație este practic pragul de decizie; un nivel de semnificație mai scăzut indică o diferență de bază între linia de bază și control.

Valoarea P este probabilitatea ca diferența dintre două valori să fie legată de șansa aleatorie. Valoarea P respinge ipoteza nulă. Cu cât valoarea p este mai mică, cu atât Ho este mai probabil să fie aruncat. Prin urmare, ceea ce ați văzut nu s-a întâmplat la întâmplare. În majoritatea cazurilor, valoarea alfa este de aproximativ 0,05.

Alfa = 0,05; valoarea p este mai mică de 0,05, respingeți Ho și concluzionați Ha.

Acum, vom seta puterea statistică, care este probabilitatea de a detecta un efect dacă ipoteza alternativă este adevărată. De obicei este setat la 0,80.

În cele din urmă, trebuie să setați efectul minim detectabil (MDE). Aceasta înseamnă că, dacă modificarea este cu cel puțin 1% mai mare ca venit pe zi per utilizator, atunci este practic semnificativă. În acest articol, nu vom putea acoperi toate aspectele testării ipotezelor. Deci, voi oferi sugestii.

„Teste de semnificație statistică pentru compararea algoritmilor de învățare automată”

„Testarea ipotezei”

„Test de ipoteză pentru compararea algoritmilor de învățare automată”‍

Verificări de valabilitate

Vom examina starea de spirit a experimentului în acest pas. Un experiment greșit poate duce la o decizie proastă. Puteți căuta factori externi, cum ar fi influența instrumentării, prejudecățile de selecție etc. De exemplu,dacă ați experimentat într-o vacanță sau într-o perioadă de instabilitate economică, puteți lua decizii proaste.

Acțiune/Decizie

Pasul final este să faci o alegere pe baza rezultatelor experimentului tău. Aceasta poate fi folosită pentru a actualiza o versiune/funcție.

Când să faceți testul A/B în ML?

Testarea A/B este o strategie pentru a determina modul în care o modificare a unei variabile afectează audiența sau implicarea utilizatorului. Este o strategie sistematică pentru îmbunătățirea campaniilor și a ratelor de conversie vizate în marketing, design web, dezvoltare de produse și proiectare a experienței utilizatorului. Puteți efectua teste A/B dacă:

Doriți să comparați ce produs are performanțe mai bune
Pentru a identifica ce tip de sol susține o mai bună germinare a semințelor în agricultură
Pentru a vedea care experiment a generat cea mai mare implicare a utilizatorilor în produse și vânzări
Stabilirea prețului pentru un produs, care aduce profituri mari sau care duce la mai mulți clienți noi

Să luăm un exemplu din lumea reală;

Bing a efectuat un test A/B în care a schimbat modul în care titlurile publicitare erau afișate în motorul de căutare Bing.
Acest „mic experiment” a dus la un câștig de venituri de 12% sau mai mult de 100 de milioane de dolari pe an numai în Statele Unite.

Testarea A/B este ineficientă atunci când se testează schimbări mari, cum ar fi produse noi, branding nou sau experiențe de utilizator cu totul noi. Pot exista efecte care promovează un angajament mai mare decât cel normal sau răspunsuri emoționale care îi determină pe oameni să se comporte diferit în anumite situații.‍

Greșeli frecvente de testare A/B pe care ar trebui să le evitați

Atunci când interacționați cu alți profesioniști dintr-o organizație, există potențialul ca anumite concepte să fie înțelese greșit. În calitate de cercetător al datelor, este posibil să doriți să educați sau să îi ajutați pe alții să înțeleagă cum să gestioneze corect datele. Să aruncăm o privire la unele dintre cele mai frecvente greșeli de testare A/B:

Ipoteza incorectă: întregul experiment se bazează pe ipoteză. Ce trebuie schimbat? Care este motivul schimbării? Care este efectul scontat? Și așa mai departe. Probabilitatea ca testul să reușească scade dacă începeți cu ipoteza incorectă. Asigurați-vă că rezultatele ipotezei sunt corecte înainte de a trece la pasul următor.

Testarea mai multor elemente simultan: acest lucru se poate întâmpla atunci când rulați un test A/B cu mai multe valori sau o valoare cu diferite grupuri de tratament. Când testezi prea multe lucruri deodată, este greu de determinat care dintre ele a cauzat succesul sau eșecul. Ca rezultat, prioritizarea testelor este esențială pentru succesul testării A/B.

Pentru a depăși această problemă, puteți separa toate valorile în trei grupuri. În primul rând, cei pe care vă așteptați să fie afectați, apoi cei care pot fi afectați și, în sfârșit, cei care este puțin probabil să fie afectați.

Ignorarea importanței statisticilor: nu are nicio diferență cum vă simțiți despre test. Lăsați testul să parcurgă întregul său curs, indiferent dacă trece sau nu, astfel încât să obțină semnificație statistică. Ignorarea acestui lucru ar putea duce la o luare a deciziilor slabe și la eșecul produsului.

Nu se validează: este esențial să verificați din nou dacă rezultatele sunt corecte. Testarea A/B ar putea fi defectuoasă dacă testele sunt efectuate când există șansa de a obține rezultate incorecte.‍

Concluzie

Companiilor le va fi ușor să ruleze testul și să folosească datele pentru a îmbunătăți experiența și performanța utilizatorului. Testarea A/B se poate face folosind diverse tehnologii, dar, ca om de știință a datelor, trebuie să înțelegeți aspectele care intră în ea.

Pentru a valida testul și a demonstra semnificația lui statistică, trebuie să fiți familiarizat și cu statisticile. Testarea A/B vă poate ajuta să vă îmbunătățiți rezultatele într-o varietate de moduri. Sper că v-a plăcut articolul, experimente fericite.