Vă întrebați cum imaginea de mai sus este legată de învățarea prin întărire?
Ei bine, este un exemplu de învățare prin întărire. Acest articol vă va oferi explicațiile de bază despre învățarea prin întărire.

Ce este învățarea prin întărire?

Este un tip de tehnică de învățare automată care permite mașinilor să determine automat comportamentul ideal într-un anumit context, pentru a-și maximiza performanța. Mașina învață din experiență la momentul tpentru a lua o decizie pentru timpul t+1.

Să începem cu un exemplu simplu:
Cum ne antrenăm câinele de companie pentru a ne aduce mingea când o aruncăm? De fiecare dată când efectuăm acțiunea de a arunca mingea și când câinele o primește, o recompensămcu gustarea sa preferată.
Făcând această sarcină de a arunca și de a recompensa de mai multe ori, câinele învață experiența și apoi este antrenat să o facă de fiecare dată pentru a câștiga o recompensă.
Aceasta este învățare prin întărire.
Aici câinele învață din experiențele la momentul t să facă un pas la t+1 pentru a câștiga un Răsplată.

Aplicație în viața reală:

Imaginați-vă că ați mers la un cazinou și aveți 5 sloturi diferite cu care să jucați. Aveți niște bani și doriți să obțineți cel mai mare profit din ei.
Ce mașină ați alege?
Fiecare mașină aduce bani la o anumită șansă și vrei să mergi pe mașina care te va face bogat!!

Puteți face 2 lucruri în acest caz :

  1. Puteți să vă folosiți trimestrul și să încercați o mașină de slot aleatorie de fiecare dată, până când vă folosiți toți banii. Acest proces vă va aduce, de asemenea, niște bani, dar va fi plictisitor, deoarece veți pierde de cele mai multe ori. Avem nevoie de o modalitate prin care să existe este un echilibru între explorare vs exploatare.

Explorare:Dorim să explorăm/utilizam toate mașinile de mai multe ori, astfel încât să știm care este cea mai bună.

În același timp…

Exploatarea:Dorim să ne folosim banii de mai multe ori pe mașina care este cea mai profitabilă.

2. Putem folosi învățarea prin întărire pentru a învăța de fiecare dată când folosim o mașină de slot ce mașină să alegem în continuare. Folosind această tehnică, putem menține un echilibru între explorare și exploatare și putem obține profit maxim prin găsirea celei mai bune mașini.

Alte cazuri de utilizare pentru învățarea prin întărire:

  1. Selectarea celei mai bune reclame din mai multe reclame pentru a crește profitul.
  2. Control de trafic
  3. Robotică
  4. Orice aplicație care necesită mai multe etape de încercare și eroare pentru a ajunge la cea mai bună opțiune

Pentru a aplica învățarea prin întărire, sunt prezenți diferiți algoritmi precum:

  1. Limita superioară a încrederii
  2. Eșantionarea lui Thompson, etc

În articolul următor vom implementa acești algoritmi folosind python și vom afla de ce învățarea prin întărire este super minunată!!

Note finale

Acesta este primul meu articol și sper că ați învățat ceva! Dacă doriți să adăugați ceva la acest articol, nu ezitați să lăsați un mesaj și nu ezitați! Orice fel de feedback este cu adevărat apreciat. Nu vă fie teamă să împărtășiți asta! Mulțumesc!

Consultați următorul articol din această serie: UPPER CONFIDENCE BOUND