Qiziqmi, yuqoridagi rasm mustahkamlashni o'rganishga qanday bog'liq?
Xo'sh, bu mustahkamlashni o'rganishga misoldir. Ushbu maqola sizga mustahkamlashni o'rganish haqida eng asosiy tushuntirishlarni beradi.

Mukammal o'rganish nima?

Bu Mashinani o'rganish texnikasining bir turi bo'lib, u mashinalarga ma'lum bir kontekstdagi ideal xatti-harakatni avtomatik ravishda aniqlashga va uning ishlashini maksimal darajada oshirishga imkon beradi. Mashina tvaqt t+1 boʻyicha qaror qabul qilish uchun tajribadan oʻrganadi.

Oddiy misol bilan boshlaylik:
Biz itimizni otganimizda to'pni olish uchun qanday o'rgatamiz? Har safar biz to'pni uloqtirish harakatini bajaramiz va it uni olganidamukofotlaymizuning sevimli taomi.
Otish va mukofotlash vazifasini bir necha marta bajarish itni tajribani o'rganishga majbur qiladi va keyin uni har safar mukofot olish uchun bajarishga o'rgatadi.
Bu mustahkamlovchi o'rganishdir.
Bu yerda it o'z tajribasidan t o'rganib, daromad olish uchun t+1 da qadam qo'yadi. mukofot.

Haqiqiy hayot ilovasi:

Tasavvur qiling-a, siz kazinoga borgansiz va o'ynash uchun 5 xil o'yin mashinasi bor. Sizda biroz pul bor va undan ko'p foyda olishni xohlaysiz.
Qaysi mashinani tanlagan bo'lardingiz?
Har bir mashina ma'lum bir imkoniyatda pul beradi va siz sizni boy qiladigan mashinaga borishni xohlaysiz!

Bu holatda siz ikkita narsani qilishingiz mumkin:

  1. Siz chorakdan foydalanishingiz va barcha pulingizni ishlatmaguningizcha har safar tasodifiy o'yin mashinasini sinab ko'rishingiz mumkin. Bu jarayon sizga biroz pul ham olib keladi, lekin zerikarli bo'ladi, chunki siz ham ko'pincha yo'qotasiz. qidiruv va ekspluatatsiyao'rtasidagi muvozanatdir.

Tadqiqot :Biz qaysi biri eng yaxshi ekanligini bilish uchun barcha mashinalarni bir necha marta o‘rganmoqchimiz/ishlamoqchimiz.

Xuddi o'sha payt…

Espluatatsiya :Biz pulimizni eng daromadli mashinada bir necha marta ishlatmoqchimiz.

2. Biz har safar oʻyin mashinasidan qaysi mashinani tanlashni oʻrganish uchun mustahkamlovchi oʻrganishdan foydalanishimiz mumkin.Ushbu texnikadan foydalanib, biz qidiruv va ekspluatatsiya oʻrtasidagi muvozanatni saqlashimiz va eng yaxshi mashinani topish orqali maksimal foyda olishimiz mumkin.

Ta'limni mustahkamlash uchun boshqa foydalanish holatlari:

  1. Daromadni oshirish uchun bir nechta reklamalardan eng yaxshi reklamani tanlash.
  2. Trafik nazorati
  3. Robototexnika
  4. Eng yaxshi variantga erishish uchun bir nechta sinov va xato bosqichlarini talab qiladigan har qanday dastur

Mustahkamlovchi o'rganishni qo'llash uchun turli xil algoritmlar mavjud:

  1. Yuqori ishonch chegarasi
  2. Tompson namunasi va boshqalar

Keyingi maqolada biz ushbu algoritmlarni python yordamida amalga oshiramiz va nima uchun mustahkamlashni o'rganish juda ajoyib ekanligini bilib olamiz!

Yakuniy eslatmalar

Bu mening birinchi maqolam va umid qilamanki, siz biror narsani o'rgandingiz! Agar siz ushbu maqolaga qo'shmoqchi bo'lgan biror narsa bo'lsa, xabar qoldiring va ikkilanmang! Har qanday fikr-mulohazalar juda qadrlanadi. Buni baham ko'rishdan qo'rqmang! Rahmat!

Ushbu turkumdagi keyingi maqolani ko'rib chiqing: "YUQORI ISHONCH CHAQASI"