Ob'ektni aniqlash algoritmlarini kompleks tahlil qilish

Umumiy koʻrinish

Insonning ko'rish mexanizmi hayratlanarli. Vizual sensorlar tasvirni idrok etadilar va uni elektr signallariga aylantiradilar va ular neyron tizimlarga o'tkazadilar. Keyin miya signallarni qayta ishlaydi, natijada odamlarga ko'rishga imkon beradi, shuningdek, tasvirning kontekstini, shu jumladan tasvirdagi qaysi ob'ektlar va ularning qayerda va qanchasi borligini tushunishga imkon beradi. Bu murakkab jarayonlarning barchasi bir zumda sodir bo'ladi. Agar biror kishiga qalam berilsa va barcha ko'rinadigan narsalar atrofida quti chizish so'ralsa, buni osongina bajarish mumkin.

Biroq, mashina bu jarayonni odamlar kabi samarali bajara oladimi, shubhali. Konvolyutsion neyron tarmoqlari (ConvNets yoki CNN) berilgan tasvirdan xususiyatlarni ajratib olishda va nihoyat uni mushuk yoki it sifatida tasniflashda yaxshi. Ushbu jarayon tasvirni tasniflash deb nomlanadi. Agar ob'ektlar markazlashtirilgan bo'lsa va rasmda faqat bir nechta ob'ektlar bo'lsa, bu oson ish. Agar ob'ektlar soni ko'paytirilsa va ob'ektlar turli sinflarga tegishli bo'lsa, ular bir-biridan farqlanishi va tasvir ichida lokalizatsiya qilinishi kerak. Bu ob'ektni aniqlash va mahalliylashtirish sifatida tanilgan. Chjaoning ta'kidlashicha, ob'ektni aniqlash - bu har bir tasvirdagi ob'ektlarning tushunchalari va joylashishini tasniflash va baholashni o'z ichiga olgan to'liq tushunchani yaratish jarayoni. (Zhao va boshq., 2019). Ob'ektni aniqlash, shuningdek, yuzni aniqlash, piyodalarni aniqlash va asosiy nuqtani aniqlash kabi kichik vazifalarni ham o'z ichiga oladi. Ushbu kichik vazifalar ko'plab ilovalarni, jumladan, inson xatti-harakatlarini tahlil qilish, yuzni aniqlash va avtonom haydashni qo'llab-quvvatlaydi (Zhao, va boshq., 2019).

Ushbu maqolada men ob'ektni aniqlash algoritmlariga e'tibor qarataman, ularR-CNN oilaviy algoritmlari; R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN, Single Shot Multibox Detector(SSD), RetinaNet va YOLO kuchli> oilaviy algoritmlar; YOLO, YOLO-9000, YOLOv3, YOLOv4 va YOLOv5.

Bochkovskiy va boshqalarning fikriga ko'ra, ob'ekt detektorlari ikkita asosiy qismga ega: ImageNet-da o'qitilgan magistral va boshchegaraviy qutini bashorat qilish uchun ishlatiladi. Asosan, VGG, ResNet, ResNeXt va Darknet GPU platformalari uchun, SqueezeNet, MobileNet yoki ShuffleNet esa CPU platformalari uchun ‘magistralarxitekturasi sifatida ishlatiladi. Aksariyat ob'ekt detektorlari turli bosqichlardagi xususiyat xaritalarini to'plash uchun magistral va bosh orasiga ulanish qatlamlarini joylashtiradi. Bu ‘bo‘yin’ deb nomlanadi. Feature Pyramid Networks, PANet yoki Bi-FPN kabi turli xil bo'yinlardan foydalanish mumkin. Ob'ekt detektoriga qarab, turli xil "boshlar" dan, shu jumladan bir bosqichli detektorlar sifatida YOLO, SSD yoki RetinaNet yoki R-CNN oilasidan ikki bosqichli detektorlar sifatida foydalanish mumkin (Bochkovskiy va boshq., 2020).

R-CNN - mintaqaga asoslangan konvolyutsion neyron tarmoqlari

R-CNN va Fast R-CNN

Birinchi versiyada mintaqaga asoslangan konvolyutsion neyron tarmoqlari (R-CNN) uch bosqichga ega. Birinchi bosqich mintaqaviy takliflarni ishlab chiqarishbu nomzodlarni aniqlash to'plamini belgilaydi. Ikkinchi bosqich - har bir mintaqa uchunxususiyatlarni chiqarish, yakuniy bosqich esatasniflash(Girshick, va boshq., 2013). Girshick va boshqalar. mintaqaviy takliflarni yaratish uchun tanlangan qidiruv algoritmidan foydalaning va AlexNet CNN arxitekturasidan xususiyat ekstraktori sifatida foydalaning. Yakuniy bosqichda olingan xususiyatlar nomzod hududi taklifidagi ob'ektlar mavjudligini tasniflash uchun har bir sinf uchun optimallashtirilgan chiziqli Yordam Vektorli Mashinalariga (SVMs) kiritiladi. Hudud taklifi sinfini bashorat qilishdan tashqari, algoritm chegara chizig'i aniqligini oshirish uchun ofset qiymatlari bo'lgan to'rtta qiymatni ham bashorat qiladi. R-CNN algoritmlari bilan bir qator kamchiliklar mavjud. Birinchidan, ularni o'rgatish juda sekin va har bir rasm uchun har bir mintaqa taklifini (~ 2000) tasniflash qimmatga tushadi. Ikkinchidan, R-CNN real vaqt stsenariylarida ishlatilmaydi, chunki tasvirni sinash uchun taxminan 47 soniya vaqt ketadi. Uchinchidan, R-CNN ning selektiv qidiruv algoritmi aniqlangan. Shunday qilib, ushbu bosqichda hech qanday o'rganish yo'q, bu yomon nomzod taklifiga olib kelishi mumkin.

2015 yilda Girshick Fast R-CNN(Girshick, 2015) nomi bilan ham tanilganR-CNNning takomillashtirilgan versiyasini taklif qildi.Bu yondashuv originalga o'xshash, lekin konvolyutsion qatlamga mintaqa takliflarini berish o'rniga, konvolyutsion xususiyat xaritasini yaratish uchun asl tasvir ishlatiladi. Hudud takliflari xususiyatlar xaritasidan aniqlanadi va keyin ularni belgilangan oʻlchamga oʻzgartirish uchunRoI(qiziqish hududi) birlashtiruvchi qatlam tomonidan qayta ishlanadi; keyin ular to'liq bog'langan qatlamga oziqlanadi. Ikkita egizak chiqish qatlami mavjud. Birinchi qatlam toifalar bo'yicha RoI bo'yicha diskret ehtimollik taqsimotini chiqaradi. Ikkinchi qatlam cheklovchi quti regressiya ofsetlarini chiqaradi. Bunga ko'p vazifani yo'qotishdeb nomlangan yo'l orqali erishiladi.

Natijada, 2-rasmda ko'rsatilgan RoI xususiyat vektoridan har bir taklif qilingan mintaqa uchun sinf va ofset qiymatlari bashorat qilinadi. Fast R-CNN-ning muhim komponenti RoIPoolingbo'lib, oldingi konvolyutsiya tarmog'idan xususiyat xaritasini qayta ishlatish imkonini beradi; ushbu uslub o'qitish va sinov vaqtini sezilarli darajada yaxshilaydi va ob'ektni aniqlash tizimini oxirigacha o'rgatish imkonini beradi (Grel, 2017).

Fast R-CNN bilan bog'liq muammo shundaki, u hali ham mintaqaviy takliflarni yaratish uchun tanlangan qidiruv algoritmidan foydalanadi. Ushbu jarayon qimmat va ko'p vaqt talab qiladiganligi sababli, mintaqaviy takliflarni yaratish algoritm uchun qiyinchilikka aylandi.

Tezroq R-CNN

2015 yilda Ren va boshqalar. taklif qilingan Faster R-CNN, mintaqaviy takliflarni tanlab qidirish algoritmini yo'q qiladi va mintaqa takliflarini o'rganish uchun Mintaqa taklif tarmoqlaridan (RPN) foydalanadi (Ren, va boshq., 2015).

O'zlarining asl maqolalarida Ren va boshqalar. 5 ta umumiy konvolyutsion qatlamga ega bo'lgan Zeiler va Fergus modelini, shuningdek, 13 ta umumiy konvolyutsion qatlamga ega bo'lgan VGG16 dan xususiyat ekstraktorlari sifatida foydalaning, ular magistral deb ham ataladi. PyTorch ilovasida Faster R-CNN FPN bilan ResNet yoki FPN bilan MobileNetV3-dan xususiyatni ajratuvchi sifatida foydalanadi; arxitektura 4-rasmda tasvirlangan.

Mintaqaviy taklif tarmog'i (RPN) - bu oxirgi umumiy konvolyutsion qatlam tomonidan konvolyutsion xususiyat xaritasi chiqishi bo'ylab siljiydigan kichik tarmoq. U xususiyat ekstraktori tomonidan yaratilgan kirish konvolyutsion xususiyat xaritalarining 3 x 3 fazoviy oynasini olish orqali ob'ektivlik ballari bilan to'rtburchaklar ob'ekt takliflarini yaratadi. Har bir toymasin oyna joyida RPN turli xil takliflarni ishlab chiqaradi. Bu turli xil takliflar 2k ob'yektivlik ballari va 4k koordinatalariga olib keladi. Bundan tashqari, bu k turli takliflar langar deb ataladigan k turli mos yozuvlar qutisiga nisbatan. Ushbu langarlar turli o'lcham va shakllarda bo'ladi (Ren, va boshq., 2015). O'z maqolalarida Ren va boshqalar. 3 ta masshtab va 3 ta aspekt nisbati, jami 9 ta langardan foydalanganligini aniqlang. RPNlar ob'ekt bor yoki yo'qligini tekshirish uchun har bir langarga ikkilik sinf belgilarini belgilash orqali o'qitiladi. Ijobiy yorliqlar eng yuqori IoU ga ega langarlar uchun va IoU dan yuqori boʻlgan langarlar uchun yer haqiqat qutisi bilan 0,7 dan yuqori. Salbiy teglar barcha haqiqat qutilari uchun IoU 0,3 bilan ijobiy bo'lmagan langarga tayinlangan. Ushbu ta'riflar ostida, RPN uchun yo'qotish funktsiyasi 1 tenglamada ko'rsatilganidek aniqlanadi:

bu erda i - mini-to'plamdagi langar indeksi va pi - bu langarda ob'ekt bo'lish ehtimoli. Asosiy haqiqat yorlig'i p*i, agar langar ijobiy bo'lsa, 1 ga teng, agar langar salbiy bo'lsa, 0 ga teng; ti - cheklovchi qutining 4 ta parametrlangan koordinatasini ifodalovchi vektor; va t * i - musbat langar bilan bog'langan asosiy haqiqat qutisi. Tasniflash yo'qolishi ikkilik o'zaro entropiya va regressiya yo'qolishi silliq L1. Regressiyani yo'qotish faqat p * i nolga teng bo'lmagan ijobiy langarlar uchun faollashtiriladi. 4 ta chegaralovchi quti koordinatalari uchun 2- tenglamada belgilangan quyidagi parametrlar qo'llaniladi:

bu erda x va y qutining markaziy koordinatalarini, h va w balandligi va kengligini bildiradi; x, xa va x* bashorat qilingan chegaraviy quti, langar va asosli haqiqatni bildiradi.

RPN mintaqaviy takliflarni yaratgandan so'ng, Faster R-CNN, shuningdek, Fast R-CNN-da bo'lgani kabi, ROI Pooling-dan ham mintaqaviy taklif va aniqlash vazifalari uchun xususiyat xaritalarini birlashtirish uchun foydalanadi.

Mask R-CNN

U va boshqalar. 2017-yilda Mask R-CNN-ni Faster R-CNN-ni kengaytirish va chegaralovchi qutini bashorat qilish bilan parallel ravishda ob'ekt niqobini bashorat qilish uchun filialni qo'shish orqali ishlab chiqdi (He, va boshq., 2017). Mask R-CNN soniyada 5 kadr tezlikda ishlaydi. Asosiy maqsad - misol segmentatsiyasi. Mask R-CNN modelining yangi filiali har bir qiziqish mintaqasida (RoI) piksel segmentatsiyasi niqoblari bo'yicha piksellarni bashorat qiladi. RoIPool o'rniga RoIAlign ishlatiladi, chunki u kvantlashsiz va noto'g'ri joylashishni tuzatadi va fazoviy joylarni saqlaydi.

PyTorch dasturini amalga oshirishda Mask R-CNN FPN bilan ResNet yoki FPN bilan MobileNetV3-dan xususiyatni ajratuvchi sifatida foydalanadi; arxitektura 5-rasmda tasvirlangan.

1-jadvalda ko'rsatilganidek, Mask-RCNN mAP da ob'ektlarni aniqlash vazifalarida Faster RCNN dan ham ustundir. U va boshqalar. bu yaxshilanish RoIAlign (+1.1AP), koʻp vazifali trening (+0.9AP) va ResNeXt101 (+1.6AP) (He, va boshq., 2017) tufayli ekanligini koʻrsatadi.

U va boshqalar. RoIPooling tufayli kelib chiqqan kvantlash muammosini hal qilish uchun RoIAlignni taklif qiling (RoIPool 1.1.1.1-bo'limda kiritilgan. RoIAlign oddiygina RoI chegaralarini har qanday kvantlashdan qochadi; u har bir RoI bindagi xususiyatlarning aniq qiymatlarini hisoblash uchun ikki chiziqli interpolyatsiyadan foydalanadi va natijalarni jamlaydi. 6-rasmda ko'rsatilganidek, chiziqli to'r xususiyat xaritasi bo'lib, qat'iy chiziqlar qiziqish hududlari (RoI) uchun va to'rtta nuqta namuna olish nuqtalari hisoblanadi Shuning uchun bu operatsiyalar davomida kvantlash amalga oshirilmaydi.

Mask R-CNN Faster R-CNN bilan bir xil yo'qotish funksiyasidan foydalanadi. Bundan tashqari, 3- tenglamada aniqlanganidek, u niqobni yo'qotadi:

Lcls va Lbox Faster R-CNN kabi belgilangan. Niqob shoxchasida har bir ROI uchun K ikkilik niqob mavjud va har bir niqob har bir ROI uchun Km2 o‘lchamli chiqish natijasi bo‘lgan m x m o‘lchamdir. Shuning uchun tarmoq tomonidan har bir sinf uchun niqoblar yaratish mumkin, bu sinflar o'rtasidagi raqobatni oldini oladi. U va boshqalar. piksel boshiga sigmasimonni qo'llang va Lmaskni ikkilik o'zaro entropiya yo'qotish sifatida ishlatdi (He, va boshq., 2017).

Bir martalik ko‘p quti detektori (SSD)

R-CNN oilasi kabi mintaqaga asoslangan ob'ekt detektorlari kamida 2 bosqichli ob'ekt detektorlarini talab qiladi, bunda birinchi bosqich taklifni yaratish, ikkinchi bosqich esa har bir taklif uchun ob'ektni aniqlashdan iborat. SSD nomi bilan ham tanilgan Single Shot MultiBox detektori bir bosqichli detektor bo'lib, ob'ektni lokalizatsiya qilish ham, tasniflash ham tarmoqning bitta oldinga uzatilishida yakunlanadi, bu esa belgilangan o'lchamdagi cheklovchi qutilar va ball to'plamini ishlab chiqaradi. ob'ekt sinfi misollarining mavjudligi, so'ngra ob'ekt uchun bir xil aniqlashlarni olib tashlash uchun maksimal bo'lmagan bostirish (Liu va boshq., 2016). SSD sekundiga 59 kadr (FPS) da ishlaydi, VOC2007 test ma’lumotlar to‘plamida mAP 74,3% ni tashkil qiladi. Taqqoslash uchun, Faster R-CNN mAP 73,2% bilan 7 FPS da ishladi, YOLO esa 63,4% mAP bilan 45 FPS da ishladi (Liu, va boshq., 2016).

Liu va boshqalarga ko'ra. Eng katta yaxshilanish cheklovchi quti takliflarini yo'q qilish va xususiyatlarni qayta namunalashdan kelib chiqadi. SSD ning hissasi uch barobar. Birinchidan, u eng zamonaviy bir martalik detektorga (YOLO) qaraganda tezroq va sezilarli darajada aniqroq. Ikkinchidan, u xususiyat xaritalariga qo'llaniladigan kichik konvolyutsion filtrlardan foydalangan holda, standart bboxning belgilangan to'plami uchun toifadagi ballar va chegaraviy quti ofsetlarini bashorat qiladi. Uchinchidan, u turli masshtabdagi xususiyatli xaritalardan turli masshtablar uchun bashoratlarni yaratadi va prognozlarni tomonlar nisbati bo‘yicha ajratadi.

SSD arxitekturasi VGG-16 ga asoslangan, garchi u to'liq bog'langan qatlamlarni yo'q qilsa. Turli masshtablardan xususiyatlarni ajratib olish va har bir qatlamdagi kirish hajmini bosqichma-bosqich kamaytirish uchun qo'shimcha konvolyutsion qatlamlar qo'shiladi. Bu aniqlash uchun ko'p masshtabli xususiyat xaritalari sifatida ko'rsatilgan. SSD 3x3 bo'lgan kichik konvolyutsion filtrlar yordamida joylashuv va sinf ballarini hisoblaydi va har bir katak uchun standart quti koordinatalariga nisbatan toifa uchun ball yoki shakl ofsetini ishlab chiqaradi (Liu va boshq., 2016). Ushbu filtrlar aniqlash uchun konvolyutsion bashorat qiluvchilar sifatida tanilgan. SSD Faster R-CNN-dagi langarlar kabi standart chegaralovchi qutilardan foydalanadi.

Liu va boshqalar. shuningdek, mashg'ulot paytida ba'zi salbiy va ijobiy misollardan foydalanadigan qattiq salbiy konchilik deb ataladigan texnikani tasvirlab bering. Chunki chegaralovchi qutilarning ko'pchiligi past kesishgan birlashmaga (IoU) ega va salbiy misollar sifatida talqin qilinadi, Liu va boshqalar. ta'lim misollarini muvozanatlash uchun salbiy misollar va ijobiy misollar o'rtasida 3: 1 nisbatdan foydalaning. Bu shuningdek, tarmoqqa noto'g'ri aniqlashlarni o'rganishga yordam beradi (Liu, va boshq., 2016).

Boshqa ko'plab neyron tarmoq ilovalarida bo'lgani kabi ma'lumotlarni ko'paytirish usullari ham qo'llaniladi, masalan, aylantirish va tuzatish. Liu va boshqalar. potentsial ob'ektlar chapda ham, o'ngda ham xuddi shunday ehtimollik bilan paydo bo'lishini ta'minlash uchun 0,5 ehtimollik bilan gorizontal aylantirishdan foydalaning.

SSD modeli uchun yo'qotish funksiyasi 4- tenglamada tavsiflanganidek, mahalliylashtirish yo'qolishi (loc) va ishonchni yo'qotishning (conf) o'lchangan yig'indisidir:

bu erda x - standart qutini asosiy haqiqatga moslashtirish ko'rsatkichi; l - bashorat qilingan quti va N - asosiy haqiqatga mos keladigan standart qutilar soni. Ishonch yo'qolishi bir nechta sinf ishonchlari © ustidan SoftMax chiqishidir, mahalliylashtirish yo'qolishi esa bashorat qilingan quti va yer haqiqati o'rtasidagi Smooth L1 yo'qolishidir (Liu va boshq., 2016).

RetinaNet

RetinaNet nomi bilan ham tanilgan zich ob'ektni aniqlash uchun fokal yo'qotish 2018 yilda Lin va boshqalar tomonidan taklif qilingan. Lin va boshqalarning fikriga ko'ra, bir bosqichli detektorlarning past aniqligining sababi oldingi fon va fon sinfining o'ta nomutanosibligidir. Sinf nomutanosibligi R-CNN oilasida va boshqa ikki bosqichli detektorlarda hal qilinadi. Tanlangan qidiruv takliflari yoki RPN kabi taklif holati nomzod obʼyektlar sonini kichik songa (1–2k) qisqartirish orqali koʻpchilik fon namunalarini filtrlash uchun javob beradi, bir bosqichli detektorlar esa ~100k ni qayta ishlashlari kerak. Ikkinchi bosqichda, oldingi va orqa fonning qat'iy nisbati (1:3) yoki onlayn qattiq misol qazib olish kabi namuna olish evristikasi oldingi va fonni muvozanatlashga yordam beradi. Bir bosqichli detektorlar bootstrapping yoki qattiq misol qazib olishni qo'llasa-da, Liu va boshqalar. u bilan kurashish uchun ushbu texnikalar etarli emasligini ta'kidlaydilar. Shuning uchun, Lin va boshqalar. yaxshi tasniflangan yo'qotishga erishish uchun yo'qotishning og'irligini pasaytiradigan tarzda qayta shakllangan o'zaro entropiya yo'qotilishini taklif qiling (Lin va boshq., 2018).

RetinaNet butun tasvirdan boy va ko'p masshtabli xususiyatli xaritalarni olish uchun mas'ul bo'lgan ResNet + Feature Pyramid Network (FPN) dan magistral sifatida foydalanadi. Keyin RetinaNet sinfni bashorat qilish uchun bitta kichik tarmoqqa, ikkinchisi esa chegaraviy qutini bashorat qilish uchun tayanadi. 2-jadvaldan ko'rinib turibdiki, RetinaNet ikki bosqichli detektorlarni nafaqat xulosa vaqti (FPS), balki o'z vaqtida aniqligi bo'yicha ham yengadigan birinchi bir bosqichli detektordir.

Fokal yo'qotish oldingi va fon sinflari o'rtasidagi nomutanosiblikni hal qilish uchun taklif qilingan. Lin va boshqalar ta'kidlaganidek, tortish omili o'zaro entropiyani o'zgartirishning keng tarqalgan usuli hisoblanadi (Lin va boshq., 2018). Shuning uchun ular modulyatsiya qiluvchi omilni (1-pt)y qo'shadilar, bu erda fokuslash parametri:

Siz faqat bir marta qaraysiz (YOLO) Oila

YOLO, V1

YOLO algoritmi birinchi marta 2015 yilda Redmon va boshqalar tomonidan taklif qilingan. U o'sha paytdagi boshqa obyektlarni aniqlash algoritmlaridan farqli yondashuvni qo'llaydi. U ob'ektni aniqlashni regressiya muammosi sifatida belgilaydi, boshqalari esa tasniflash yondashuvidan foydalanadilar. Redmon va boshqalar. ta'kidlashicha, bitta tarmoq bir vaqtning o'zida chegaralangan qutini ham, sinf ehtimolini ham bashorat qilganligi sababli, uni oxirigacha optimallashtirish mumkin (Redmon va boshq., 2015).

YOLO (v1) 45 FPS tezlikda tasvirlarni qayta ishlashi mumkin va YOLO ning kichikroq versiyasi 155 FPS tezlikda tasvirlarni qayta ishlashi mumkin va shu bilan birga boshqa real vaqtda ob'ekt detektorlarining ikki baravar mAP ga erishadi (Redmon, va boshq., 2015).

YOLO algoritmining g‘oyasi tasvirni kirish sifatida qabul qilish va uni katakchani (S x S) qoplagan holda tasavvur qilish mumkin bo‘lgan hujayralarga bo‘lishdan iborat; agar ob'ektning markazi to'r katakchasiga tushsa, bu katakcha bashorat qilish uchun javobgardir.

Har bir panjara katakchasi B chegaralovchi qutilarini va ushbu qutilar uchun ishonch ballini hosil qiladi, bu modelning qutida ob'ekt bormi yoki yo'qligi haqidagi ishonchini aks ettiradi. Redmon va boshqalar. ishonchni Formula 6 dagi kabi shakllantiring (Redmon va boshq., 2016):

Ushbu formulaga ko'ra, agar hujayrada hech qanday ob'ekt bo'lmasa, u holda ishonch darajasi nolga teng bo'lishi kerak. Agar ob'ekt hujayrada mavjud bo'lsa, unda ehtimollik 1 ga teng va ishonch bashorat qilingan chegara qutisi va asosiy haqiqat o'rtasidagi IoU ga teng.

Yuqorida aytib o'tilganidek, har bir katak B chegaralovchi qutisini bashorat qiladi va har bir chegaralovchi quti uchun 5 ta qiymat mavjud. Bular chegaralovchi qutining x, y, w va h, shuningdek, ishonch balli. (x, y) chegaralovchi qutining markazi, w va h esa butun tasvirga nisbatan chegaralovchi qutining kengligi va balandligi. Chegaralash qutisi bilan bir qatorda, har bir katakcha, agar ob'ekt mavjud bo'lsa, sinf ehtimolliklarini ham bashorat qiladi - boshqacha qilib aytganda, C-shartli sinf ehtimolliklari Pr (Classi | Ob'ekt) - shuning uchun formula quyidagicha ko'rsatiladi (Redmon va boshq. , 2015):

Tasvir uchun umumiy bashoratlar S x S x (B * 5 + C) ga teng. O'z maqolalarida Redmon va boshqalar. 20 ta sinfga ega bo'lgan PASCAL VOC ma'lumotlar to'plamida S=7 va B=2 dan foydalanganliklarini ayting; Shunday qilib, yakuniy bashorat 7 x 7 x 30 tensordir. Yakuniy bosqichda YOLO dublikatlarni yo'q qilish uchun maksimal bo'lmagan bostirishni qo'llaydi (Redmon, va boshq., 2016).

YOLO v1 da GoogLeNetdan ilhomlanganidek, 24 ta konvolyutsion qatlam va 2 ta toʻliq bogʻlangan qatlam mavjud. Biroq, boshlang'ich modullar o'rniga YOLO 1x1 qisqartirish qatlamidan keyin 3x3 konvolyutsion qatlamlardan foydalanadi. Konvolyutsion qatlamlar ImageNet-da yarim o'lchamdagi (224 x 224) oldindan o'rganiladi va keyin aniqlash uchun ruxsatni ikki baravar oshiradi.

YOLO v1 o'z vaqtida ma'lum cheklovlarga ega. Har bir panjara katakchasi faqat ikkita chegaralovchi quti va bitta sinfni bashorat qilganligi sababli, yaqin ob'ektlarni aniqlash qiyin. YOLO v1 uchun kichik narsalarni aniqlash ham qiyin. Yo'qotish funktsiyasi katta va kichik ob'ektlar uchun takroriy xatolar xavfini yaratadi. Kichik ob'ektlardagi kichik xatolar ko'proq ta'sir qiladi.

YOLO ko'p qismli yo'qotish funktsiyasidan foydalanadi, bu mahalliylashtirishni yo'qotish, ishonchni yo'qotish va tasnifni yo'qotish yig'indisidir. Mahalliylashtirishni yo'qotish taxmin qilingan chegara qutilarining joylashuvi va o'lchamlaridagi xatolarni o'lchaydi;

chegaralovchi qutining aniqligiga ko'proq e'tibor beradi. Bundan tashqari, hujayrada biror narsa bo'lsa, ishonchni yo'qotish o'lchovlari; bu ob'ektivlik deb ataladi. Agar ob'ekt aniqlansa, tasnifni yo'qotish har bir sinf uchun sinf-shartli ehtimolliklarning kvadrat xatosini hisoblash orqali har bir katakdagi ob'ekt sinfini taxmin qiladi.

YOLO taklif qilingan vaqtda, 3-jadvalda ko'rsatilganidek, u mAP va FPSda ikki bosqichli detektorlardan ustun keldi.

YOLO v2 (YOLO 9000)

SSD taklif qilinganida kuchli raqobatchi edi. YOLOda mahalliylashtirish xatolari yuqori boʻlgan, shu bilan birga uning barcha obyektlarni qanchalik toʻgʻri joylashishini oʻlchaydigan eslab qolish darajasi pastroq boʻlgan. Shunday qilib, YOLO v2 tasniflash aniqligini saqlab qolgan holda eslab qolish va mahalliylashtirishni yaxshilashga qaratilgan (Redmon & Farhadi, 2016).

Redmon va Farhodi YOLO v2 ni yaxshilash uchun bir nechta usullardan foydalanadilar, ular o'z qog'ozlarida YOLO dan YOLO v2 gacha bo'lgan yo'lni tasvirlaydilar. Ushbu usullardan birinchisi partiyani normallashtirish bo'lib, bu konvergentsiyani sezilarli darajada yaxshilaydi va boshqa normalizatsiya usullarini bekor qiladi. To'plamni normallashtirishni qo'llash orqali Redmon va Farhodi mAPda 2% yaxshilanishga erishdi va chiqishni olib tashladi; partiyani normallashtirish, shuningdek, tartibga solishni yaxshiladi va ortiqcha o'rnatishning oldini oldi. Ikkinchi usul yuqori aniqlikdagi tasniflagichdan foydalanishdir. Barcha zamonaviy ob'yekt detektorlari ImageNet da oldindan o'qitilgan tasniflagichlardan foydalanadi. YOLO v1 da bu 224 x 224; ammo YOLO v2 da tasniflash tarmog'i 10 davr uchun 448 x 448 o'lchamdagi kirish tasvirlari bilan ImageNet da o'qitiladi. Yuqori aniqlik mAPni qo'shimcha 4% ga oshiradi. Uchinchi usul - Faster R-CNN-da bo'lgani kabi, langar qutilari bilan konvolyutsiya: tarmoq faqat qo'lda berilgan langar qutilari (avval) uchun ofsetlarni bashorat qiladi. Shuning uchun, Redmon va Farhodi to'liq bog'langan qatlamlarni olib tashlaydi va chegara qutilarini taxmin qilish uchun langar qutilaridan foydalanadi. Ruxsatni oshirish uchun bitta biriktiruvchi qatlam olib tashlanadi va tasvir 448 x 448 o'rniga 416 x 416 gacha kichraytiriladi. Bu qisqarish jarayonining motivatsiyasi bitta markazli katakchani kafolatlash uchun tarmoqdagi toq sonli joylarni ishlatishdir. YOLO tasvirni 32 marta pasaytiradi; shuning uchun 448 soni 14, 416 soni esa 13 bilan tugaydi. Nihoyat, Redmon va Farhodiy yaxshi langar qutilari bilan boshlash orqali yaxshi natijalarga erishish mumkinligini da'vo qilmoqda. Shuning uchun ular langar qutilarini topish uchun ma'lumotlar to'plamida k-vositalarni klasterlashdan foydalanadilar.

Anchor qutilari bo'yicha ofsetni bashorat qilish o'rniga, Redmon va Farhodi to'g'ridan-to'g'ri joylashuvni bashorat qilishdan foydalanadi, bu esa tarmoqqa ofset qilinadi. Bu erta takrorlash paytida modelning beqarorligini hal qilishga yordam beradi. Har bir chegaralovchi quti uchun tarmoq tomonidan 5 ta koordinata (tx, ty, tw, th va to) bashorat qilinadi. Agar katakcha yuqori chap burchakdan (cx, cy) ofset qilingan bo'lsa va agar langar qutisi kengligi (pw) va balandligi (ph) bo'lsa, chegara qutisi va ob'ektivlik bashorati quyidagicha bo'ladi:

Redmon va Farhodiy ham oldingi qatlamlarning xususiyatlari bo'lgan nozik taneli xususiyatlardan foydalanadilar. Boshqa ob'ekt detektorlari bashorat qilishga hissa qo'shadigan turli shkalalardan foydalanadi. Shuning uchun, Redmon va Farhodi ham xuddi shunday yondashuvni 26x26 o'lchamdagi oldingi qatlamlardagi xususiyatlardan foydalangan holda qo'llaydi; ular ResNet-da bo'lgani kabi, identifikatsiya xaritalari kabi yuqori va past aniqlikdagi xususiyatlarni to'playdi. Shuningdek, ular ko'p miqyosli mashg'ulotlardan foydalanadilar, bu esa mashg'ulot paytida kirish hajmini o'zgartirishni talab qiladi. Ular 32 ga ({320, 352, …, 608}) koʻpaytmalar toʻplamidan foydalanishlari va bu rejim tarmoqni turli kirish oʻlchovlari boʻyicha yanada samaraliroq bashorat qilishni oʻrganishga majbur qilishlari haqida xabar berishadi (Redmon va Farhadi, 2016).

Redmon va Farhodi, shuningdek, VGG-16 dan boshqa maxsus bazaviy xususiyat ekstraktoridan foydalanadilar. VGG-16 kuchli va aniq bo'lsa-da, u ham murakkab - u bir marta o'tish uchun 30,69 milliard FLOPga ega, YOLO v2 uchun mo'ljallangan maxsus tarmoq esa 8,52 milliard FLOPga ega. Maxsus tarmoqning aniqligi VGG-16 ga qaraganda bir oz yomonroq: VGG-16 ImageNet-da 90% aniqlikka ega, maxsus tarmoq esa 88% aniqlikka ega (Redmon & Farhadi, 2016). Yakuniy model Darknet-19 deb nomlanadi, 19 ta konvolyutsion qatlam va 5 ta maksimal birlashtiruvchi qatlam.

Redmon va Farhodi, shuningdek, ierarxik tasnifdan foydalanadilar, bu esa tasvir yorliqlarini foydalanishga yaroqli qilish orqali tasniflash ma'lumotlar to'plamini va aniqlash ma'lumotlar to'plamini birlashtirish imkonini beradi. Ierarxik tasnif va birlashtirilgan ma'lumotlar to'plami 9000 dan ortiq ob'ektlar toifalarida real vaqt rejimida ob'ektni aniqlash imkonini beradi.

YOLO v3

2018 yilda Redmon va Farhodiy YOLO algoritmiga bir nechta yangilanishlarni taklif qilishdi. YOLO v3-da Darknet-53 deb nomlangan yangi xususiyatli ekstraktor tarmoq arxitekturasi mavjud bo'lib, u Darknet-ning ImageNet-da o'qitilgan 53 qatlamli variantidir. Vazifani aniqlash uchun unga 53 ta qo'shimcha qatlam biriktirilgan. U 106 ta to'liq konvolyutsion qatlamlarga ega. Ushbu og'ir arxitektura tufayli u YOLO-v2 dan tezroq emas, garchi u aniqroq bo'lsa ham (Redmon & Farhadi, 2018). Redmon va Farhodiyning ta'kidlashicha, Darknet-53 RestNet-101 dan yaxshiroq va 1,5 baravar tezroq, ResNet-152 ga o'xshash ko'rsatkichga ega, lekin 2 barobar tezroq.

Yangi arxitekturasi bilan Darknet53 bilan YOLO v3 SSD-dan yaxshiroq va AP50-dagi eng zamonaviy RetinaNet-ga yaqin, garchi 3 baravar tezroq.

Samaradorlik sabablariga ko'ra, Redmon va Farhodi SoftMax-dan foydalanish o'rniga mustaqil logistik klassifikatorlarda ishlatiladigan sinf bashoratini yangilaydi. Ushbu yondashuv bilan ular ko'p yorliqli tasnifdan foydalanishlari va bir-biriga o'xshash teglar muammosini hal qilishlari mumkin (masalan, "ayol" va "odam"). Shuningdek, ular o'z qog'ozlarida o'lchovlar bo'yicha bashoratlarni taklif qilishadi. YOLO v3 3 xil miqyosda chegaralovchi quti bashoratlarini yaratadi. Shunday qilib, har bir shkala uchun COCO ma'lumotlar to'plami uchun tensor S x S x [3 * (4+1 + 80)] (Redmon & Farhadi, 2018). 14-rasmda ko'rsatilganidek, ko'p masshtabli bashorat turli masshtabdagi ob'ektlarni aniqlashga yordam beradi. Ular har bir masshtab uchun langar qutilarini topish uchun COCO ma'lumotlar to'plamida k-vositalari klasterlashdan foydalanadilar, ular quyidagi 9 ta ankraj qutilari (har bir shkala uchun 3): (10 × 13), (16 × 30), (33 × 23) , (30×61), (62×45), (59× 119), (116 × 90), (156 × 198) va (373 × 326) (Redmon & Farhodi, 2018).

Darvoqe, YOLO v3 ni ishlab chiqqandan so‘ng, Redmon 2020-yilda harbiy ilovalar va tegishli maxfiylik muammolari tufayli kompyuterni ko‘rish bo‘yicha tadqiqotlarni to‘xtatishga qaror qildi.

YOLO v4

Bochkovskiy va boshqalar. YOLO algoritmini tadqiq qilishni davom ettirdi va 2020-yilda YOLO v4 ni taklif qildi. Ularning YOLO v4 ga qoʻshgan hissasi, birinchi navbatda, obʼyektlarni aniqlashning samarali va kuchli modelini ishlab chiqish, bepul qoʻshimchalar va maxsus qoʻshimchalar usullarini tekshirish va joriy holatni oʻzgartirishdan iborat. -hamma kirishi mumkin bo'lgan yagona GPUda ishlaydigan badiiy usullar. Ular quyidagi usullarni birlashtirgan holda MS COCO ma'lumotlar to'plami uchun 43,5% AP (65,7% AP50) bilan 65 FPS real vaqt tezligida ajoyib natijalarga erishdilar (Bochkovskiy, va boshq., 2020): Og'irlangan qoldiq ulanishlar ( WRC), O'zaro bosqichli qisman ulanishlar (CSP), o'zaro mini-to'plamni normallashtirish (CmBN), o'z-o'zidan raqobatli trening (SAT), Mish faollashtirish, mozaika ma'lumotlarini ko'paytirish va tushirish bloklarini tartibga solish.

Ularning konvolyutsion neyron tarmoqlari oflayn rejimda o'qitilgan, tadqiqotchilar modellarni ishlab chiqishgan va xulosa chiqarish narxiga ta'sir qilmasdan, xulosa chiqarish vaqtida modelning aniqligini yaxshilashga yordam beradigan usullardan foydalanganlar. Shuning uchun bu yondashuvbepul qopdeb ataladi.

Ma'lumotlarni ko'paytirish mustahkamlikni oshirish uchun kiritilgan tasvirlarning o'zgaruvchanligi modelini o'rgatishda yordam beradi. Bu yondashuv asosan fotometrik buzilishlarga (masalan, tasvirning yorqinligi, kontrasti, rangi, toʻyinganligi va shovqinini oʻzgartirish) va geometrik buzilishlarga (aylantirish, aylantirish, kesish va tasodifiy masshtablash kabi) tayanadi; bu bepul yukxalta toifasidagi usullardan biridir (Bochkovskiy, va boshq., 2020). Ba'zi tadqiqotchilar piksellar sonini oshirishga qo'shimcha ravishda, bir vaqtning o'zida bir nechta tasvirlarni turli nisbatlarda ko'paytirish va joylashtirish uchun ikkita rasmdan foydalanadigan MixUp yoki tasvirlarning ba'zi qismlarini boshqa tasvirlar bilan qoplaydigan CutMix va 4 xil tasvirni birlashtirgan Mosaic-ni qo'llash orqali bir vaqtning o'zida bir nechta tasvirni qayta ishlashni taklif qilishadi. o'quv tasvirlari. Yuqorida aytib o'tilganidek, RetinaNet bilan bog'liq holda, muvozanatsiz/noxolis ma'lumotlar to'plami past samaradorlikdagi modellarga olib keladi; shuning uchun ular past aniqlikka ega. Boshqa tomondan, belgilangan ma'lumotlar noto'g'ri bo'lishi mumkin. Agar ma'lumotlar to'plami kichik bo'lsa, qo'lda tekshirish variant bo'lishi mumkin; lekin kattaroq ma'lumotlar to'plamlari uchun Label Smoothing - bu ma'lumotlar to'plamidagi noto'g'ri belgilangan namunalardan o'rganishni yaxshilashning matematik usuli (Szegedy va boshq., 2015). Garchi o'rtacha kvadrat xato birinchi navbatda regressiya muammolari uchun yo'qotish funktsiyasi sifatida foydalanilsa-da, Bochkovskiy va boshqalar. shuningdek, mustaqil o'zgaruvchilar sifatida ipni chegaralovchi quti koordinatalari ob'ektning yaxlitligini o'tkazib yuborishini bildiring (Bochkovskiy, va boshq., 2020).

Bochkovskiy va boshqalar. shuningdek, xulosa chiqarish xarajatlarini sezilarli darajada oshiradigan, lekin ob'ektni aniqlashning aniqligini sezilarli darajada yaxshilaydigan maxsus mahsulotlarni taklif qiling.

Kengaytiruvchi qabul qiluvchi maydonlarSSP(Spatial Pyramid Pooling), He va boshqalar tomonidan taklif qilingan. Chen tomonidan taklif qilingan tasvirlarning qattiq uzunlikdagi tasvirlarini (He, va boshq., 2015), shuningdekASPP(Atrous Spatial Pyramid Pooling) yaratish orqali sobit oʻlchamli tarmoq kiritish cheklanishini bartaraf etish. va boshqalar. (Chen, va boshq., 2017) parametrlar sonini yoki hisoblash miqdorini sezilarli darajada oshirmasdan kattaroq kontekstni birlashtirish uchun filtrlarning ko'rish maydonini samarali kengaytirishga yordam berish uchun - vaRFB(Reseptiv maydon bloki) , Liu va boshqalar tomonidan taklif qilingan. va insonning vizual tizimlaridan ilhomlangan. RFB xususiyatlarning kamsitilishi va mustahkamligini oshirish uchun retseptiv maydonlarning o'lchami va ekssentrikligi o'rtasidagi munosabatni ko'rib chiqadi (Liu, va boshq., 2018).

Diqqat modullari - birinchi navbatda kanal bo'yicha e'tibor moduli va pikselli diqqat moduli - ob'ektni aniqlashda ham qo'llaniladi. Squeeze-and-Excitationkanalli e'tiborning vakili, Xu va boshqalar tomonidan taklif qilingan. har bir qatlamdagi mahalliy qabul qiluvchi maydonlar ichida fazoviy va kanalga oid ma'lumotlarni olib kirish orqali modellar/tarmoqlar axborot xususiyatlarini yaratishga imkon berish (Hu, va boshq., 2019). Bochkovskiy va boshqalar kabi. Hisobotga ko'ra, SE moduli GPU uchun qimmat (+10% xarajat), lekin u CPU/mobil qurilmalar uchun ishlatilishi mumkin (+2% narx) (Bochkovskiy, va boshq., 2020). SAM(Spatial Attention Module) pikselli diqqatning vakili bo'lib, Woo va boshqalar tomonidan taklif qilingan. Konvolyutsion blokli diqqat moduli uchun qurilish bloki sifatida (Woo, va boshq., 2018). SAM ob'ektni belgilaydigan muhim xususiyatlarni yaxshilaydigan va xususiyat xaritalarini aniqlaydigan niqobni yaratadi.

Oʻtkazib yuborilgan ulanishlar va FPN kabi xususiyatlar integratsiyasi past darajadagi xususiyatlarni yuqori darajali xususiyatlar bilan birlashtirishga yordam beradi. Faollashtirish funktsiyalari chiziqli bo'lmaganlikni ta'minlaydi va faollashtirishni tanlashdan maqsad gradientni samarali ravishda orqaga tarqalishiga sabab bo'lishdir. Qayta ishlashdan keyingi yana bir jarayon - bu NMS (Maks bo'lmagan bostirish), bu past ballga ega bo'lgan qutilarni chegaralashni bartaraf etish jarayonidir.

Shunday qilib, YOLO v4 arxitekturasi quyidagicha: magistral - CSPDarknet53, bo'yin - SPP va PAN, bosh esa YOLOv3 bilan bir xil. Magistral tizim uchun bepul yondashuvlar: CutMix, Mosaic Data Augmentation, DropBlock tartibga solish va Label Smoothing. Magistral tizim uchun maxsus texnikalar Mish faollashtirish, o'zaro bosqichli qisman ulanishlar (CSP) va ko'p kirishli vaznli qoldiq ulanishlar (MiWRC). Detektor uchun bepul qo'shimcha texnikalar quyidagilardir: CIoU-yo'qotish, CmBN, DropBlock tartibga solish, Mozaik ma'lumotlarini ko'paytirish, O'z-o'zini raqibga o'rgatish, tarmoq sezgirligini yo'q qilish, bitta yer haqiqati uchun bir nechta langarlardan foydalanish, kosinus-tavlanadigan rejalashtirish moslamasining optimal giperparametrlari va tasodifiy ta'lim shakllari. Detektor uchun maxsus qop texnikasi Mish faollashtirish, SPP-blok, SAM-blok, PAN yo'lini yig'ish bloki va DIoU-NMS (Bochkovskiy va boshq., 2020).

Github.com saytida boʻlib oʻtgan munozarada Bochkovskiy SPP (+3%), CSP+PAN (+2%), SAM (+0,3%) kabi bepul yukxalta va maxsus texnikalarning mAP hissasini aniqladi. , CIoU+S (+1,5%), Mozaika va giperparametrlarni sozlash (+2%), Scaled Anchors (+1%), jami taxminan +10% (Bochkovskiy, 2020). Shunday qilib, jami yaxshilanishning 5% arxitekturadan, yana 5% bepul sumkalardan iborat (Bochkovskiy, 2020).

YOLO v5

YOLO v4 YOLO v3 ga nisbatan katta sakrashni tashkil etdi. Bir necha oy o'tgach, 2020 yil 9 iyunda Glenn Jocher - Bochkovskiy va boshqalar tomonidan Mosaic ma'lumotlarini ko'paytirish bo'yicha YOLO v4 hujjatida eslatib o'tilgan va YOLOv3 arxitekturasiga katta hissa qo'shgan (2000 dan ortiq topshiriq va 33 dan mAP olib kelgan) 45.6.) - rasmiy qog'ozsiz YOLO v5 chiqarildi. U shunchaki Github.com saytida YOLO v5 ni ochiq manbali yaratdi (Jocher, 2020).

YOLOv5 Darknet-ga asoslangan emas, lekin butunlay PyTorch-da amalga oshiriladi. MS COCO ma'lumotlar to'plamida YOLO v4 uchun ko'rsatilgan mAP natijalariga ko'ra, YOLO v5 mAP qiymatlari deyarli yuqori. Eng katta model YOLO v5x biroz yuqoriroq mAP qiymatiga ega (Kin-Yiu, 2020).

Jocher shuningdek, Github.com Repo/Issues saytida mashg‘ulot natijalarini muhokama qilib, “bizning eng kichik YOLOv5 COCO’da atigi 3 kun ichida bitta 2080Ti’da ishlaydi va 32 TPUv3 yadrolarida o‘qitilgan EfficientDet D0’dan ko‘ra tezroq va aniqroq xulosa chiqaradi”, dedi. Google Brain jamoasi. Kengaytirilgan holda, biz YOLOv5 oilasining qolgan a'zolari bilan D1, D2 va boshqalardan oshib ketishni maqsad qilganmiz (Jocher, 2020)

Keyingi maqolada men turli xil apparat platformalarida o'qitish va xulosa chiqarishni ko'rib chiqaman.

Yangiliklarni kuzatib boring, xabardor bo'lib boring; Biz bilan qoling!

Ma'lumotnomalar

Ahmad, R., 2020. YOLO haqida hamma narsa — 4-qism — YOLOv3, bosqichma-bosqich takomillashtirish. [Onlayn]
Bu yerda: “https://medium.com/analytics-vidhya/all-about-yolos-part4-yolov3-an-incremental-improvement-36b1eee463a2”

Bochkovskiy, A., 2020. Github.com , YOLOv5 Qayta ishlab chiqarilgan natijalar haqida Muhokama. [Onlayn]
Bu yerda mavjud: “https://github.com/ultralytics/yolov5/issues/6#issuecomment-643644347”

Bochkovskiy, A., Vang, C.-Y. & Liao, H.-Y. M., 2020. YOLOv4: Ob'ektni aniqlashning optimal tezligi va aniqligi. arXiv,Jild arXiv: 2004.10934v1.

Chen, L.-C., Papandreu, G., Murphy, K. & Yuille, A. L., 2017. DeepLab: Chuqur konvolyutsiya tarmoqlari, atrous konvolyutsiyasi va to'liq bog'langan CRFlar bilan semantik tasvir segmentatsiyasi. arXiv,Jild arXiv:1606.00915v2.

Girshick, R., 2015. Tez R-CNN. arXiv,1504.08083v2-sonli nashr.

Girshick, R., Donahue, J., Darrell, T. & Malik, J., 2013. To'g'ri ob'ektni aniqlash va semantik segmentatsiya uchun boy xususiyatlar ierarxiyasi. [Onlayn]
Bu yerda: https://arxiv.org/pdf/1311.2524.pdf

Grel, T., 2017.Qiziqishlarni birlashtirish hududi tushuntirildi. [Onlayn]
Bu yerda: https://deepsense.ai/region-of-interest-pooling-explained/

U, K., Gkioxari, G., Dollar, P. & Girshick, R., 2017. Mask R-CNN. arXiv,Jild arXiv:1703.06870v3.

U, K., Zhang, X., Ren, S. & Sun, J., 2015. Vizual tanib olish uchun chuqur konvolyutsion tarmoqlarda fazoviy piramidani birlashtirish.

Xu, J. va boshq., 2019. Siqish va qo'zg'atuvchi tarmoqlar. arXiv,Jild arXiv:1709.01507v4.

Jocher, G., 2020. Github.com, Muammolar. [Onlayn]
Bu yerda mavjud: “https://github.com/ultralytics/yolov5/issues/2#issuecomment-642425558”

Jocher, G., 2020. YOLOv5. [Onlayn]
Bu yerda mavjud: https://github.com/ultralytics/yolov5

Kin-Yiu, V., 2020. Github.com. [Onlayn]
Bu yerda mavjud: “https://github.com/ultralytics/yolov5/issues/6#issuecomment-647069454”

Lin, T.-Y. va boshqalar, 2018. Zich ob'ektni aniqlash uchun fokusli yo'qotish. arXiv,Jild arXiv:1708.02002v2.

Liu, S., Huang, D. & Vang, Y., 2018. Ob'ektni aniq va tez aniqlash uchun qabul qiluvchi maydon bloki tarmog'i. arXiv,Jild arXiv:1711.07767v3 .

Liu, W. va boshqalar, 2016. SSD: Single Shot MultiBox Detector.

Redmon, J., Divvala, S., Girshick, R. & Farhadi, A., 2015. Siz faqat bir marta qaraysiz: birlashtirilgan, real vaqtda obyektni aniqlash. arXiv,ArXiv nashri:1506.02640v5.

Redmon, J., Divvala, S., Girshick, R. & Farhadi, A., 2016. Siz faqat bir marta qaraysiz: birlashtirilgan, real vaqtda obyektni aniqlash.

Redmon, J. & Farhodi, A., 2016. YOLO9000: Yaxshiroq, tezroq, kuchliroq. arXiv,ArXiv nashri:1612.08242v1.

Redmon, J. & Farhodi, A., 2018. YOLOv3: Incremental Improvement. arXiv,Jild arXiv:1804.02767v1.

Ren, S., U, K., Girshick, R. & Sun, J., 2015. Tezroq R-CNN: Mintaqaviy taklif tarmoqlari bilan real vaqtda ob'ektni aniqlashga. arXiv,Jild 1506.01497v3.

Szegedy, C., Vanhoucke, V., Ioffe, S. & Shlens, J., 2015. Kompyuterni ko'rish uchun boshlang'ich arxitekturasini qayta ko'rib chiqish. arXiv,Jild arXiv:1512.00567v3 .

Twitter, 2020. Twitter. [Onlayn]
Bu yerda mavjud: https://twitter.com/pjreddie/status/1230524770350817280?s=20

Vu, S., Park, J., Li, J.-Y. & Kweon, I. S., 2018. CBAM: Konvolyutsion blokli diqqat moduli. arXiv,Jild arXiv:1807.06521v2.

Zhao, Z.-Q., Zheng, P., Xu, S.-t. & Vu, X., 2019. Chuqur o'rganish bilan ob'ektni aniqlash: ko'rib chiqish. arXiv,Jild arXiv:1807.05511v2.