So'nggi yillarda chuqur o'rganish sohasi misli ko'rilmagan yutuqlarga guvoh bo'ldi, bu inson miyasining murakkab ishlariga taqlid qilish istagi bilan bog'liq. Asosiysi, chuqur o'rganish miyaning turli manbalardan olingan ma'lumotlarni qayta ishlash va mazmunli tushunchalarni olish qobiliyatini takrorlashga intiladi. Ushbu chuqur ilhom nafaqat murakkab vazifalarni bajarishga imkon beradigan, balki ma'lumotlarni taqdim etishning chuqurroq qatlamlarini ham ochib beradigan yangi arxitekturalarning rivojlanishiga olib keldi. Natijada,arxitekturabiz uchunmuhim ahamiyatga eganafaqat ko'p qiyinchiliklar ular bilan bajarishimiz mumkin bo'lgan vazifalarga tayanadi. Darhaqiqat, tarmoqlar dizayni bizni tadqiqotchilar ma'lumotlardanyaxshiroq o'rganish uchunizlagangavakillikga ishora qiladi. .

LeNet

Kashshof ish

Boshlashdan oldin, shuni ta'kidlaymizki, agar biz tasvirning har bir pikseliga ulangan ko'p qatlamli ko'p qatlamli perseptrondan foydalansak, muvaffaqiyatga erishmagan bo'lardik. Tezda chidab bo'lmas holga kelishi bilan birga, bu to'g'ridan-to'g'ri operatsiya unchalik samarali emas, chunki piksellar fazoviy bog'liqdir.

Shuning uchun, biz avvalchiqarishimiz kerak

  1. ma'noli va
  2. Biz ustida ishlashimiz mumkin bo'lgan past o'lchamli xususiyatlar.

Va bu erdakonvolyutsion neyron tarmoqlario'yinga kiradi!

Ushbu muammoni hal qilish uchun Yann Le Kunning g'oyasi bir necha bosqichda davom etadi.

Ko'rinib turibdiki, tarmoq arxitekturasida xususiyatlarning o'lchamlari asta-sekin kamayadi. Oxir-oqibat, bu nozik yuqori darajadagi xususiyatlar tekislanadi va to'liq bog'langan qatlamlarga yo'naltiriladi. Bu qatlamlar, o'z navbatida, softmax qatlami orqali turli sinflar uchun ehtimollik hosil qiladi.

Ta'lim bosqichida tarmoq ma'lum bir namunani ma'lum bir toifaga tasniflaydigan farqlovchi xususiyatlarni farqlash qobiliyatiga ega bo'ladi. Ushbu o'quv jarayoni orqaga tarqalish orqali osonlashtiriladi, bu erda tarmoq o'zining ichki parametrlarini bashorat qilingan va haqiqiy natijalar o'rtasidagi nomutanosiblik asosida moslashtiradi.

Ushbu kontseptsiyani tasvirlash uchun ot tasvirlangan tasvirni ko'rib chiqing. Dastlab, tarmoq filtrlari hayvonning umumiy konturiga e'tibor qaratishi mumkin. Tarmoq chuqurroq o'rganilsa, u yuqori darajadagi abstraksiyaga o'tadi, bu esa otning ko'zlari va quloqlari kabi nozik tafsilotlarni qamrab olish imkonini beradi.

Aslida, konvolyutsion neyron tarmoqlari (ConvNets) bunday arxitektura yo'qligida qo'lda ishlov berishni talab qiladigan xususiyatlarni yaratish mexanizmi bo'lib xizmat qiladi. Bu ConvNets-ning xususiyatlarni olish jarayonini avtomatlashtirishdagi salohiyatini ta'kidlaydi va shu bilan chuqur o'rganish landshaftini inqilob qiladi.

AlexNet

Konvolyutsiyaning shon-sharafga ko'tarilishi

Tabiiyki, nima uchun Konvolyutsion neyron tarmoqlari (ConvNets) 1998 yilgacha keng tarqalgan mashhurlikka erisha olmaganligi haqida savol tug'ilishi mumkin.

Bu yerda AlexNetbir xil yuqoridan-pastga yondashuvni qo'llaydibu yerda ketma-ket filtrlar ko'proq va nozik xususiyatlarni olish uchun mo'ljallangan. Ammo bu erda uning ishi bir nechta muhim tafsilotlarni o'rganib chiqdi.

  1. Birinchidan, Krizhevskiy ReLU faollashuvi bilan tarmoqdayaxshiroq chiziqli bo'lmaganliknixususiyati 0 dan past bo'lsa, uning hosilasi 0 ga, ijobiy qiymatlar uchun esa 1 ga teng bo'ladi. Bu gradient tarqalishi uchun samarali ekanligini isbotladi.
  2. Ikkinchidan, uning maqolasitarkibni tartibga solishkontseptsiyasini kiritdi. Vakillik nuqtai nazaridan, siz tarmoqni tasodifiy narsalarni unutishga majbur qilasiz, shunda u keyingi kirish ma'lumotlaringizni yaxshiroq nuqtai nazardan ko'rishi mumkin.

Bir misol keltirsam, ushbu postni o‘qib bo‘lganingizdan so‘ng, uning qismlarini unutib qo‘ygan bo‘lishingiz mumkin. Va shunga qaramay, bu yaxshi, chunki siz faqat asosiy narsani yodda tutgan bo'lasiz.

Xo'sh, umid qilamanki. Xuddi shu narsa neyron tarmoqlar uchun ham sodir bo'ladi vamodelnibatafsilroqbo'lishiga olib keladi.

3. Shuningdek, uma'lumotlarni ko'paytirishni joriy qildi. Tarmoqqa uzatilganda tasvirlar tasodifiy tarjima, aylantirish, kesish bilan ko'rsatiladi. Shunday qilib, u tarmoqni tasvirlarning o'zidan ko'ra, tasvirlarning atributlaridan ko'proq xabardor bo'lishga majbur qiladi.

Nihoyat, AlexNet tomonidan qo'llaniladigan yana bir hiyla - chuqurroq. Bu erda operatsiyalarni birlashtirishdan oldin ular ko'proq konvolyutsion qatlamlarni yig'ishganini ko'rishingiz mumkin. Taqdimot natijada tasniflash uchun foydali bo'lgan yaxshiroq xususiyatlarni qamrab oladi.

Ushbu tarmoq 2012-yilda eng so'nggi bo'lganidan sezilarli darajada oshib ketdi, ImageNet ma'lumotlar to'plamida 15,4% top-5 xato.

VGGNet

Chuqurroq yaxshiroq

Tasvirni tasniflashning navbatdagi muhim bosqichi men aytib o'tgan oxirgi nuqtani yanada chuqurroq o'rganib chiqdi:chuqurroq borish.

Va u ishlaydi. Bu shuni ko'rsatadiki, bunday tarmoqlar ko'proq qatlamlar bilan vizual ma'lumotlarning yaxshiroq ierarxik ko'rinishiga erishishi mumkin.

Ko'rib turganingizdek, ushbu tarmoqda yana bir narsa juda o'ziga xosdir. U deyarli faqat3 dan 3 ta konvolyutsiyani o'z ichiga oladi. Bu qiziq, shunday emasmi?

Aslida, mualliflar buni uchta asosiy sababga ko'ra qilishgan:

  1. Birinchidan, kichik filtrlardan foydalanish ko'proq chiziqli bo'lmaganlikni keltirib chiqaradi, bu tarmoq uchunko'proq erkinlik darajasini bildiradi.
  2. Ikkinchidan, ushbu qatlamlarni bir-biriga joylashtirish fakti tarmoqqa ko'rinishidan ko'ra ko'proq narsalarni ko'rish imkonini beradi. Masalan, ulardan ikkitasi bilan tarmoq aslida 5x5 qabul qiluvchi maydonni ko'radi. Va siz ushbu filtrlardan 3 tasini to'plaganingizda, aslida siz 7x7 qabul qiluvchi maydonga ega bo'lasiz! Shu sababli, oldingi misollardagi kabi xususiyatlarni ajratib olish imkoniyatlariga ushbu arxitekturada ham erishish mumkin.
  3. Uchinchidan, faqat kichik filtrlardan foydalanish hamparametrlar sonini cheklaydibu siz chuqurroq borishni xohlasangiz yaxshi bo'ladi.

Miqdoriy jihatdan aytganda, bu arxitektura ImageNet-da 7,3% top-5 xatolikka erishdi.

GoogLeNet

Boshlanish vaqti

Keyinchalik, o'yinga GoogLeNet keldi. U muvaffaqiyatini boshlang'ich modullariga asoslaydi.

Ko'rib turganingizdek, turli xil filtr o'lchamli konvolyutsiyalar bir xil kirishda qayta ishlanadi va keyin birlashtiriladi.

Vakillik nuqtai nazaridan, bu modelgahar bir qadamda ko'p darajali xususiyatlarni chiqarishdan foydalanish imkonini beradi. Misol uchun, umumiy xususiyatlar 5x5 filtrlar tomonidan bir vaqtning o'zida chiqarilishi mumkin, bir vaqtning o'zida ko'proq mahalliy xususiyatlar 3x3 konvolyutsiyalar tomonidan qo'lga kiritiladi.

Ammo keyin, siz menga aytishingiz mumkin. Xo'sh, bu ajoyib. Ammo buni hisoblash juda qimmat emasmi?

Va men aytaman: juda yaxshi izoh! Aslida, Google jamoasi buning uchun ajoyib yechimga ega edi: 1x1 konvolyutsiyalar.

  1. Bir tomondan, u xususiyatlaringizning o‘lchamliliginipasaytiradi.
  2. Boshqa tomondan, u xususiyat xaritalarinivakillik nuqtai nazaridan foydalibo'lishi mumkin bo'lgan tarzda birlashtiradi.

Keyin so'rashingiz mumkin, nima uchun u boshlanish deb ataladi? Xo'sh, siz ushbu modullarning barchasini kattaroq tarmoq ichida bir-birining ustiga yig'ilgan tarmoqlar sifatida ko'rishingiz mumkin.

Ma’lumot uchun, eng yaxshi GoogLeNet ansambli ImageNet’da 6,7% xatolikka erishdi.

ResNet

Qatlamlarni ulang

Shunday qilib, biz ilgari gapirgan ushbu tarmoqlarning barchasi bir xil tendentsiyaga ergashdi: chuqurroq. Lekinbir nuqtadabiz tushunamizki,ko‘proq qatlamlarni stackingyaxshiroq ishlashga olib kelmasligi. Darhaqiqat, aynanteskarisi sodir bo'ladi. Lekin nima uchun bu?

Bir so'z bilan aytganda: gradient, xonimlar va janoblar.

Ammo tashvishlanmang, tadqiqotchilar bu ta'sirga qarshi nayrang topdilar. Bu erda ResNet tomonidan ishlab chiqilgan asosiy kontseptsiya qoldiq o'rganishdir.

Ko'rib turganingizdek, har ikki qatlamda elementlar bo'yicha qo'shimcha orqali identifikatsiya xaritasi mavjud. Bu gradient tarqalishi uchun juda foydali ekanligini isbotladi, chunki xato bir nechta yoʻllar orqali qaytarilishi mumkin.

Bundan tashqari, vakillik nuqtai nazaridan, bu tarmoqning har bir bosqichida boshlang'ich modullarda ko'rganimiz kabiturli darajadagi funksiyalarnibirlashtirishga yordam beradi.

Aynan shu kungacha ImageNet tarmog'idagi eng yaxshi ishlaydigan tarmoqlardan biri bo'lib, 3,6% top-5 xatolik darajasi.

DenseNet

Ko'proq ulaning!

Keyinchalik bu fikrni kengaytirish taklif qilindi. DenseNet bir-biriga ulangan qatlamlarning butun bloklarini taklif qiladi.

Bu ushbu bloklardagixususiyatlarniko'proqdiversifikasiyalashga hissa qo'shadi.

Xulosa

Umumjahon tendentsiyasi tobora chuqurroq tarmoq arxitekturasi sari doimiy rivojlanishdir. Ushbu traektoriya to'g'rilangan chiziqli birliklar (ReLU), ishdan bo'shatish va partiyani normallashtirish kabi hisoblash yaxshilanishlarini kiritish bilan to'ldirildi. Ushbu strategiyalar birgalikda ushbu tarmoqlarning umumiy samaradorligini oshirishda hal qiluvchi rol o'ynadi.

Shu bilan birga, tarmoq ierarxiyasining har bir bosqichida murakkab xususiyatlarni olish qobiliyatiga ega yangi modullar paydo bo'ldi. Ushbu yangilik nafaqat modellarning namoyish qilish imkoniyatlarini boyitibgina qolmay, balki yanada nozik tushunchalarga yo'l ochdi.

Qo'shimcha e'tiborga molik rivojlanish tarmoq ichidagi turli qatlamlar o'rtasidagi o'zaro bog'lanishlarga tobora ortib borayotgan e'tibordir. Bu bog'lanishlar ikki tomonlama rol o'ynaydi: birinchidan, ular turli xil xususiyatlarni yaratishga yordam beradi; ikkinchidan, ular tarmoq arxitekturasi orqali gradientlarning uzluksiz tarqalishida muhim rol o'ynaydi, bu samarali treningning hal qiluvchi omilidir.

Aslini olganda, chuqur o'rganishdagi global traektoriya me'moriy chuqurlik va hisoblashni takomillashtirishning egizak dvigatellari, ixtirochilik xususiyatlarini ajratib olish mexanizmlari va murakkab qatlam o'zaro bog'liqliklari bilan tavsiflanadi. Ushbu ko'p qirrali yondashuv sohada sezilarli yutuqlarga erishib, uni ishlash va tushunishning yangi cho'qqilariga olib chiqdi.

Oddiy ingliz tilida

Hamjamiyatimizning bir qismi bo'lganingiz uchun tashakkur! Ketishdan oldin: