Chuqur super rezolyutsiyaga kirish

Salom, men Xiroto Xonda, DeNA Co., Ltd, Yaponiyaning ilmiy-tadqiqot muhandisiman. Ushbu maqolada men bitta tasvirli super rezolyutsiya (SISR) bo'yicha so'nggi yutuqlar bilan tanishtirmoqchiman.

SISR bitta past aniqlikdagi tasvirdan boy tafsilotlarga ega yuqori aniqlikdagi tasvirni tiklashga qaratilgan. So'nggi yillarda konvolyutsion neyron tarmoqlari (CNN) rivojlanishi tufayli SISR yanada kuchli va aniq bo'lib bormoqda. Men SISRni o'qitishni qanday boshlashingiz mumkinligini, SISR tarmoq arxitekturasining SRCNN dan EDSR ga o'tishini va usullar o'rtasidagi aniqlik va ish vaqtini taqqoslashni ko'rsatmoqchiman.

SISR ni sinash oson

SISR tarmog'ini o'rgatish uchun, avvalo, yuqori aniqlikdagi (HR) va past aniqlikdagi (LR) tasvir juftliklarini o'z ichiga olgan ma'lumotlar to'plamini tayyorlashingiz kerak. Qimmatbaho qo'lda izohlar kerak emas - siz shunchaki HR tasvirlarini to'plashingiz va LR tasvirlarini olish uchun ularga quyi namuna filtrini qo'llashingiz kerak. CNN HR tasvirlarining yo'qolgan ma'lumotlarini tiklash uchun pastga tushirish filtrining teskari funktsiyasini o'rganishga harakat qiladi.

Chuqur SISR tarmog'ini o'qitishni qanday boshlashingiz mumkin (1-rasmga qarang).

HR tasvirlarini yig'ing.
HR tasvirlaridan kesish yamoqlari. (masalan, 96 × 96)
Kirish tasvirlarini yaratish uchun ularni pastga tushiring LR = g(HR).
Ularni {LR}, {HR} to'plamiga qo'ying.
Tarmoqni f pikselli yoʻqotish funksiyasi bilan oʻrgating: masalan. MSE({HR}, f({LR})).
…bo'ldi shu!

Baholash uchun tepalik signalining shovqin nisbati (PSNR, desibelda) va Strukturaviy o'xshashlik indeksi (SSIM) qo'llaniladi. Ushbu maqolada biz usullarni taqqoslash uchun PSNR dan foydalanamiz.

SRCNN, VDSR va ESPCN

SRCNN deb nomlangan birinchi CNN-ga asoslangan SISR usuli Dong va boshqalar tomonidan kiritilgan. ECCV 2015 da [1]. SRCNN faqat uchta konvolyutsiya qatlamidan iborat, ammo oldingi chuqur bo'lmagan yondashuvlardan ustundir. Juda Deep Super Resolution (VDSR) [2] SRCNN kabi tuzilmani qo'llaydi, lekin yuqori aniqlikka erishish uchun chuqurroq boradi. SRCNN va VDSR ikkalasi ham kirish bosqichida ikki kubik namuna olishni qo'llaydi va chiqish bilan bir xil miqyosdagi xususiyat xaritalari bilan shug'ullanadi.

Shi va boshqalar. SRCNN ni yanada samarali qilish uchun Efficient Sub-Pixel Convolutional Neural Network (ESPCN) ni taklif qildi [3]. ESPCN LR rezolyutsiyasida xususiyat xaritalari bilan shug'ullanadi va keyinchalik namuna olish amalga oshiriladi, bu esa hisoblashning umumiy miqdorini SRCNNga qaraganda ancha kichik qiladi.

Yuqori namuna olish uchun sub-piksel konvolyutsiyasidan (konvolyutsiya va “piksel aralashtirish” operatsiyasining kombinatsiyasi) foydalaniladi. Piksel aralashuvi H × W × C · r² tensorining elementlarini rH × rW × C tensorini hosil qilish uchun qayta tartibga soladi (3-rasm). Operatsiya qo'lda ishlangan bikub filtrini hisob-kitoblarni biroz oshirish bilan quvur liniyasidan olib tashlaydi.

SRResNet

Ledig va boshqalar, CVPR 2017 [4] da SRGAN deb nomlangan kuchliroq bazani taqdim etdi. Tarmoq asosan ResNet arxitekturasiga asoslangan va qayta blokirovkalar seriyasini joriy qiladi (3-rasm). Kirishni 1/32 shkalagacha pasaytiradigan ResNet-dan farqli o'laroq, SRGANning qayta bloklari bitta shkalada ishlaydi (kirish LR shkalasi). Bloklar LR kirish xususiyatlarini asta-sekin "o'zgartiradi", chunki ular namuna olishga tayyorlanish uchun chuqurroq tarqaladi. Yuqori namuna olish uchun shaxmat taxtasi artefaktlarini oldini olish uchun piksellarni aralashtirish operatori ishlatiladi [3].

Maqolada yo'qotish funktsiyalarining uchta turi taklif etiladi. 1) MSE yo'qotish 2) VGG (tarkibni) yo'qotish 3) raqib yo'qotish. Tarmoq faqat MSE yo'qotilishidan foydalanilganda "SRResNet" deb nomlanadi.

SRResNet ishlaydi:

64 ta kanalli 16 ta qoldiq bloklari
Global o'tkazib yuborilgan ulanish
piksel bo'yicha L2 yo'qolishi
Pixel Shuffle namunasi

Kengaytirilgan chuqur qoldiq tarmoqlari (EDSR)

2017 yilda B. Lim va boshqalar. EDSR [5] deb nomlangan yanada rivojlangan tarmoqni ishlab chiqdi va NTIRE 2017 Super-Resolution Challenge [6] gʻolibi boʻldi. Ular SRResNet-dan boshlandi va keyingi aniqlikka erishish uchun uni optimallashtirdi.

EDSR tarmog'ida quyidagilar qo'llaniladi:

256 ta kanalli 32 ta qoldiq bloklari
L2 o'rniga pikselli L1 yo'qolishi
diapazonning moslashuvchanligini saqlab qolish uchun ommaviy normalizatsiya qatlamlari yo'q (4-rasm)
ta'limni barqarorlashtirish uchun qoldiq qo'shilish uchun 0,1 miqyosi koeffitsienti

5-rasmda PSNR va SISR usullari o'rtasidagi ko'rinishlarni taqqoslash ko'rsatilgan. Tashqi ko'rinishlar 22,66 dB (Bikubik) dan 23,89 dB (EDSR) ga qanday o'zgarishini ko'ring. 1dB farq juda muhim!

SISR bo'yicha taraqqiyot - aniqlik va ish vaqti

Keling, SISR usullarining rivojlanishini sarhisob qilaylik. 6-rasmda PSNR yutuq qiymatlarining ([5] dan) Set5 ma'lumotlar to'plamida baholangan ikki kubik yuqori namuna olish bilan solishtirish ko'rsatilgan. SRCNN bilan solishtirganda, SRResNet va EDSR mos ravishda 1,57 dB va 2,14 dB yuqori PSNR ga erishadi. Shu bilan birga, tarmoq chuqurroq va kengayib borishi bilan (ko'proq kanallar), hisoblash qimmatroq bo'ladi. 5-rasmda ko'rsatilgan chiziqlar x2 qayta tiklash uchun bitta kirish pikseliga mega-ko'paytirish sonini bildiradi. EDSR SRResNet-ga qaraganda 30 baravar ko'proq ko'paytirishni talab qiladi, bu asosan qayta bloklangan kanallarning ko'pligi (4 marta) tufayli.

Biz ishlash va tezlik o'rtasidagi o'zaro kelishuvni ko'ramiz. ESPCN eng samarali ko'rinadi, EDSR esa eng aniq, ammo qimmat. Qaysi usulni tanlash sizning ilovangizga bog'liq.

Ma'lumotnomalar

[1] C. Dong, C. C. Loy, K. Xe va X. Tang. Tasvirning o'ta aniqligi uchun chuqur konvolyutsion tarmoqni o'rganish. ECCVda, 2014 yil.

[2] J. Kim, J. K. Li va K. M. Li. Juda chuqur konvolyutsion tarmoqlardan foydalangan holda tasvirning yuqori aniqligi. CVPRda, 2016 yil.

[3] V. Shi, J. Kabalero, F. Huszar, J. Tots, A. P. Aitken, R. Bishop, D. Ryukert va Z. Vang. Samarali sub-pikselli konvolyutsion neyron tarmog'idan foydalangan holda real vaqtda bitta tasvir va videoning o'ta aniqligi. CVPRda, 2016 yil.

[4] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Aitken, A. Te-´jani, J. Totz, Z. Vang va V. Shi. Jenerativ raqib tarmog'idan foydalangan holda fotorealistik yagona tasvirning o'ta aniqligi. CVPRda, 2017 yil.

[5] B. Lim, S. Son, H. Kim, S. Nah va K. M. Li. Bitta tasvirning o'ta aniqligi uchun kengaytirilgan chuqur qoldiq tarmoqlari. In CVPRW, 2017.
mash'alni amalga oshirish: https://github.com/LimBee/NTIRE2017
pytorchni amalga oshirish: https://github.com/thstkdgus35/EDSR-PyTorch

[6] R. Timofte, E. Agustsson, L. Van Gool, M.-H. Yang, L. Zhang va boshqalar. Ntire 2017 yagona tasvirning o'ta aniqligi bo'yicha tanlov: usullar va natijalar. CVPR 2017 seminarlarida.