Oksford universitetidagi Vizual geometriya guruhiEPSRC (Muhandislik va Fizika Tadqiqotlar Kengashi) mablag'laridan Sotera uchun Computer Vision prototipini yaratish uchun foydalandi. Prototip Soteraning kengroq faoliyati doirasidagi ma'lum bir foydalanish holatiga qaratilgan edi: ob'ektning fotosuratini oldingi rasmlardan tanib olish uchun foydalanishimiz mumkinmi?

Sotera's Heritage Toolkit odamlarga xavf ostida bo'lgan meros ob'ektlarini suratga olish imkonini beradi. Agar ular keyinroq topilsa yoki Internetda paydo bo'lsa, biz ularni yangi fotosuratdan taniy olamiz. Bu Computer Vision-dan juda boshqacha bo'lishi mumkin bo'lgan ob'ektning yangi fotosuratini ko'rganda eski fotosuratdan bilib olgan ob'ektni taniy olishini talab qiladi. Bu nafaqat yuqori aniqlikdagi, yaxshi yoritilgan tasvirlar bilan emas, balki yomon olingan fotosuratlar bilan ham ishlashi kerak.

Ushbu loyiha uchun biz muzeydagi 40 000 ga yaqin ob'ektlarni o'z ichiga olgan raqamli to'plam ma'lumotlar to'plamini baham ko'rgan "Durham universitetidagi Sharq muzeyi" bilan hamkorlik qildik. Bu papkalardagi fotosuratlardan va arxiv va kuratorlik maqsadlarida yaratilgan har bir ob'ektning tafsilotlarini ko'rsatadigan matn faylidan iborat edi. Oksford bizga ularni "toza ma'lumotlar" bilan ta'minlash vazifasini qo'ydi - bu Computer Vision loyihalari uchun katta muammolardan biri bo'lib chiqdi va bu Sotera jamoasini ma'lumotlar to'plami haqida ko'p narsalarni o'rganishiga olib keldi.

Ushbu postda biz o'rganganlarimizdan ba'zilarini baham ko'ramiz. Bu yirik ma'lumotlar to'plamlari bilan ishlaydigan boshqa tashkilotlar, xususan, o'z kolleksiyalarini raqamlashtiradigan boshqa meros tashkilotlari uchun foydali misol.

Sharq muzeyi 1960 yilda ochilgan. Ularning kolleksiyasi Qadimgi Misrdan tortib hozirgi Xitoygacha. Bu Shimoliy Afrika va Osiyoning buyuk madaniyatlari san'ati va arxeologiyasiga to'liq bag'ishlangan Shimoliy Angliyadagi yagona muzey. To'plam tarixdan oldingi davrgacha bo'lgan 40 000 ga yaqin ob'ektdan iborat. Biz olgan ma'lumotlar to'plami 26 418 ta ob'ekt uchun tasvirlardan iborat bo'lib, biz ularni Sotera kontseptsiyasi isbotiga eng mos keladigan 12 401 ob'ektdan iborat yakuniy ma'lumotlar to'plamiga tushirdik.

Muzeyda biz foydalanishimiz mumkin boʻlgan metamaʼlumotlar yozuvlari yoʻq edi, shuning uchun biz ularning onlayn tizimlaridan yangi metamaʼlumotlar yozuvini yaratdik, asosan “Discover» dan API (ommaviy emas), ob'ektlarni «Adlib dan chiqaradi (ularning muzey kolleksiyalarini boshqarish dasturi).

Ushbu loyiha uchun bizga kerak bo'lgan narsa har bir ob'ekt uchun izchil ma'lumotlar edi. Onlayn tizimlar bizga kerak bo'lganidan ko'proq narsani ta'minladi, shuning uchun kelajakdagi loyihalar uchun kerak bo'lsa, ma'lumotlarning katta qismini tizimda saqlashga qaror qildik. Odatda, har bir faylning kirish raqami mavjud edi, bu tegishli tasvirlar uchun bir xil fayl nomi edi. Buning ortidan ob'ekt nomi, yaratilish sanasi, tavsifi, o'lchamlari, materiali, ishlab chiqarish joyi, tasvirlangan odamlar, mavzu, tasvirlar (agar kerak bo'lsa) va eslatmalar. Ma'lumotlar to'plamlari o'nlab yillar davomida shakllantirilganda, ma'lumotlar ko'pincha izchil yoki bir xil tartibda kiritilmaydi. Biz buni tuzatish uchun kod yozdik, shuningdek, Machine Learningni chalkashtirib yuboradigan ma'lumotlarni, masalan, bepul shakldagi kurator eslatmalarini olib tashlash uchun.

Metamaʼlumotlarni tozalash — Ishlatilgan yechimlar

Obyekt raqamlari
Biz 26 418 ta obyektni aniqlagan Discover va IIIF (International Image Interoperability Format) sahifalarining HTML kodini qidirish orqali Sharq muzeyi buyumlari raqamlarini muzey buyumlari katalogidan chiqarib oldik. Biz element raqamlaridan elementning IIIF va Discover sahifalariga kirish uchun foydalandik, chunki ularning URL manzillarida element raqamlari mavjud edi. Biz yuqori aniqlikdagi tasvirlarni olish uchun IIIF sahifasidan foydalandik va keyinchalik Discover sahifasidan element ma'lumotlarini chiqardik. Ob'ektlarning barchasida izchil element raqamlari yoki Doimiy identifikatorlar(PID) bo'lishi kerak edi. Ko'pgina PIDlar metama'lumotlarning joriy manzili bilan bog'langan noyob identifikatorga ega. URL-manzillardan farqli o'laroq, PID-lar ob'ektning joylashuvini yangilash imkonini beradi, shunda identifikator uzluksiz to'g'ri joyga ishora qiladi.

Obyekt nomi
Obyekt nomlash qoidalari bir xil emas edi, shuning uchun biz buni maʼlumotlar toʻplami boʻylab oʻzgartirish uchun skript yozdik, elektron jadvalga muzeyning maʼlumotlar boʻlimi boshligʻi tomonidan ishlab chiqarilgan obyekt raqamlari/nomlari havola qildi. Ushbu konventsiya doirasida qo'shimcha nomuvofiqliklar saqlanib qoldi. Buni tuzatish uchun biz bir nechta skriptlarni ishga tushirdik, masalan. Shabtislar haykalchalar yoki Ushabtis deb ham atalgan va biz bir xil ob'ektlar uchun bitta nom tanlashimiz kerak edi.

Biz ma'lumotlarni olish paytida yuzaga kelgan formatlash muammolarini tozaladik, masalan, "uc" qo'shildi va qavs ichidagi ismning birinchi harfi o'chirildi. Biz shuningdek, tavsif va materiallar ustunlarida takrorlanganda qavs ichidagi moddiy ma'lumotlarni o'chirish uchun skriptni ishga tushirdik, masalan. 7-satr: “Inson haykalchasi (bronza) uc(i)sis va uc(h)orus haykalchasi” “isis va horus haykalchasi”ga aylantirildi.

Yaratilgan sana
Qadimgi Misrdagi ko'plab ob'ektlar faqat sulola davriga tegishli. Biz Standartlashtirilgan Tanishuv Konventsiyalarining Metropolitan San'at Xronologiyasi muzeyidan foydalanish uchun Qadimgi Misr sanalarini yangiladik va boshqa vaqt davrlari bilan izchil formatlash uchun sulola davri nomlariga qo'shimcha ravishda yillarni qo'shdik.

Ta'rif
Biz takroriy umumiy ob'yekt tipologiyasi tavsiflarini tozalash uchun skriptni ishga tushirishni muhokama qildik, biroq biz ko'proq ma'lumotni uzoq muddatli maqsadlar uchun afzal deb qaror qildik, shuning uchun biz bu ma'lumotni o'zida qoldirdik.

O'lchovlar
Biz ob'ekt miqyosini umumiy tushunish uchun oddiygina eng katta o'lchamdan foydalanish uchun sanab o'tilgan o'lchamlarni tozalashni muhokama qildik, biroq biz kelajakda kengaytirilgan Machine Learning parametrlari uchun ko'proq ma'lumot afzalroq deb qaror qildik. biz barcha o'lchov ma'lumotlarini saqlab qoldik, lekin uni hozirgi maqsadlarimizga muvofiqlashtirish uchun ishladik.

Materiallar
Biz afzal qilingan material taʼriflari va tipologiyalarini aniqladik, masalan. biz kulolchilik (arxeologik atama) sopol (muzey atamasi) va Ushabti ustidan Shabti atamasini ishlatganmiz. Biz materiallar ro'yxatini oxirgi sanab o'tilgan materiallargacha qisqartirish haqida bahslashdik, ammo kelajakda foydalanish uchun barcha tavsiflarni saqlab qolishga qaror qildik. masalan: "materiallar - noorganik material - tosh - cho'kindi jins - karbonat jinsi - ohaktosh", "ohaktosh" ga qisqartirilishi mumkin edi.

Ba'zi materiallar, masalan, ular ifodalovchi rang bilan chalkashib ketgan; granit, oltin, alebastr va firuza ham material, ham rangdir. Biz "ranglar" ga havolalarni o'chirish uchun skriptni ishga tushirdik: Masalan: "materiallar - rang - ranglar - xromatik ranglar - binafsha ranglar - o'zgaruvchan binafsha ranglar - granit" shunchaki "granit" ga o'zgartirildi.

Ishlab chiqarish joyi
Maʼlumotlarni kelgusida foydalanish uchun saqlab qolish maqsadida biz bitta identifikatorga qisqartirish oʻrniga, geografik mintaqadan maʼlum bir joyga oʻtadigan uzoq ishlab chiqarish joyi tavsiflarini saqlab qoldik. Masalan. "Osiyo - G'arbiy Osiyo - Iroq - Dhi Qar gubernatorligi - Nassriya tumani - Tall al Muqayyir."

Ishlab chiqarish davri
Biz tanishuv konventsiyalarini “Yaratilgan sana”ni muqobil “Ishlab chiqarish davri”ga moslashtirish uchun tozaladik, shuning uchun bizda har bir obyekt uchun faqat bitta sana bor edi, chunki baʼzi obyektlarda ikkala sana ham boʻlgan, bu esa chalkashtirib yuborishi mumkin. Mashinani o'rganish algoritmi.

Rasmlar
Obyekt yozuvlarining koʻpchiligi tasvirlar ustunida boʻsh joy bor edi, bu uning hech qanday suratga olinmaganligini koʻrsatishi mumkin. Biroq, biz Sharq muzeyi ma'lumotlar bo'limi boshlig'i tomonidan ishlab chiqarilgan elektron jadvallar bilan ob'ekt raqamini, rasm fayli yo'llarini va etishmayotgan tasvirlarni aniqlash uchun tasvir eskizlarini o'zaro tekshirdik va iloji bo'lsa, etishmayotgan tasvir fayli yo'llarini topishga yoki yaratishga muvaffaq bo'ldik.

Biz ushbu loyihaga tegishli boʻlmagan obʼyektlarni, jumladan qogʻoz va fotosuratlar kabi 2D obyektlarni chiqarib tashladik. Biz nomuvofiq materiallardan tayyorlangan yozuvlarni o'chirish uchun skriptni ishga tushirdik: "materiallar - tolali mahsulotlar - qog'oz"; "materiallar - tolali mahsulotlar - qog'oz - fotosurat qog'ozi".

Yakuniy tozalash qo'lda amalga oshirildi, chunki u skript yozishdan ko'ra samaraliroq ekanligi aniqlandi. Buning uchun biz qolgan 178 ta "Ob'ekt nomlarini" yaratdik.

Xulosa
Sharq muzeyi kolleksiyasi Shimoliy Afrikadan Janubi-Sharqiy Osiyogacha boʻlgan katta hududni qamrab olgan turli xil sovgʻa qilingan kolleksiyalarni namoyish qilish uchun yaratilgan. Muzeyning asosiy maqsadi akademik tadqiqotlar va sharq tillarini o'qitishdir. Shunday qilib, ko'plab nomlash konventsiyalari arxeologik standartlarga emas, balki til va meros standartlariga asoslanadi. An'anaviy akademik muzey kolleksiyalariga xos bo'lganidek, ma'lumotlar bazasiga kirish ko'p yillar davomida sodir bo'ladi va natijada ma'lumotlar bazasi ko'pincha turli kuratorlar va ma'lumotlarni kiritish konventsiyalari orqali rivojlangan ma'lumotlarning murakkab stratigrafiyasidir.

Sharq muzeyi kollektsiyasi uchun izchil metamaʼlumotlar rekordini yaratish boʻyicha sayohatimiz davomida biz obʼyekt tavsifi, kelib chiqishi va yaratilgan sanasi akademik va meros maqsadlari uchun eng ustuvor ahamiyatga ega ekanligini bilib oldik. ko'rgazma uchun ob'ekt belgilarini yaratish. Biroq, Machine Learning ma'lumotlar to'plami uchun mos keladigan ob'ekt identifikatori yoki Doimiy identifikator (PID), material va mos keladigan ob'ekt tasvirlari bilan o'lchamlar idealdir. Agar kiritilgan bo'lsa, bu tasvirlar yozuvlarga mos keladigan tasvir fayli yo'llari va eskizlari bo'lishi kerak.

To'plamdagi ob'ektlarning aksariyatida fotografik yozuvlar yo'q edi (deyarli 65%). Biz 24 000 ga yaqin ob'ektni yakuniy metama'lumotlardan chiqarib tashladik, chunki ularda bizning maqsadlarimiz uchun zarur bo'lgan mos tasvirlar yo'q edi.

Natija
Sharq muzeyi ma'lumotlar to'plamini muzey ma'lumotlar to'plamidan Machine Learning ma'lumotlar to'plamiga o'zgartirish bo'yicha olib borgan ishimiz kompyuterni ko'rish loyihasini amalga oshirishga imkon berdi, balki meros sektoridagi boshqalar uchun ham amaliy tadqiqotni taqdim etadi. ma'lumotlar to'plamini va raqamli gumanitar loyihalarni ishlab chiqishda shunga o'xshash muammolarni hal qilishda foydalanish.

Sotera uchun loyiha kelajakda ma'lumotlarni qanday hal qilish va boshqarish bo'yicha qimmatli tijorat saboqlarini taqdim etdi va bu sug'urta va meros sektorlarida o'g'irlangan narsalarni aniqlash uchun Computer Vision-dan foydalanishimiz mumkinligini ko'rsatdi.

Vizual geometriya guruhi tomonidan yaratilgan Computer Vision prototipi muvaffaqiyatli bo'ldi va siz bu haqda ko'proq o'qishingiz mumkin.

Keyingi qadamlar
«Sotera - bu Insurtech startapi bo'lib, u kompyuterni ko'rish va Mashinani o'rganishdan foydalanadi, bu ob'ektlarning xavf-xatarini aniqroq baholash uchun aniq tushunish uchun. Shuningdek, bizda notijorat Heritage Toolkit mavjud boʻlib, u xavf ostidagi meros obʼyektlarini yozib olish uchun texnologiyamizdan foydalanadi. Agar siz raqamli ma'lumotlar to'plamiga ega muzeyni boshqarsangiz, biz siz bilan ishlashni xohlaymiz. Iltimos bog'laning.