Cum am curățat un set de date de muzeu pentru a ne antrena computer Vision

Grupul de geometrie vizuală de la Universitatea Oxford a folosit finanțare de laEPSRC (Consiliul de inginerie și cercetare fizică) pentru a construi un prototip de computer Vision pentru Sotera. Prototipul s-a concentrat pe un caz de utilizare specific în cadrul activităților mai largi ale Sotera: putem folosi o fotografie a unui obiect pentru a-l recunoaște din imaginile anterioare?

Setul de instrumente Heritage Sotera va permite oamenilor să fotografieze obiecte de patrimoniu expuse riscului. Dacă sunt găsite mai târziu sau apar online, le vom putea recunoaște dintr-o fotografie nouă. Acest lucru necesită ca computer Vision să poată recunoaște un obiect despre care a învățat dintr-o fotografie veche atunci când vede o nouă fotografie a obiectului care poate fi foarte diferită. Acest lucru trebuie să funcționeze și cu fotografii prost făcute, nu doar cu imagini de înaltă rezoluție, bine iluminate.

Pentru acest proiect, am colaborat cu „Muzeul Oriental de la Universitatea Durham” care și-a împărtășit setul de date digitizate de colecții, care cuprinde aproximativ 40.000 de obiecte din muzeu. Acesta a constat din fotografii în foldere și un fișier text care listează detaliile fiecărui obiect care a fost creat în scopuri de arhivă și curatoriale. Oxford ne-a pus provocarea de a le oferi „date curate” – aceasta s-a dovedit a fi una dintre marile provocări pentru proiectele de computer Vision și una care a dus la echipa Sotera să învețe multe despre seturile de date.

În această postare vă împărtășim o parte din ceea ce am învățat. Acesta este un studiu de caz util pentru alte organizații care lucrează cu seturi de date mari, în special pentru alte organizații de patrimoniu care își digitalizează colecțiile.

Muzeul Oriental a fost deschis în 1960. Colecția lor variază de la Egiptul Antic până la China modernă. Este singurul muzeu din nordul Angliei dedicat în întregime artei și arheologiei marilor culturi din Africa de Nord și Asia. Colecția constă din aproximativ 40.000 de obiecte, de la preistorie până la zilele moderne. Setul de date pe care l-am primit constă din imagini pentru 26.418 obiecte, pe care le-am redus la un set de date final de 12.401 obiecte cele mai relevante pentru demonstrația de concept Sotera.

Muzeul nu avea înregistrări de metadate pe care să le putem folosi, așa că am creat o nouă înregistrare de metadate din sistemele lor online, în principal din „Discover”,” care este alimentată de un API (nu public), care scoate obiecte din«Adlib (software-ul lor de gestionare a colecțiilor muzeale).

Ceea ce aveam nevoie pentru acest proiect erau date consistente pentru fiecare obiect. Sistemele online au furnizat mai mult decât aveam nevoie, așa că am decis să păstrăm majoritatea datelor în sistem în cazul în care ar fi nevoie pentru proiecte viitoare. În general, fiecare fișier avea un număr de acces, care era același nume de fișier pentru imaginile asociate. Acesta a fost urmat de numele obiectului, data creării, descrierea, dimensiunile, materialul, locul de producție, oamenii reprezentați, subiectul, imaginile (dacă este relevant) și note. Când seturile de date sunt formate pe parcursul mai multor decenii, informațiile nu sunt adesea introduse în mod consecvent sau în aceeași ordine. Am scris cod pentru a corecta acest lucru și, de asemenea, pentru a elimina datele care ar deruta Machine Learning, cum ar fi notele curatorului în formă liberă.

Curățarea metadatelor — Soluții folosite

Numerele obiectelor
Am extras numerele articolelor Muzeului Oriental din directorul articolelor muzeului căutând codul HTML al paginilor Discover și IIIF (International Image Interoperability Format) care au identificat 26.418 articole. Am folosit numerele articolului pentru a accesa paginile IIIF și Discover pentru articol, ceea ce a fost posibil deoarece adresele URL ale acestora conțineau numerele articolului. Am folosit pagina IIIF pentru a extrage imaginile de înaltă rezoluție și, ulterior, am extras informațiile despre articol din pagina Discover. Toate obiectele trebuiau să aibă numere de articol consecvente sau Identificatori persistenti(PID). Majoritatea PID-urilor au un identificator unic care este legat de adresa curentă a metadatelor. Spre deosebire de adresele URL, PID-urile permit actualizarea locației obiectului, astfel încât identificatorul să indice în mod constant locul potrivit, fără a se întrerupe.

Numele obiectului
Convențiile de denumire a obiectelor nu erau consecvente, așa că am scris un script pentru a schimba acest lucru în setul de date, făcând referire la foaia de calcul cu numere/nume de obiecte produse de șeful de date al muzeului. În cadrul acelei convenții, au mai rămas neconcordanțe. Am rulat mai multe scripturi pentru a corecta acest lucru, de ex. Shabtis au fost numite și Figurine sau Ushabtis și trebuia să selectăm un singur nume pentru aceleași obiecte.

Am curățat problemele de formatare care au apărut în timpul extragerii datelor, de exemplu, „uc” a fost adăugat și prima literă a unui nume aflat acum între paranteze a fost ștearsă. De asemenea, am rulat un script pentru a șterge informațiile materiale din paranteze atunci când au fost repetate în coloanele de descriere și materiale, de ex. rândul 7: „Figurină umană (bronz) uc(i)sis și uc(h)orus figurină” a fost convertită în: „figurină isis și horus”.

Data creării
Multe obiecte din Egiptul Antic au fost datate numai după perioada dinastică. Am actualizat datele din Egiptul Antic pentru a folosi Cronologia Convențiilor de întâlnire standardizate a Muzeului Metropolitan de Artă și am adăugat anii pe lângă numele perioadelor dinastiei pentru o formatare consecventă cu celelalte perioade de timp.

Descriere
Am dezbătut despre rularea unui script pentru a curăța descrierile tipologiei de obiecte generice repetate, dar am decis că mai multe informații sunt de preferat pentru scopuri pe termen mai lung, așa că am lăsat aceste informații.

Dimensiuni
Am dezbătut despre curățarea dimensiunilor enumerate pentru a utiliza pur și simplu cea mai mare dimensiune pentru o percepție generală a dimensiunii obiectului, totuși am decis că mai multe informații sunt de preferat pentru viitorul parametri extinși de învățare automată, astfel încât am păstrat toate datele de dimensiune, dar am lucrat pentru a le face în concordanță cu scopurile noastre acum.

Materiale
Am determinat definițiile și tipologiile materialelor preferate, de ex. am folosit termenul de ceramică (un termen arheologic) peste ceramică (un termen de muzeu) și Shabti peste Ushabti. Am dezbătut reducerea listelor de materiale la ultimul material listat, dar am decis din nou să păstrăm toate descrierile pentru referințe viitoare. de exemplu: „materiale — material anorganic — rocă — rocă sedimentară — rocă carbonatată — calcar”, ar fi putut fi redus la „calcar”.

Unele materiale au fost confundate cu culoarea pe care o reprezintă, de exemplu; granitul, aurul, alabastrul și turcoazul sunt atât un material, cât și o culoare. Am rulat un script pentru a șterge referințele la „culori”: de exemplu: „materiale — culoare — culori — culori cromatice — culori violete — culori variabile violete — granit” a fost schimbat doar în „granit”.

Locul de producție
Am păstrat descrierile lungi ale locului de producție care merg de la o regiune geografică la o anumită locație, în loc să le scurtăm la un descriptor, pentru a păstra datele pentru utilizare ulterioară. De exemplu. „Asia — Asia de Vest — Irak — Guvernoratul Dhi Qar — Districtul Nassriya — Tall al Muqayyir.

Perioada de producție
Am curățat convențiile de întâlnire pentru a potrivi „Data creării” cu „Perioada de producție” alternativă, așa că am avut o singură dată pentru fiecare obiect, deoarece unele obiecte aveau ambele date, ceea ce ar crea confuzie. algoritmul de învățare automată.

Imagini
Multe dintre intrările de obiecte aveau un gol în coloana de imagini, ceea ce ar fi putut fi un indiciu că nu a fost făcută nicio fotografie. Cu toate acestea, am verificat încrucișat cu foile de calcul produse de șeful de date al Muzeului Oriental pentru a confirma numărul obiectului, căile fișierelor de imagine și miniaturile imaginilor pentru a localiza imaginile lipsă și am reușit să găsim sau să creăm căile pentru fișierele de imagine lipsă acolo unde a fost posibil.

Am exclus obiectele nerelevante pentru acest proiect, inclusiv obiectele 2D, cum ar fi hârtie și fotografii. Am rulat un script pentru a șterge înregistrările realizate din materiale irelevante: „materiale — produse din fibre — hârtie”; „materiale — produse din fibre — hârtie — hârtie fotografică.”

Curățarea finală a fost făcută manual, deoarece s-a stabilit că este mai eficientă decât scrierea unui script. Pentru aceasta, am creat manual cele 178 de „Nume de obiecte” care lipsesc.

Rezumat
Colecția Muzeului Oriental a fost creată pentru a afișa o serie de colecții donate diferite, care acoperă o zonă mare, din Africa de Nord până în Asia de Sud-Est. Scopul predominant al muzeului este cercetarea academică și predarea limbilor orientale. Ca atare, multe convenții de denumire se bazează mai degrabă pe standarde de limbă și patrimoniu decât pe standarde arheologice. Așa cum este adesea tipic pentru colecțiile muzeelor academice tradiționale, intrarea în baza de date are loc de-a lungul mai multor ani, iar baza de date rezultată este adesea o stratigrafie complexă de date care a evoluat prin diferiți curatori și convenții de introducere a datelor.

În călătoria noastră de a crea o înregistrare consecventă a metadatelor pentru colecția Muzeului Oriental, am aflat că descrierea obiectului, proveniența și data creării sunt cea mai mare prioritate în scopuri academice și de patrimoniu, adesea denumite în muzee „datele mormântului” utilizate pentru creați etichete de obiecte pentru expoziție. Cu toate acestea, pentru un set de date Machine Learning, o referință consecventă a ID-ului obiectului sau un identificator persistent (PID), materialul și dimensiunile cu imaginile obiectului corespunzătoare sunt ideale. Dacă sunt incluse, aceste imagini trebuie să aibă căi de fișiere imagine și miniaturi care se potrivesc cu înregistrările.

Majoritatea obiectelor din colecție nu aveau înregistrări fotografice (aproape 65%). Am exclus aproximativ 24.000 de obiecte din metadatele finale, deoarece le lipseau imaginile corespunzătoare necesare scopurilor noastre.

Rezultat
Munca pe care am realizat-o transformând setul de date Muzeul Oriental dintr-un set de date de muzeu într-un set de date de învățare automată a făcut posibil proiectul de viziune computerizată, dar oferă și un studiu de caz pentru alții din sectorul patrimoniului de utilizat atunci când se abordează probleme similare în dezvoltarea seturilor de date de colecție și a proiectelor de științe umaniste digitale.

Pentru Sotera, proiectul a oferit, de asemenea, lecții comerciale valoroase despre modul în care abordăm și gestionăm datele în viitor și a arătat că putem folosi Computer Vision pentru a identifica obiectele furate în sectoarele asigurărilor și patrimoniului.

Prototipul de Computer Vision rezultat, construit de Visual Geometry Group, a fost un succes și puteți „citi mai multe despre el aici”.

Pașii următori
Sotera este un startup Insurtech care folosește Computer Vision și Machine Learning pentru a înțelege exact ce sunt obiectele pentru a stabili prețul riscului lor mai precis. Avem, de asemenea, un set de instrumente pentru patrimoniu non-profit, care va implementa tehnologia noastră pentru a înregistra obiectele de patrimoniu expuse riscului. Dacă conduceți un muzeu cu un set de date cu cifre, am dori să lucrăm cu dvs. Te rog ia legatura.

Cum am curățat un set de date de muzeu pentru a ne antrena computer Vision

Întrebări similare