Grupa Geometrii Wizualnej na Uniwersytecie Oksfordzkim wykorzystała funduszeEPSRC (Rady ds. Inżynierii i Badań Fizycznych) do zbudowania prototypu widzenia komputerowego dla firmy Sotera. Prototyp skupiał się na konkretnym przypadku użycia w szerszej działalności Sotery: czy możemy wykorzystać zdjęcie obiektu, aby rozpoznać go na podstawie poprzednich obrazów?

Zestaw narzędzi Sotera Heritage Toolkit umożliwi fotografowanie zagrożonych obiektów dziedzictwa kulturowego. Jeśli zostaną później odnalezione lub pojawią się w Internecie, będziemy w stanie rozpoznać je na podstawie nowego zdjęcia. Wymaga to, aby wzrok komputerowy był w stanie rozpoznać obiekt, o którym dowiedział się ze starego zdjęcia, gdy zobaczy nowe zdjęcie obiektu, który może się bardzo różnić. Musi to działać również w przypadku słabo zrobionych zdjęć, a nie tylko dobrze oświetlonych obrazów o wysokiej rozdzielczości.

W ramach tego projektu nawiązaliśmy współpracę z „Muzeum Orientu na Uniwersytecie w Durham”, które udostępniło swój zdigitalizowany zbiór danych obejmujący około 40 000 obiektów znajdujących się w muzeum. Składały się one ze zdjęć w folderach oraz pliku tekstowego zawierającego szczegółowe informacje o każdym obiekcie, który został stworzony do celów archiwalnych i kuratorskich. Oxford postawił przed nami wyzwanie polegające na zapewnieniu im „czystych danych” — okazało się to jednym z największych wyzwań dla projektów Computer Vision i dzięki niemu zespół Sotera dowiedział się wiele o zbiorach danych.

W tym poście dzielimy się częścią tego, czego się nauczyliśmy. Jest to przydatne studium przypadku dla innych organizacji pracujących z dużymi zbiorami danych, w szczególności dla innych organizacji odpowiedzialnych za dziedzictwo digitalizujących swoje zbiory.

Muzeum Orientu zostało otwarte w 1960 roku. Ich zbiory obejmują okres od starożytnego Egiptu po współczesne Chiny. Jest to jedyne muzeum w północnej Anglii poświęcone w całości sztuce i archeologii wielkich kultur Afryki Północnej i Azji. Kolekcja składa się z około 40 000 obiektów, od czasów prehistorycznych po czasy współczesne. Zbiór danych, który otrzymaliśmy, składa się z obrazów 26 418 obiektów, które zredukowano do ostatecznego zbioru danych składającego się z 12 401 obiektów najbardziej istotnych dla weryfikacji koncepcji Sotery.

Muzeum nie posiadało rekordów metadanych, z których moglibyśmy skorzystać, dlatego utworzyliśmy nowy rekord metadanych z ich systemów online, głównie z „Discover»”, który jest zasilany przez API (niepubliczne), który wyciąga obiekty z «Adlib (ich oprogramowania do zarządzania zbiorami muzealnymi).

Do tego projektu potrzebowaliśmy spójnych danych dla każdego obiektu. Systemy online zapewniły więcej, niż potrzebowaliśmy, dlatego zdecydowaliśmy się zachować większość danych w systemie, na wypadek gdyby były potrzebne w przyszłych projektach. Ogólnie rzecz biorąc, każdy plik miał numer dostępu, który był tą samą nazwą pliku dla powiązanych obrazów. Następnie podano nazwę obiektu, datę powstania, opis, wymiary, materiał, miejsce produkcji, przedstawione osoby, temat, zdjęcia (jeśli dotyczy) i notatki. Kiedy zbiory danych powstają na przestrzeni wielu dziesięcioleci, informacje często nie są wprowadzane w sposób spójny lub w tej samej kolejności. Napisaliśmy kod, aby to poprawić, a także usunąć dane, które mogłyby mylić uczenie maszynowe, takie jak notatki kuratora w dowolnej formie.

Czyszczenie metadanych — zastosowane rozwiązania

Numery obiektów
Wyodrębniliśmy numery pozycji Muzeum Orientu z katalogu obiektów muzealnych, przeszukując kod HTML stron Discover i IIIF (International Image Interoperability Format), które zidentyfikowały 26 418 obiektów. Użyliśmy numerów pozycji, aby uzyskać dostęp do stron IIIF i Discover dotyczących tego przedmiotu, co było możliwe, ponieważ ich adresy URL zawierały numery pozycji. Użyliśmy strony IIIF, aby wyodrębnić obrazy w wysokiej rozdzielczości, a następnie wyodrębniliśmy informacje o przedmiocie ze strony Odkryj. Wszystkie obiekty musiały mieć spójne numery pozycji lub trwałe identyfikatory (PID). Większość identyfikatorów PID ma unikalny identyfikator powiązany z bieżącym adresem metadanych. W przeciwieństwie do adresów URL, identyfikatory PID umożliwiają aktualizację lokalizacji obiektu, dzięki czemu identyfikator stale wskazuje właściwe miejsce bez przerywania.

Nazwa obiektu
Konwencje nazewnictwa obiektów nie były spójne, dlatego napisaliśmy skrypt, aby zmienić to w całym zbiorze danych, odwołując się do arkusza kalkulacyjnego z numerami/nazwami obiektów opracowanymi przez kierownika ds. danych muzeum. W ramach tej konwencji pozostały dalsze niespójności. Uruchomiliśmy kilka skryptów, aby to poprawić, m.in. Shabti nazywano także Figurkami lub Ushabti i musieliśmy wybrać jedną nazwę dla tych samych obiektów.

Usunęliśmy problemy z formatowaniem, które wystąpiły podczas ekstrakcji danych, na przykład dodano „uc” i usunięto pierwszą literę nazwiska w nawiasach. Uruchomiliśmy także skrypt usuwający informacje o materiale w nawiasach, gdy powtórzyły się one w kolumnach opisu i materiałów, np.: wiersz 7: „Figurka ludzka (brązowa) uc(i)sis i uc(h)orus” została zamieniona na: „figurka Izydy i Horusa”.

Data powstania
Wiele obiektów ze starożytnego Egiptu datowano wyłącznie na okres dynastyczny. Zaktualizowaliśmy daty starożytnego Egiptu, aby korzystać z chronologii standardowych konwencji randkowych Metropolitan Museum of Art, i dodaliśmy lata oprócz nazw okresów dynastii, aby zachować spójność z innymi okresami.

Opis
Debatowaliśmy nad uruchomieniem skryptu do czyszczenia powtarzających się ogólnych opisów typologii obiektów, jednak zdecydowaliśmy, że ze względów długoterminowych lepiej będzie uzyskać więcej informacji, więc zostawiliśmy te informacje.

Wymiary
Debatowaliśmy nad wyczyszczeniem wymienionych wymiarów, aby po prostu użyć największego wymiaru do ogólnego zrozumienia skali obiektu, jednak zdecydowaliśmy, że więcej informacji byłoby lepsze dla przyszłych rozszerzonych parametrów uczenia maszynowego, więc zachowaliśmy wszystkie dane dotyczące wymiarów, ale pracowaliśmy nad tym, aby były one spójne z naszymi celami.

Materiały
Określiliśmy preferowane definicje i typologie materiałów, np.: użyliśmy terminu ceramika (termin archeologiczny) w stosunku do ceramiki (termin muzealny) i Shabti w stosunku do Ushabti. Dyskutowaliśmy o ograniczeniu listy materiałów do ostatniego wymienionego materiału, jednak ponownie zdecydowaliśmy się zachować wszystkie opisy do wykorzystania w przyszłości. np.: „materiały — materiał nieorganiczny — skała — skała osadowa — skała węglanowa — wapień” można było zredukować do „wapienia”.

Na przykład niektóre materiały zostały pomylone ze względu na kolor, jaki reprezentują; granit, złoto, alabaster i turkus to zarówno materiał, jak i kolor. Uruchomiliśmy skrypt usuwający odniesienia do „kolorów”: Np.: „materiały — kolor — kolory — kolory chromatyczne — kolory fioletowe — zmienne kolory fioletu — granit” zmieniono po prostu na „granit”.

Miejsce produkcji
Zachowaliśmy długie opisy miejsc produkcji, które prowadzą z regionu geograficznego do konkretnej lokalizacji, zamiast skracać je do jednego deskryptora w celu zachowania danych do wykorzystania w przyszłości. Np. „Azja — Azja Zachodnia — Irak — Gubernatorstwo Dhi Qar — Dystrykt Nassriya — Tall al Muqayyir”.

Okres produkcji
Oczyściliśmy konwencje datowania, aby dopasować „Datę utworzenia” do alternatywnego „Okres produkcji”, więc mieliśmy tylko jedną datę dla każdego obiektu, ponieważ niektóre obiekty miały obie daty, co wprowadzałoby zamieszanie algorytm uczenia maszynowego.

Obrazy
Wiele wpisów obiektów miało pustą kolumnę obrazów, co mogło wskazywać, że nie zrobiono mu żadnych zdjęć. Jednakże sprawdziliśmy arkusze kalkulacyjne opracowane przez kierownika działu danych Muzeum Orientu, aby potwierdzić numer obiektu, ścieżki plików obrazów i miniatury obrazów, aby zlokalizować brakujące obrazy. W miarę możliwości udało nam się znaleźć lub utworzyć brakujące ścieżki plików obrazów.

Wykluczyliśmy obiekty nieistotne dla tego projektu, w tym obiekty 2D, takie jak papier i fotografie. Uruchomiliśmy skrypt usuwający zapisy wykonane z nieistotnych materiałów: „materiały – produkty włókniste – papier”; „materiały — produkty włókniste — papier — papier fotograficzny”.

Końcowe czyszczenie zostało wykonane ręcznie, ponieważ uznano, że jest bardziej skuteczne niż pisanie scenariusza. W tym celu ręcznie stworzyliśmy pozostałe brakujące 178 „Nazw obiektów”.

Podsumowanie
Zbiór Muzeum Orientalnego został stworzony, aby zaprezentować szereg różnych kolekcji podarowanych przez fundację, obejmujących duży obszar od Afryki Północnej po Azję Południowo-Wschodnią. Głównym celem Muzeum jest działalność naukowa i nauczanie języków orientalnych. W związku z tym wiele konwencji nazewnictwa opiera się na standardach językowych i dziedzictwa, a nie na standardach archeologicznych. Jak to często bywa w przypadku tradycyjnych zbiorów muzeów akademickich, wprowadzanie danych do bazy danych następuje przez wiele lat, a powstała baza danych jest często złożoną stratygrafią danych, która ewoluowała pod wpływem różnych kuratorów i konwencji wprowadzania danych.

Podczas naszej podróży mającej na celu stworzenie spójnego zapisu metadanych dla kolekcji Muzeum Orientu dowiedzieliśmy się, że opis obiektu, pochodzenie i data utworzenia mają najwyższy priorytet ze względów akademickich i związanych z dziedzictwem, często określanych w muzeach jako „dane nagrobka” wykorzystywane do celów tworzyć etykiety obiektów na wystawę. Jednak w przypadku zestawu danych uczenia maszynowego idealnym rozwiązaniem jest spójne odniesienie do identyfikatora obiektu lub trwały identyfikator (PID), materiał i wymiary z odpowiednimi obrazami obiektów. Jeśli te obrazy są uwzględnione, muszą mieć ścieżki plików obrazów i miniatury pasujące do rekordów.

Większość obiektów w kolekcji nie posiadała dokumentacji fotograficznej (prawie 65%). Z ostatecznych metadanych wykluczyliśmy około 24 000 obiektów, ponieważ brakowało im odpowiednich zdjęć niezbędnych do naszych celów.

Wynik
Prace, które wykonaliśmy, przekształcając zbiór danych Muzeum Orientu ze zbioru danych muzealnych w zbiór danych uczenia maszynowego, umożliwiły realizację projektu widzenia komputerowego, ale dostarczyły także studium przypadku dla innych osób w sektorze dziedzictwa kulturowego do wykorzystania przy rozwiązywaniu podobnych problemów przy opracowywaniu zbiorów danych i projektach z zakresu humanistyki cyfrowej.

Dla Sotery projekt dostarczył także cennych lekcji komercyjnych na temat tego, jak będziemy wykorzystywać dane i zarządzać nimi w przyszłości, a także pokazał, że możemy wykorzystać wizję komputerową do identyfikacji skradzionych przedmiotów w sektorach ubezpieczeń i dziedzictwa kulturowego.

Powstały w ten sposób prototyp widzenia komputerowego zbudowany przez Visual Geometry Group okazał się sukcesem, o czym „więcej na ten temat można przeczytać tutaj”.

Dalsze kroki
Sotera to start-up z branży Insurtech, który wykorzystuje technologię rozpoznawania komputerowego i uczenia maszynowego do dokładnego zrozumienia, czym są obiekty, w celu dokładniejszej wyceny związanego z nimi ryzyka. Dysponujemy także zestawem narzędzi dziedzictwa kulturowego non-profit, który umożliwi wdrożenie naszej technologii do rejestrowania zagrożonych obiektów dziedzictwa kulturowego. Jeśli prowadzisz muzeum posiadające zdigitalizowany zbiór danych, chcielibyśmy z Tobą współpracować. Proszę, skontaktuj się.