Workshop 'Werken met XML-bestanden': een terugblik
Op woensdag 30 november kwamen vijftien collega’s uit de sector samen voor een workshop ‘Werken met XML-bestanden’. De workshop maakt deel uit van de collegagroep Digitalisering van periodieken, georganiseerd door de Vlaamse Erfgoedbibliotheken, meemoo en FARO.
Een dag vol XML, Python en Jupyter Notebooks
Voor de workshop ‘Werken met XML-bestanden’ kwam Mirjam Cuper van het KB Lab in Den Haag ons meer vertellen over Jupyter Notebooks. Dat programma maakt het mogelijk om met de programmeertaal Python informatie te halen uit grote hoeveelheden XML-bestanden. Deze bestanden worden onder meer gebruikt om metadata te structureren en om OCR-resultaten (Optical Character Recognition) op te slaan.
De ochtend startte met een korte uiteenzetting over de toepassingen van Python en Jupyter Notebooks. Al snel mochten de deelnemers aan de slag met een eigen notebook om de programmeertaal Python te leren gebruiken. Ze leerden variabelen toepassen, gerichte output genereren en een variatie aan functies en voorwaarden gebruiken. Hierop volgde een theoretische inleiding over XML — eXtensible Markup Language — waarin de bestandsformaten DIDL en ALTO aan bod kwamen.
Slide uit de presentatie van Mirjam Cuper: oefening over de opmaak van XML-bestanden.
In de namiddag stond een praktijksessie op het programma, waar de deelnemers leerden om metadata te structureren in Jupyter Notebooks op basis van DIDL en ALTO-bestandsformaten.
Workshop gemist?
Geen zorgen: het KB Lab biedt ook een online cursus aan, waar je stap voor stap leert werken met Jupyter Notebooks en verschillende XML-bestandsformaten.
Meer info
De collegagroep Digitalisering van periodieken wordt georganiseerd door de Vlaamse Erfgoedbibliotheken, meemoo en FARO. In de collegagroep wisselen erfgoedbeheerders kennis en ervaring uit over de digitalisering van kranten en tijdschriften. Voor vragen, opmerkingen en suggesties rond de collegagroep kan je mailen naar montaine@vlaamse-erfgoedbibliotheken.be.