Nieuwe datum: Workshop werken met XML-bestanden van OCR op 30 november

Op woensdag 30 november 2022 geeft Mirjam Cuper van KB Lab een eendaagse workshop in het kader van de collegagroep ‘Digitalisering van periodieken’. Deelnemers leren in deze praktische workshop werken met XML-bestanden van OCR van historische teksten.
De structuur van de XML-bestanden herbergt een schat aan informatie. Ze kunnen onder andere historische gegevens bevatten over uitgevers, drukkers en auteurs alsook metadata over de digitalisering. Hoe je informatie uit deze XML-bestanden kan halen vergt enige knowhow.
Via deze workshop leer je met behulp van Jupyter Notebooks werken met de programmeertaal Python. Die maakt het mogelijk om snel en efficiënt informatie uit grote hoeveelheden XML-bestanden te halen. Daarnaast leer je ook hoe je deze gegevens kan omzetten naar een leesbaar en bruikbaar formaat.
Zijn er specifieke XML-formaten die je aan bod wil zien komen? Heb je specifieke informatie die je uit jouw XML wilt halen? Vergeet dit dan zeker niet door te geven via dit inschrijvingsformulier! Inschrijven kan tot 23 november en beperkt zich tot 12 deelnemers.
Voor wie?:
Voor medewerkers van alle cultureelerfgoedorganisaties die interesse hebben om snel, efficiënt en in een bruikbaar formaat grote hoeveelheden informatie uit hun XML-bestanden van OCR te halen.
09.30: Verwelkoming met koffie en thee
10.00 - 10.30: Korte verkenning van Python en Jupyter Notebooks
10.30 - 12.00: Theoretische achtergrond XML
- Structurele opbouw XML-bestanden
- Verkenning methodes om XML bestanden te bevragen met Python
12.00 - 13.00: Lunch
13.00 - 16.00 (incl. pauze): Aan de slag met Jupyter Notebooks
- Verschillende verwerkingsstappen XML-bestanden
- Verwerven, herstructureren en opslaan van informatie uit XML-bestanden
De collegagroep 'Digitalisering van periodieken' wordt georganiseerd door de Vlaamse Erfgoedbibliotheken, meemoo en FARO. In deze collegagroep komen professionals uit de sector samen om aan kennisuitwisseling te doen en ervaringen rond dit thema te delen. Medewerkers van organisaties die al actief bezig zijn met digitalisering ondersteunen er hun minder ervaren collega’s.