Nieuwe tool maakt actualisering van krantencatalogus Abraham efficiënter

Voorpagina's kranten De Waarheid

Meer dan honderd erfgoedorganisaties hebben hun krantencollecties laten registreren in de krantencatalogus Abraham, die vandaag ruim 8.500 krantentitels en 19.000 holdings bevat. Het up-to-date houden van de gegevens in de catalogus is dan ook geen sinecure. Dankzij Verhoeven, een nieuwe applicatie ontwikkeld door de Vlaamse Erfgoedbibliotheken voor intern gebruik, verloopt dit proces tegenwoordig vlotter.

Abraham-updates volgens de oude stijl

Updates aan de Abraham-catalogus verliepen in het verleden grotendeels handmatig. Waren er aanpassingen nodig aan de informatie over een krantencollectie in Abraham? Dan leverde een deelnemende organisatie up-to-date gegevens aan. We zochten elk record op en wijzigden dan de informatie. Bij grote datasets is dat een omslachtig proces. En als een titel meerdere keren voorkomt (en dat is heel vaak het geval) is de match tussen de aangeleverde data en de records in Abraham niet in één oogopslag duidelijk. 

Om een holding van de krant De waarheid toe te voegen of aan te passen, moet je eerst bepalen over welke van de maar liefst 36 ‘Waarheden’ in Abraham het gaat. Dat betekent grondig kijken naar de beschikbare gegevens om de juiste match te vinden. Wanneer werd de krant uitgegeven en waar? Komen ondertitels of alternatieve titels overeen? Zijn er andere aanwijzingen om de juiste match te vinden? Bij onvoldoende informatie moesten we zelfs onderzoek doen in andere bronnen.

Een nieuwe aanpak

Idealiter gebeurt zo'n proces om records te matchen grotendeels automatisch, aan de hand van unieke gegevens (zoals ID-nummers) van de collectiebeherende organisaties. Die werden helaas niet opgenomen in Abraham.

In 2019 begon het tweejarig project Abraham 2020 met de actualisering, uitbreiding en verbetering van de catalogus. Dat houdt in dat we veel grote datasets van partnerorganisaties ontvangen, controleren en invoeren. Het werd al snel duidelijk dat een nieuwe en efficiëntere oplossing noodzakelijk was, vooral voor datasets met duizenden records.

De opname van de permanente ID’s van de bewaarinstellingen is hierbij essentieel, zowel voor de succesvolle uitvoering van Abraham 2020 als voor het klaarmaken van de catalogus voor toekomstige updates. Dankzij deze nummers kunnen we gebruikers van de databank trouwens ook direct doorverwijzen naar de relevante records in de onlinecatalogi van de deelnemende instellingen, en om zo de raadpleging van historische kranten beter te faciliteren.

De applicatie Verhoeven

Bij de eerste poging om het matchingsproces deels te automatiseren, gebruikten we formules in spreadsheets die bepaalde gegevens in Abraham-records vergeleken met de records in inkomende datasets. Zo werd de data van de Universiteitsbibliotheek Gent en van Amsab verwerkt. Terwijl dat veel nuttige matches opleverde, bleef de verificatie ervan lastig. Ter controle moesten we heen en weer scrollen door talloze kolommen in de spreadsheet. 

In de zomer werkte ons team aan de ontwikkeling van een tool om dit proces efficiënter te maken: Verhoeven. Verhoeven is, net als de krantencatalogus, genoemd naar Abraham Verhoeven (1575-1652), de eerste krantenuitgever van de Zuidelijke Nederlanden. De applicatie stelt ons in staat om het vergelijkingsproces gemakkelijker uit te voeren.

Als eerste stap importeren we de aangeleverde dataset in Verhoeven. Verhoeven genereert alle vermoedelijke matches in een gebruiksvriendelijke interface. In één oogopslag zie je de gegevens van de instelling naast de bestaande gegevens in Abraham. Onze medewerkers duiden vervolgens aan of het wel degelijk om een match gaat. De resultaten worden nadien geëxporteerd. Tenslotte worden de gematchte ID’s geïmporteerd in de krantencatalogus. Wij hebben Verhoeven al toegepast op datasets van de Erfgoedbibliotheek Hendrik Conscience en ADVN, en het proces verliep erg vlot.

Realisaties

Dankzij Verhoeven hebben we veel nuttige gegevens in Abraham kunnen invoeren, waaronder de permanente ID’s van de catalogi van de projectpartners. Zeventig procent van de holdings in Abraham hebben tegenwoordig een stabiele referentie van de bewaarinstelling. Dat is deels te danken aan Verhoeven. Maar ook de vergelijkingen met spreadsheets, handmatig opzoekwerk en de mappings die door de collectiebeherende organisaties zelf werden gemaakt (onder andere door KU Leuven Bibliotheken Bijzondere Collecties) droegen ertoe bij.

Deze referenties — plaatskenmerken, catalogus-ID-nummers of links naar de eigen online catalogus — vind je onderaan in een Abraham-record in het onderdeel ‘Beschikbaarheid’. Je kan doorklikken naar de catalogi van enkele van de grootste collecties van historische kranten in Vlaanderen: die van de Erfgoedbibliotheek Hendrik Conscience, KU Leuven Bibliotheken, de Universiteitsbibliotheek Gent, Amsab en Liberas, samen goed voor 12.616 holdings.

We hebben Verhoeven ook gebruikt om bijkomende koppelingen te maken met ODIS, de Online Database voor Intermediaire Structuren. Daardoor hebben ruim 1.900 Abraham-records nu één of meer links naar deze databank. Meer info over de oorspronkelijke samenwerking en koppelingen met ODIS kan je lezen in dit nieuwsbericht van april.

Enkele datasets zitten nog in de pijplijn voor verwerking in Verhoeven. Eerstdaags staat de omvangrijke krantencollectie van de KBR op het programma. We kijken ook naar mogelijkheden om Verhoeven te verduurzamen. De tool kan ons zo ook in de toekomst blijven helpen bij het efficiënt updaten van de Abraham-catalogus, die zo betrouwbaar en up-to-date blijft.

  • Nieuwsbericht
  • |
  • 26-11-2020
  • |
  • Sophia Rochmes (Vlaamse Erfgoedbibliotheken)