Collegagroep digitalisering van periodieken: OCR en full-text (verslag)

Screenshot tijdens presentatie van Clemens Neudecker

Op dinsdag 16 februari kwamen 43 collega’s uit de sector digitaal samen rond het thema full-text en OCR-verbetering. Het was de tweede vergadering van de Collegagroep Digitalisering van Periodieken, georganiseerd door de vzw Vlaamse Erfgoedbibliotheken, meemoo en FARO.

Een voormiddag rond OCR en full-text

De collegagroep startte met een inleiding gegeven door Rony Vissers van meemoo. Met zijn presentatie Van bedrukt papier naar digitale datasets vertelde hij over de bedreiging van papieren kranten, de beperkingen van microfilms en de opportuniteiten die digitaliseringen van kranten met zich meebrengen. Vervolgens kwamen twee internationale gastsprekers aan het woord die de methodieken, ervaringen en conclusies van hun projecten rondom OCR en full-text toelichtten.

Nicoline van der Sijs, werkzaam aan de Radboud Universiteit en het Instituut voor de Nederlandse Taal, deelde haar expertise met een crowdsourcingproject rond zeventiende-eeuwse kranten op Delpher, het online platform van de Koninklijke Bibliotheek van Nederland voor gedigitaliseerde kranten, tijdschriften en boeken.

In het project werden de kranten door een groep van meer dan tweehonderd vrijwilligers overgetypt en gecorrigeerd in een interface ontwikkeld door het Meertens Instituut. Dit resulteerde in betrouwbare transcripties met in totaal ongeveer twintigmiljoen woorden. Nicoline gaf praktische tips uit haar ervaring als projectleider en deelde de resultaten van haar enquête aan de vrijwilligers.

Vervolgens sprak Clemens Neudecker, werkzaam aan de Berlin State Library - Prussian Cultural Heritage Foundation (SBB), over de gebruikte methodieken en zijn ervaringen met betrekking tot OCR en de lay-out analyse voor historische kranten. Hij deelde zijn inzichten over waar de afgelopen jaren de meeste vooruitgang is geboekt en welke uitdagingen er nog zijn.

Desondanks er al tools bestaan voor de creatie van zeer hoogwardige OCR's zijn deze onder meer afhankelijk van de correcte segmentering van de tekst door de lay-out analyse. Geautomatiseerde processen voor lay-out analyse zijn niet evident, vertelde Clemens, en kranten brengen specifieke uitdagingen met zich mee door hun complexe opmaak en variabele leesvolgorde. Tevens benadrukte hij de noodzaak van internationale, gemeenschappelijke metadatastandaarden.

Na een korte Q&A werd het laatste half uur benut voor de mededeling van vier korte updates. Sophia Rochmes van vzw Vlaamse Erfgoedbibliotheken informeerde de leden van de collegagroep over het werkdocument rond de methodes, tools en standaarden voor de creatie en verbetering van full-text. Ook bracht ze iedereen op de hoogte van het nieuwe driejarig project Nieuwe Tijdingen, een voorbereidingsproject voor de massadigitalisatie van de Belgische kranten.

Tot slot gaf Astrid Vergauwe van meemoo een presentatie over Transkribus en deed Rony Vissers een oproep aan de leden van de collegagroep om voorbeelden van METS of andere metadataschema’s van gedigitaliseerde kranten door te sturen. Deze voorbeelden zullen meemoo helpen met hun creatie van een standaard container in functie van de ingest van gedigitaliseerde kranten in hun digitaal depot. 

Interesse?

Deze collegagroep staat open voor iedereen in de sector met interesse voor de digitalisering van kranten of tijdschriften. Collega's uit uiteenlopende instellingen nemen deel, wat zorgt voor een grote variatie aan ervaringen met de digitalisering van periodieken. Medewerkers van organisaties die al langer actief bezig zijn met digitalisering kunnen er er hun minder ervaren collega’s ondersteunen.

Meer info

Schrijf je nu in voor de nieuwsbrief van de Vlaamse Erfgoedbibliotheken en blijf op de hoogte van toekomstige bijeenkomsten. Vragen, opmerkingen en suggesties rond de collegagroep kan je naar sophia@vlaamse-erfgoedbibliotheken.be sturen.

  • Nieuwsbericht
  • |
  • 25-02-2021
  • |
  • Montaine Denys (Vlaamse Erfgoedbibliotheken)