Piloot OCR-verbetering toont opportuniteiten en uitdagingen aan
Dit voorjaar rondde de Vlaamse Erfgoedbibliotheken haar pilootproject rond OCR-verbetering af, in samenwerking met meemoo en erfgoedcel Stuifzand. Met behulp van AI voorzagen we 143.857 pagina’s van 25 krantentitels uit de digitale collectie van erfgoedcel Stuifzand van nieuwe machineleesbare tekst. De verbeterde OCR-bestanden zijn binnenkort te raadplegen via het ontsluitingsplatform Kempens Erfgoed. Ook meemoo neemt de bestanden op in hun digitale archief om op termijn de ontsluiting van de kranten op hetarchief.be te verbeteren.
Nieuwe OCR-technologie geeft betere resultaten
OCR — optical character recognition — is een proces waarbij afbeeldingen van de gedrukte pagina’s omgezet worden naar computerleesbare tekst. Dankzij OCR kan je bijvoorbeeld op zoek gaan in een historische krant naar specifieke thema’s of trefwoorden, zoals nieuws over je geboorteplaats of een specifieke persoon. Maar het omzettingsproces is zelden foutloos.
Factoren zoals de complexiteit van de lay-out, de drukkwaliteit, de conditie van het papier, de beeldkwaliteit en de gebruikte software kunnen het resultaat van OCR negatief beïnvloeden. Dat geeft zoekresultaten die de gezochte term helemaal niet bevatten, terwijl juiste resultaten soms ontbreken. Betere OCR betekent dus beter en betrouwbaarder zoeken. Recente ontwikkelingen rond machine learning verhogen de kwaliteit van OCR-processen erg. Maar loont het om collecties die nu al machineleesbaar zijn gemaakt met oudere OCR-technologie opnieuw te verwerken met nieuwe tools?
Dat zochten de Vlaamse Erfgoedbibliotheken en haar partners uit. In 2021 en 2022 evalueerden we de huidige OCR-kwaliteit van digitale krantencollecties in Vlaanderen en analyseerden we of er winst te boeken was met de nieuwste OCR-software. Het antwoord was overwegend positief, zo bleek uit ons rapport.
Van theorie naar praktijk
Houdt dit voordeel ook stand in de praktijk? Creatie van nieuwe OCR voor al gedigitaliseerd materiaal vraagt immers tijd en inspanning. Daarom zetten we in 2023 een pilootproject op samen met erfgoedcel Stuifzand en meemoo. De digitale krantencollectie van Stuifzand vormde een mooie testcollectie van 143.857 pagina’s van 25 krantentitels. Het Zwitserse bedrijf Odoma ontwikkelde een workflow en testte die uit op deze digitale collectie. Als tool kozen we voor Google Document AI, op dit moment een van de best presterende OCR-tools voor Vlaamse krantenerfgoed.
Nieuwe OCR vraagt veel stappen
De creatie van nieuwe OCR voor al gedigitaliseerd materiaal is een complexe zaak die het ontwikkelen van nieuwe processen vraagt. Zo moet je de beelden van de pagina’s uit het digitale archief halen. Afhankelijk van je collectie en de eisen van de gekozen OCR-tool zijn er transformaties nodig, zoals de omzetting van bestandsformaat en verkleining van de beelden. Ook de output van de OCR-tool is niet zomaar direct inzetbaar en vergt aanpassingen, bijvoorbeeld om goed aan te sluiten bij de vereisten van je archivering- en ontsluitinginfrastructuur. De nieuwe OCR-bestanden moet je koppelen aan de juiste afbeeldingen in je digitale archief. En behoud je graag de oude OCR-bestanden, dan moet je versiebeheer voorzien. Het ontsluitingsplatform moet ook weten welk van de twee versies het moet tonen bij raadpleging.
Naar een concrete workflow
Meemoo en Odoma goten de eerste stappen in een pipeline voor creatie van nieuwe OCR. Die testten we met een staal van tien edities. Odoma onderzocht ook de impact van enkele pre-processing stappen zoals deskewing. Dat is het rechtzetten van gekantelde beelden zodat de OCR vlotter loopt. Pre-processing leverde echter geen betere resultaten op dan processing zonder voorbereidende stappen. Dat komt wellicht omdat de Google AI tool zelf al heel wat pre-processing stappen uitvoert. Na de testfase begon de productiefase: de volledige collectie gedigitaliseerde kranten van Stuifzand kregen nieuwe OCR.
Piloot bewijst kwaliteit van nieuwe OCR
Kwaliteitscontroles tijdens de test- en productiefase stelden ons in staat om het succes van deze workflow te beoordelen. Meemoo valideerde de technische kwaliteit van de bestanden volgens de ALTO standaard. De Vlaamse Erfgoedbibliotheken deed visuele controles op een steekproef met de tool PAGE-viewer. Zo controleerden we onder meer of de tool de regio’s met tekst gemarkeerd had zoals verwacht.
Odoma bezorgde voor elke pagina een Weighted dictionary lookup score en een confidence score. De dictionary lookup score meet hoeveel van de woorden in de OCR worden teruggevonden in historische en moderne woordenboeken. Woorden die vaak voorkomen wegen meer door in de eindbeoordeling. De confidence score is een maatstaf voor hoeveel vertrouwen Google Document AI zelf heeft in de tekstherkenning.
De validatie van nieuwe OCR-bestanden verliep vlekkeloos. Ze voldeden allemaal aan de eisen van de specificaties van de ALTO-standaard. Ook de visuele steekproef toonde zeer goede resultaten aan, met zeer accurate tekstherkenning en vrij goede layoutherkenning.
Waar de OCR-tool het soms wel moeilijk mee had was de correcte afbakening van tekstregio’s. Als gevolg raken teksten in meerdere kolommen soms gegroepeerd tot één tekstregio. Dit fenomeen heet ondersegmentatie. Hierdoor leest de tool die tekst in de verkeerde volgorde.
Voorbeeld van ondersegmentatie. De eerste twee kolommen zijn gegroepeerd tot één tekstregio. De tekst is verkeerdelijk van links naar rechts samengenomen. Kolommen 3 en 4 zijn wel correct herkend.
Echt onverwacht is dat niet want bijna alle OCR-tools die we de voorbije jaren evalueerden ondervonden hiermee moeilijkheden. Enkel de tool Tesseract-Eynollah kende dat knelpunt niet. Die tool vertrekt van een proces in twee stappen met aparte tools voor lay-out- en tekstherkenning. Deze aanpak is veelbelovend maar helaas ook tijdsintensief. Daarom is deze tool op dit moment minder geschikt voor OCR-processing op grote schaal, op korte termijn of met beperkt budget.
Als laatste controle bekeken we een selectie van de uitschieters. Dat zijn pagina’s die opvielen door hun uitzonderlijk lage dictionary lookup of confidence scores, pagina’s met perfecte dictionary lookup scores, pagina’s zonder OCR en pagina’s waarin andere talen dan Nederlands waren gedetecteerd. Telkens bleken de resultaten logische verklaringen te hebben. Zo ging het bijvoorbeeld over blanco pagina’s of pagina’s met veel persoonsnamen, plaatsnamen of cijfers die niet verschijnen in de gebruikte woordenboeken. Soms las de tool doordruk van een vorige pagina als koeterwaals of een andere taal. In de praktijk heeft dit geen of weinig impact op de bruikbaarheid van de OCR.
Voorbeeld van doordruk herkend als een andere taal door de OCR-tool.
Achillespees
De resultaten bij het opnieuw verwerken van digitale kranten waarvoor al OCR voorhanden was zijn best veelbelovend. Toch legde de piloot enkele pijnpunten bloot, die OCR-reprocessing van digitale krantencollecties op grote schaal op dit moment minder interessant maken. Vooral bij de processen en infrastructuur voor de uitwisseling en tijdelijke opslag van bestanden liep het geregeld mis. Zo communiceerde het MAM-systeem van het meemoo-archief niet vlot met de Google bucket cloud storage van de leverancier.
Deze problemen losten meemoo en Odoma op met snelle workarounds. Een duurzame oplossing voor OCR-reprocessing initiatieven op grotere schaal is dat uiteraard niet. Wie in de toekomst een gelijkaardig project uitvoert, zorgt best op voorhand voor een betere match tussen de bestaande infrastructuur voor het ophalen, aanleveren en archiveren van bestanden en het systeem en de workflow van de leverancier. Bovendien brengen andere digitale krantencollecties ook andere uitdagingen met zich mee, afhankelijk van de lokale digitale infrastructuur en de huidige staat van hun scans en OCR. Er is dus geen pasklare oplossing. De aanpak bepaal je best geval per geval.
Massale OCR-reprocessing van gedigitaliseerde krantencollecties in Vlaanderen zou daarom veel uitdagingen met zich meebrengen en is momenteel moeilijk haalbaar. Wie voor het eerst zijn kranten digitaliseert, is wel echt gebaat bij OCR met een van de best presterende tools uit de evaluaties (zoals Google Document AI).
Contacteer ons voor info en tips
Overweeg je zelf een initiatief om de OCR van je digitale krantencollectie te verbeteren? Neem contact met ons op voor meer informatie en tips om jouw project in goede banen te leiden.
Over het project
Nieuwe Tijdingen was een samenwerkingsproject waar de Vlaamse Erfgoedbibliotheken met hoofdpartner meemoo en meer dan 60 partnerorganisaties werkten aan de creatie van een overkoepelend Vlaams programma voor de digitalisering, ontsluiting en archivering van het bedreigde Vlaamse krantenerfgoed.