Eerste resultaten OCR-onderzoek historische kranten wijzen op verbetermogelijkheden

Fragment heatmap

Vindbaar of onvindbaar? Bij gedigitaliseerde historische kranten heeft de kwaliteit van OCR (optical character recognition) een grote impact op zoekresultaten. De eerste resultaten van het onderzoek wijzen erop dat de OCR-kwaliteit van reeds gedigitaliseerde kranten nog aanzienlijk kan worden verbeterd met hedendaagse, state-of-the-art technologie.

Historische kranten bieden automatische tekstherkenning heel wat uitdagingen, zoals een complexe en gevarieerde opmaak, kleine lettertypes, slechte drukkwaliteit en een waaier aan schadebeelden. De snelle vooruitgang van machine learning technology zorgt ervoor dat tekstherkenningsprocessen steeds steviger in hun schoenen komen te staan, met betere tekstkwaliteit en doorzoekbaarheid tot gevolg.

De vzw Vlaamse Erfgoedbibliotheken voert een onderzoek naar OCR-verbetering uit om inzicht te krijgen in de OCR-kwaliteit van reeds gedigitaliseerde kranten in Vlaams bezit en de verbetermogelijkheden. We doen dat samen met meemoo, onderzoekers bij Staatsbibliothek zu Berlin, het Zwitsers bedrijf Odoma en tien erfgoedorganisaties. Het onderzoek maakt deel uit van het project Nieuwe Tijdingen, waarin we een blauwdruk creëren voor de grootschalige digitalisering van het Vlaamse krantenerfgoed. 

Waarop is het onderzoek gebaseerd?

In 2021 hebben we werk gemaakt van het verzamelen en vervaardigen van het nodige materiaal om de OCR-kwaliteit te evalueren. Daarbij hebben we handmatig een staal van 75 krantenpagina’s foutloos getranscribeerd en van layoutaanduidingen voorzien.

Deze ground truth-bestanden dienen als toetssteen voor de evaluatie van geautomatiseerde tekst- en laytoutherkenning. De geselecteerde pagina’s zijn representatief voor het corpus gedigitaliseerde historische kranten in Vlaams bezit. Over deze stap lees je meer in ons eerdere nieuwsbericht.

Wie werkt mee aan het onderzoek? 

Afgelopen najaar zijn onderzoekers van de Staatsbibliothek zu Berlin en Odoma aan de slag gegaan met de evaluatie van de OCR-kwaliteit. Als een leider op het vlak van OCR voor gedrukte historische teksten werkt de Staatsbibliothek zu Berlin aan de ontwikkeling van een open-source framework dat kan worden geïmplementeerd door digitaliseringsbedrijven en andere organisaties.

Het Zwitsers bedrijf Odoma bestaat uit een team van wetenschappers dat eveneens een hoog niveau van expertise heeft op OCR-vlak. De kern van hun activiteiten bestaat uit onderzoek naar en de ontwikkeling van machine learning-technologieën die kunnen worden toegepast op teksten. 

Wat wordt geëvalueerd? 

De organisaties voeren onafhankelijk van elkaar analyses uit om te achterhalen hoe het gesteld is met de kwaliteit van de bestaande OCR van gedigitaliseerde kranten in Vlaanderen. Anderzijds wordt gekeken of de OCR nog geoptimaliseerd kan worden, en in welke mate.

Daarvoor produceert de Staatsbibliothek zu Berlin nieuwe OCR voor de 75 pagina’s in de staal met behulp van twee methodes die ontwikkeld worden binnen de projecten Qurator en OCR-D. Ze maken daarbij gebruik van de opensource OCR-pakketten Calamari en Tesseract en de layoutanalysetool Eynollah. Ook de kwaliteit daarvan wordt geëvalueerd. Daarnaast kijkt Odoma of er voordeel kan worden behaald met de door henzelf ontwikkelde software voor het achteraf corrigeren van OCR.

Welke methode gebruiken we?

Tekstkwaliteit

De evaluatie van de huidige OCR-kwaliteit gebeurt met verschillende methodes en parameters die telkens vanuit een andere invalshoek de tekst van de OCR vergelijkt met foutvrije versies van de ground truth (foutvrije, handmatige transcripties van de tekst en layoutaanduidingen). Om de huidige tekstkwaliteit te bepalen zijn drie parameters belangrijk: Character error rate (CER), Word error rate (WER) en Bag-of-Words (BoW). 

De Character error rate is de meest gebruikelijke maatstaf voor het bepalen van de OCR-kwaliteit. Het gaat hier om het aantal fouten op het niveau van de individuele tekens. Een voorbeeld. Een automatisch proces leest ‘Ales is in bet buis gemaalet ter trouv en san’ terwijl de correcte tekst ‘Alles is in het huis gemaakt ter trouw en aan’ luidt. De CER is 19,4%, want er zijn 7 foute tekens op in totaal 36 tekens. 

De Word error rate geeft aan wat het aantal fouten op woordniveau is. Gewoonlijk is de WER hoger dan de CER door de verdeling van de tekenfouten over meerdere woorden. In het voorbeeld is de WER 60%, want zes van de tien woorden zijn fout. 

De CER en WER zijn afhankelijk van de layoutherkenning van een krant en dat kan de evaluatiescores scheeftrekken. Zo kan de tekst van een artikel wel correct herkend zijn door de OCR terwijl hij niet in de juiste volgorde staat door segmentatiefouten bij de automatische herkenning van de layout. Bij vergelijking met de ground truth-bestanden worden dus mogelijk de verkeerde regels met elkaar vergeleken, wat leidt tot een hoog foutpercentage. 

Om dat op te vangen is er een evaluatiemethode die onafhankelijk is van de leesvolgorde: de Bag-of-Words. Daarbij wordt de verschijningsfrequentie van woorden in de ground truth-bestanden vergeleken met die in de OCR. Deze parameter is alleen relevant voor eenvoudige gebruiksscenario’s, zoals zoeken op trefwoord, en niet voor geavanceerde toepassingen zoals textmining. Toch geeft het bij teksten die een slechte CER en WER hebben een goede bijkomende indicatie van de juistheid van de tekenherkenning.

Layoutkwaliteit

De kwaliteit van de layoutherkenning, die bij kranten complex is, heeft dus een grote impact op de digitale bruikbaarheid. Daarom evalueerde de Staatsbibliothek zu Berlin ook dit aspect. Bij layoutherkenning worden de pixelcoördinaten van elke onderdeel van de pagina (zoals de tekstregio's, de afbeeldingen en de tekstregels) genoteerd. Ook de leesvolgorde wordt bepaald. Tijdens de evaluatie worden de pixelcoördinaten en de leesvolgorde van de automatische OCR vergeleken met die van de ground truths. Dat is enkel mogelijk als de bestaande OCR informatie over de layout bevat, niet in gevallen waarbij alleen de tekst beschikbaar is.

Wat zijn de eerste resultaten?

Hoewel de evaluatie nog loopt leveren de tussentijdse resultaten al een interessant beeld op. Ze verschaffen ons een eerste inzicht in de kwaliteit van de bestaande OCR, de state-of-the-art van de OCR-technologie van vandaag en de post-correctietool van Odoma.

De evaluatie van de twee partners komen soms tot gelijkaardige conclusies maar bevatten ook verschillen. Die kunnen mogelijk veroorzaakt worden door verschillen in de voorbereiding van het evaluatiemateriaal (bijvoorbeeld het verwijderen van witruimte) of door het gebruik van andere bronbestanden (bijvoorbeeld ALTO of PAGE-XML). Verdere onderzoek moet uitwijzen waar de verschillen precies vandaan komen.

Hier focussen we vooralsnog op de raakvlakken. Beide partners zijn het hier over eens: de kwaliteit van de huidige OCR kan aanzienlijk verbeterd worden met  OCR-processen van vandaag. Momenteel treedt de OCR-tool Transkribus bij beide evaluaties op de voorgrond als best presterende software voor zowel tekst- als layoutherkenning, gevolgd door commerciële software als Abbyy FineReader, OmniPage en GoogleVision. Die commerciële software is wel nog niet grondig genoeg onderzocht en de resultaten zijn daarom indicatief. 

Kijken we naar de prestaties van de methodes die de Staatsbibliothek ontwikkelt, dan presteert de Tesseract-Eynollah combinatie erg goed, zij het met een erg lange verwerkingstijd. De Calamari-software gaf de slechtste resultaten, maar deze software is dan ook bedoeld voor teksten die gezet zijn in Fraktur. In de aangeleverde staal uit Vlaamse collecties vinden we maar één pagina in dat lettertype.

Heat map Odoma verhouding Transkribus tegenover originele OCR

Rood duidt op een sterke prestatie van Transkribus in verhouding tot de originele OCR, blauw duidt op een zwakkere prestatie van Transkribus in verhouding tot de originele OCR. Hoe donkerder het rood hoe beter de score en vice versa. (Heatmap: Odoma)

Rood duidt op een sterke prestatie van Calamari in verhouding tot de originele OCR, blauw duidt op een zwakkere prestatie van Calamari in verhouding tot de originele OCR. Hoe donkerder het blauw hoe slechter de score en vice versa. (Heatmap: Odoma)

Bij het onderzoek is gebleken dat niet alle originele OCR van slechte kwaliteit zijn en dat pogingen om die te verbeteren niet in alle gevallen zinvol zijn. Beide onderzoekspartners stellen dat in uitzonderlijke gevallen de originele OCR de beste is. Het is belangrijk om te achterhalen waarom, om zo te kunnen bepalen welke (onderdelen van) digitale krantencollecties het kunnen stellen zonder verbetertraject.

Er wordt daarbij gekeken welke eigenschappen van de kranten de originele OCR-kwaliteit beïnvloeden. Een eerste analyse leverde geen bruikbare indicatoren op. Zo is er bijvoorbeeld geen significant verband tussen de OCR-kwaliteit en het jaar van uitgave. 

Hoe hoger de Bag-of-Words-score, hoe slechter de prestatie. Er is geen verband tussen de tekstkwaliteit het jaar van uitgave. (Grafiek: Odoma)

De evaluatie van de post-correctietool van Odoma wijst erop dat de tool doorgaans niet voor significante verbetering zorgt. Bij OCR-software die minder goed presteert blijkt post-correctie wel nuttig te zijn. Maar bij sterk presterende softwares zoals Transkribus geeft de tool geen betere resultaten. Dat wil niet zeggen dat er geen andere post-correctiemethodes zijn die potentieel hebben.

Wat zijn de volgende stappen?

De onderzoeksresultaten dienen ervoor om te zorgen dat de OCR van nieuw gedigitaliseerde kranten kan worden geoptimaliseerd. Maar het is ook de bedoeling om de verbetering van bestaande OCR mogelijk te maken op grote schaal. Als de volledige onderzoeksresultaten beschikbaar zijn formuleren we hiervoor een methode en een plan van aanpak. 

In 2022 voeren we een piloot uit om deze aanpak te testen en een beter zicht te krijgen op de kosten ervan. Daarbij verbeteren we de OCR van zo’n 150.000 krantenpagina’s in digitale collecties in Vlaanderen. OCR verbeteren is één ding, maar die OCR vervolgens integreren in bestaande digitale krantencollecties is vers twee. We analyseren daarom de impact hiervan en stellen ook hiervoor een plan van aanpak op.

Tenslotte blijven we verdere mogelijkheden onderzoeken voor samenwerking en andere manieren om de kwaliteit van OCR te verbeteren. De ground truth-dataset die we hebben samengesteld is daarbij een waardevol instrument dat we ook willen delen met andere onderzoekers die werken rond deze materie. 

Ben je geïnteresseerd om met ons samen te werken rond OCR-verbetering of heb je vragen hierrond? Mail dan naar Montaine Denys, projectmedewerker Nieuwe Tijdingen, via montaine@vlaamse-erfgoedbibliotheken.be.

Over het project

Nieuwe Tijdingen is een samenwerkingsproject waar de vzw Vlaamse Erfgoedbibliotheken samen met hoofdpartner meemoo en collectiebeherende instellingen werkt aan de ontwikkeling van een grootschalig Vlaamse programma voor de digitalisering, ontsluiting en archivering van het bedreigde Vlaamse krantenerfgoed. 

Wil je het project volgen? Schrijf je dan in voor onze projectnieuwsbrief.

  • Nieuwsbericht
  • |
  • 10-02-2022
  • |
  • Montaine Denys (Vlaamse Erfgoedbibliotheken)