Wat heb je nodig om OCR-kwaliteit te evalueren?
Wie zoekt, die vindt? Dat is helaas niet altijd het geval bij online kranten. OCR moet gedigitaliseerde kranten beter vindbaar en bruikbaar maken, maar de automatisch omgezette teksten bevatten vaak nog veel fouten.
Daarom werkt de vzw Vlaamse Erfgoedbibliotheken samen met meemoo, Staatsbibliothek zu Berlin en collectiebeherende instellingen aan de evaluatie van de OCR (Optical Character Recognition) van het reeds gedigitaliseerde Vlaamse krantenerfgoed. Met de transcriptietool Transkribus en de inspanningen van collectiebeheerders is een belangrijke stap gezet om dit onderzoek mogelijk te maken: het opstellen van foutvrije handmatige lay-out analyses en transcripties, de zogenoemde ground truth-bestanden. Dit referentiemateriaal is essentieel voor het testen van OCR-resultaten. Je kan tenslotte maar meten hoe correct automatische tekst- en layoutherkenning is als je weet hoe het ideale resultaat eruitziet.
Waarom de kwaliteit van OCR evalueren?
OCR is een proces waarbij afbeeldingen van gedrukte tekst wordt omgezet naar computerleesbare tekst. Hierdoor kan je gedigitaliseerde kranten makkelijker en efficiënter doorzoeken. Maar dit omzettingsproces is zelden foutloos. Factoren zoals de complexiteit van de lay-out, de conditie van het papieren origineel, de beeldkwaliteit van de scan en de gebruikte software hebben een impact op de kwaliteit.
Het verbeteren van de toegang tot bestaande digitale krantencollecties is een speerpunt van Nieuwe Tijdingen, het programma voor de digitalisering, duurzame bewaring en ontsluiting van het Vlaamse krantenerfgoed. Als we de bestaande OCR kunnen verbeteren, vergroten we de vangst en de betrouwbaarheid van de resultaten bij het zoeken in deze collecties. De laatste jaren is er veel vooruitgang geboekt bij het verbeteren van OCR met machine learning technology. Een verbetertraject voor ‘oude’ OCR lijkt dus een nuttig idee.
Maar wat is nu eigenlijk de OCR-kwaliteit van gedigitaliseerde Vlaamse krantencollecties? Welke verbeteringen mogen we verwachten met de technologie van vandaag? Welke stappen moeten we nemen om de kwaliteit te verbeteren en de bruikbaarheid van gedigitaliseerde kranten effectief te verhogen? En wegen de kosten op tegen de baten?
Om deze vragen te beantwoorden evalueert de Staatsbibliothek zu Berlin de OCR van 75 krantenpagina’s die representatief zijn voor het corpus van reeds gedigitaliseerde kranten uit Vlaamse collecties. De Staatsbibliothek is een leider op het vlak van OCR voor gedrukte historische teksten en werkt aan de ontwikkeling van een open-source framework dat kan worden geïmplementeerd door digitaliseringsbedrijven en andere organisaties.
Waaruit bestaat de testdata?
We hebben als testdata een selectie van 75 krantenpagina’s samengesteld uit de digitale collecties van elf partnerorganisaties:
- Meemoo, Vlaams instituut voor het archief
- Amsab-Instituut voor Sociale Geschiedenis
- Erfgoedbibliotheek Hendrik Conscience
- Erfgoedcel Waasland
- KADOC-KU Leuven
- Liberas
- Openbare Bibliotheek Brugge
- Stadsarchief Kortrijk
- Stuifzand
- Universiteitsbibliotheek Gent-Boekentoren
- Zuidwest
De variëteit binnen de selectie is bewust groot. Samen omspannen de pagina’s de periode van 1792 tot 2007. De kranten werden gedigitaliseerd van papier of microfilm, van wisselende kwaliteit. De lay-out varieert van simpel tot complex. Er zijn titels in elk van de drie landstalen.
We hielden ook rekening met variëteit in de digitaliseringsoutput. Digitalisering is een jong fenomeen dat snel evolueert. De vroegste digitalisering in deze selectie dateert van 2004 en de recentste uit 2021. Er zijn de digitale dragers in TIFF, JPEG2000, JPEG en PDF, elk in wisselende kwaliteiten. Ook de OCR-bestanden dekken een spectrum aan formaten, waaronder XML en PDF, en zelfs scans zonder OCR.
Waaraan meet je OCR-kwaliteit af?
Een cruciale stap voor OCR-evaluatie is het opstellen van ground-truth bestanden: foutvrije en voornamelijk handmatig opgestelde versies van de tekst en de segmentering. Die dienen als ijkpunt om het resultaat van OCR-processen uit het verleden en de state-of-the-art processen van vandaag aan af te meten. Zo komen we te weten wat de foutmarges zijn en wat de ruimte voor verbetering is.
Hoe zijn de ground truth-bestanden gemaakt?
Met Transkribus — een uitgebreid en gebruiksvriendelijk platform voor het digitaliseren, transcriberen, herkennen en doorzoeken van historische documenten met artificiële intelligentie onder de motorkap — hebben we de krantenpagina’s handmatig gesegmenteerd en getranscribeerd.
Bij de segmentatie worden de regio’s, tekstlijnen, tags, leesvolgorde en groepering van de lay-out bepaald en vastgelegd. Dat gebeurt grotendeels handmatig, met uitzondering van de tekstlijnen. Die worden door Transkribus automatisch gedetecteerd en daarna manueel gecorrigeerd.
De volgende stap bij de tijdsintensieve creatie van de ground truth is het maken van de transcripties. Dankzij de samenwerkingsopties van Transkribus en de enthousiaste inzet van vrijwilligers en collega’s van zes partnerorganisaties werden de transcripties van de krantenpagina’s van deze instellingen klaargestoomd. In een online workshop kregen deze medewerkers uitleg over de webversie van Transkribus, de workflow en de transcriptieregels.
Daarna typten ze gedurende twee maanden geduldig de krantenpagina’s letter voor letter over. Na controle werden de transcripties samen met de lay-outmarkering geëxporteerd uit Transkribus in het PAGE XML-formaat.
Hoe verloopt het onderzoek verder?
Die ground truth- bestanden gingen samen met de originele scans en OCR-bestanden naar de Staatsbibliothek zu Berlin voor evaluatie. Zoals gezegd wordt ook nieuwe OCR geëvalueerd. We hebben daarvoor enkele krantenpagina’s bezorgd aan een firma die ze heeft verwerkt met vier verschillende OCR-pakketten. Vergelijking met de ground truth-bestanden moet uitwijzen wat de kwaliteit van deze pakketten is, en waar hun sterktes en zwaktes liggen. Ook de kwaliteit van de automatische output van Transkribus zal worden geëvalueerd. En tot slot onderwerpt de Staatsbibliotheek de originele scans aan hun eigen state-of-the-art OCR. Eind dit jaar kunnen we meer vertellen over de resultaten van dit onderzoek.
Naast deze evaluatie onderzoeken we verdere mogelijkheden voor samenwerking en andere manieren om de kwaliteit van bestaande OCR-teksten te evalueren en te verbeteren. De dataset die we hebben samengesteld is een waardevol instrument dat we willen delen met onderzoekers die werken rond deze materie.
De resultaten van de evaluatie en verder onderzoek zullen in 2022 gebruikt worden om in een pilootproject de OCR van minstens 150.000 pagina's uit gedigitaliseerde krantencollecties te verbeteren. Het traject zal ook informatie opleveren over hoe we optimaal kunnen OCR-en bij nieuwe digitalisering.
Over het project
Nieuwe Tijdingen is een samenwerkingsproject waar de vzw Vlaamse Erfgoedbibliotheken samen met hoofdpartner meemoo en collectiebeherende organisaties werkt aan de creatie van een overkoepelend Vlaams programma voor de digitalisering, ontsluiting en archivering van het bedreigde Vlaamse krantenerfgoed. Naast het OCR-verbeteringstraject omvat het project andere activiteiten ter voorbereiding van het krantenprogramma, waaronder de opmaak van een masterplan voor grootschalige digitalisering, de samenstelling van lijsten van te digitaliseren kranten, analyse van de fysieke conditie van Vlaamse krantencollecties, een traject naar behoeftebepaling van toekomstige gebruikers van het krantenplatform binnen Het Archief 2.0, en onderzoek rond auteursrechten.
Ben je benieuwd hoe het project zich verder ontwikkeld? Schrijf je dan in voor onze projectnieuwsbrief.